日本视频在线免费观看,成人午夜精品一区二区三区,在线精品视频一区二区三四

【資料圖】

一旦網絡訓練完成，權重矩陣將永久固定，然后根據網絡對測試數據的泛化結果來評估其有效性。但很多環境在訓練后會不斷進化，測試數據可能會偏離訓練，超出神經網絡的泛化能力。這需要人工干預來重新訓練或調整模型。相反，一個完全自主的系統應該學會根據新的經驗更新自己的程序，而不需要干預。特別是在多任務學習和元學習中，學習如何保持模型的更新和微調是非常重要的，這可以幫助網絡快速適應各種情況和新的挑戰。LSTM之父Jrgen Schmidhuber等人在研究一種學會自我修改的現代自參照權重矩陣時，基于更新和生成權重的現代技術，回顧了20世紀90年代以來提出的自參照權重矩陣(self-reference WM)，特別是利用快速權重程序員(FWPs)背景下建立的機制，導出了一種新的自參照權重矩陣(SRWM)。本研究從以下三個方面對SRWM進行了評價：第一，該模型在標準小樣本學習中取得了競爭性能，證明了所提出的模型能夠有效地產生有用的自我糾錯；其次，通過將小樣本學習設置擴展到連續多任務學習設置，檢驗SRWM適應運行時任務實時變化的能力。最后在ProcGen game environment設置的多任務強化學習(RL)環境下進行評測，包括編程游戲環境。總的來說，證明了本文提出的方法的實用性和較強的性能。新的自校正權重矩陣本文提出的新的自校正權重矩陣(SRWM)類似于最近提出的FWPs變體。它通過學習自己發明的鍵/值的“訓練”模式和學習率進行自我訓練，調用基于外積和delta函數更新規則的基本編程指令。具體步驟如下：給定t時刻的輸入xtRdin，本文中的SRWM WT1 R (dout2 * DIN1) DIN會產生四個變量[yt，qt，kt，t]。其中ytRdout是本層在當前時間步的輸出，qtRdin和ktRdin是查詢向量和關鍵向量，tR是根據delta函數使用的自創學習率。類似于90年代提出的原始SRWM論文中引入的術語，ktRdin是修正的鍵向量，表示鍵向量，其當前值在SRWM中必須修正；QtRdin是查詢向量，再次發送給SRWM以檢索新的“值”向量，并將其與修改后的鍵向量相關聯。總體動態可以簡單地表述如下：

其中值向量有維數：vt，R(dout 2*din 1)。如圖1所示。

圖1一個“現代”的自指權矩陣(SRWM)重要的是，SRWM中W0的初始值是這一層中唯一需要梯度下降訓練的參數。在實踐中，本文將矩陣的輸出維數從“3d 1”(dout 2 * din 1)擴展到“3d 4”(dout 2 * din 4)，生成四個不同的自創時變學習率tR4，用于WT1=[Wyt1，WQT1，WTK1，W T1在公式(8)中，為了提高計算效率，本文還利用了普通變壓器模型中的多頭計算。上述SRWM可以用來代替任何傳統的權重矩陣。本文關注一種模型，該模型可以通過使用相應的SRWM公式(5)來獲得

(8)取代基準模型DeltaNet中的式(1)-(4)而得到。實驗結果實驗的總體目標是評估所提出的SRWM在各種需要“良好”自我修改類型的任務上的性能，因此對標準監督的小樣本(few-shot)學習任務和在游戲環境中的多任務強化學習進行了實驗。1. 標準小樣本(Few-Shot)學習小樣本圖像分類任務或稱為基于包含C類數據集的N-way K-shot圖像分類任務，是通過所謂的場景來組織的。在每一個場景中，從C類中隨機抽取N個不同的類，由此產生的N類被重新標記的數據集，將N個不同的隨機標簽索引中的一個分配給每一個類。對于這N個類中的每一個，隨機抽取K個樣本。由此得到的N×K個標簽圖像的集合稱為支持集。該任務的目標是根據支持集中可用的信息，預測從N類中的一類中采樣的另一幅圖像(不在支持集中的查詢圖像)的標簽。雖然有好幾種方法可以解決這個問題，但本文采用順序學習方法來評估本文的SRWM。也就是說，將支持集的圖像/標簽對隨機排序，形成一個由序列處理神經網絡(例如，循環神經網絡)讀取的序列。對應的神經網絡通過將支持集信息編碼為其內部狀態來預測查詢圖像的標簽。在本文提出的SRWM中，模型在讀取支持集項的序列時生成自己的更新權重，生成的權重用于計算對查詢圖像的最終預測。為了詳細說明這種方法，還需要解釋如何將輸入圖像/標簽對輸入到模型中。這里本文采用Mishra等人使用的方法，稱為圖2所示的同步標簽設置，這是專門為N-way K-shot學習設計的策略。即對支持集中的N×K個項目，同時將輸入及其標簽輸送給模型。該模型只預測第(N×K+1)個輸入的標簽，即沒有標簽的查詢圖像。本文稱另一種方法為延遲標簽設置(如圖3所示)。事實上，因為Mishra等人提出的SNAIL模型是一個類似于transformer的模型(規則前饋塊被一維卷積代替)，因此將其作為本文實驗的基準模型，還在基準模型中引入了Oreshkin等人提出的TADAM方法。然而，本文注意到，TADAM是一種專門為小樣本學習設計的方法，與本文的模型和SNAIL不一樣，SNAIL是適用于小樣本學習之外的通用序列處理神經網絡。圖2 N-way K-shot學習的同步標簽設置。正確的標簽與前N×K個標記相應的輸入一起作為輸入。只對第(NK+1)個無標簽輸入的標簽進行預測。圖3 延遲標簽設置。正確的標簽在對應輸入的后一步被輸入。在每一步進行預測。最終的性能受視覺特征提取器選擇的直接影響，視覺特征提取器使用視覺模型將輸入圖像轉換為一個緊湊的特征向量，然后將其提供給序列處理模塊。在這里，本文展示了在這些基準模型上使用兩種流行特征提取器的結果：Conv-4和Res-12。結果如表1所示。總體而言，所提出的SRWM性能良好。將SRWM與一般的SNAIL模型進行比較，SRWM在Mini-ImageNet2上實現了獨立于視覺后端(Conv-4或Res12)的具有競爭力的性能。DeltaNet和SRWM具有相似的性能。這是一個令人滿意的結果，因為它表明單個自修正的WM(而不是單獨的慢速和快速網絡)在這個單一任務場景中仍然具有競爭力。表1 在Omniglot、Mini-ImageNet和FC100上使用Conv4或Res-12視覺特征提取器進行單任務、 5-way、小樣本分類測試準確率(%)。本文發現雖然TADAM在 5-shot Mini-ImageNet上的表現優于SRWM，但在1-shot、5-shot FC100以及 1-shot MiniImangeNet上的性能與SRWM不相上下。盡管SRWM是一種非常通用的方法，但它的整體性能非常具有競爭力，這表明了所提出的自我修正權重矩陣的有效性(本實驗的主要目標)。2．連續的多任務適應性本節需要在運行時適應環境變化的任務上測試它的自適應性。本文對上述小樣本學習進行了兩個修改。首先，不使用同步標簽設置(圖2)對模型進行N-way K-shot分類的專門訓練，而是在如圖3所示的延遲標簽設置中訓練本文的模型。此處，模型在每個時間步下，通過接收一個需要分類的輸入圖像和前一個輸入的正確標簽(因此標簽輸送被移動/延遲一個時間步)來做出預測。這種設置便于在連續的預測/解決方案流上評估模型。其次，通過將來自兩個不同數據集的兩個圖像序列(Omniglot和Mini-ImageNet)串聯起來，構造出要預測的圖像序列。該模型首先接收來自其中一個數據集的圖像流，在某個時刻，使數據集突然發生變化，以模擬環境的變化。模型必須學會在沒有人為干預的情況下，在程序的持續執行中適應這種轉變。注意，本文的目標是構造一個任務，它需要適應模型運行期間的突然變化。這不同于連續的小樣本學習的目標，即在多個小樣本學習任務上連續進行元學習。因此，本文在一個5-way分類設置中進行實驗，將Omniglot和Mini-ImageNet片段串聯起來，每個片段中的每個類包含多達15個示例。每個batch的連接順序是交替的，訓練片段的長度是隨機裁剪的。無論模型類型如何，本文發現延遲標簽設置下的訓練模型比同步標簽設置下的訓練模型更難。本文觀察到，在許多配置中，模型被卡在一個次優行為中，在這個行為中，它學習提高了零樣本(zero-shot)的類平均精度(顯然是通過學習輸出序列中第一次出現的新類的一個未使用的標簽)，但在反饋中的每一步中都不能正確地學習。本文確定的最關鍵的超參數是足夠大的批處理大小。最后，本文在這個連續自適應任務上成功的訓練了DeltaNet基準模型和SRWM。圖4顯示了SRWM的測試時間精度隨著輸入的增加而變化的情況。在這個測試設置中，模型從接收來自Omniglot數據集的一系列樣本開始。在第74代任務發生變化；此時模型必須對從Mini-ImageNet數據集采樣的圖像進行分類。這個變化導致模型的準確率明顯下降，這是因為模型不知道新的數據點屬于哪個類，但它能夠有效地適應自己，開始學習第二個任務。表2比較了DeltaNet和SRWM。雖然他們在基于Omniglot的測試序列的第一部分的表現相似，SRWM在Mini-ImageNet的第二部分采樣中實現了更高的精度，顯示了其快速適應能力。圖4 基于SRWM的測試精度(%)(使用Conv4后端)，該模型作為連續多任務適應設置中轉發步驟數量的函數(第4.2節)。數據點流以延遲標簽的方式提供給模型(圖3)。數據點從Omniglot進行采樣直到第74步(精度下降)，然后從Mini-ImageNet采樣。表2 連續多任務小樣本學習實驗的總準確率和實例級準確率(%)(第4.2節)。對于實例級精度，列k∈{1,2,3,5,10}表示每個類中第k個實例的正確預測百分比。測試時間的場景下的模型首先被要求學習預測Omniglot和Mini-ImageNet。Conv4后端用于兩種模型。3．多任務強化學習(RL)最后，本文在采用程序生成的ProcGen游戲環境設置的多任務RL上評估所提出的模型。相應的設置如圖5所示。圖5 多任務RL的插圖。初始權矩陣W0對所有任務和場景是相同的。有效的權重矩陣是特定任務/事件的輸入流的函數。表3展示了聚合的標準化分數。相較于基準模型，SRWM性能的提高在Bigfish和Starpilot這兩個環境尤其大。本文對這兩個案例進行單獨研究。如表所示，本文將上述多任務訓練與專門在一個環境下訓練50M步的專家訓練進行了比較。在Starpilot上，本文觀察到自我修正機制甚至在單個任務情況下也有改進。Bigfish的例子更有趣：在專家訓練案例中，具有自我修正能力和不具有自我修正能力的模型性能接近。然而，自我修正模型在多任務設置中獲得了更好的分數，在多任務設置中，基準模型的性能有很大的幅度的下降。這驗證了SRWM能夠適應多任務場景中每個環境的能力。表4 多任務與專家訓練模型性能的比較。在ProcGen的簡單分布中獲得的原始分數。作為消融研究，本文通過在每個固定時間跨度(其長度為反向傳播跨度)后重置權重更新來訓練和評估SRWM。相比較那些沒有自我修正的模型(表3)而未能利用SRWM機制模型，該模型在訓練和測試分支上分別獲得28.5(1.2)和16.1(2.2)的分數。三個實驗中，證明了本文提出的SRWM是實用的，并且在有監督的小樣本學習和多任務強化學習，以及程序生成的游戲環境表現良好。希望本文的結果可以鼓勵對自我修正神經網絡的進一步研究。

關鍵詞：