「壊滅的な忘却」を回避する方法は?


8

Michael Coniball(Spacyの作成者)がこの記事を読んだとき、彼は破滅的な忘却」問題について語っています。

ここで彼は、新しいラベルを追加したり、特定のエラーを修正したりするために事前トレーニング済みモデルを微調整したい場合、「破滅的な忘却」問題(一般性を失う)を引き起こす可能性があると述べています。これと戦うために、彼は疑似リハーサルと呼ばれる技術を提案します。彼は、初期モデルで多くの例を予測し、それらを微調整データを通して混合し、それをモデルの目標として使用すると述べています。

つまり、これは、初期モデルによって生成された代わりにを使用して、新しく取得したデータポイントの新しい値と混合し、それを使用してモデル?Y^ThePredctedValあなたeYTheGroあなたdTrあなたthY

私は正しいですか?誰かが詳しく説明できますか?


1
すべての指数関数はゼロ次です。つまり、それらは無記憶です。「壊滅的な忘却」の原因は、基本的なモデルの仮定にあります。それを考えると、「壊滅的な」イベントは非常に可能性が高いだけでなく、長く反復的なチェーン全体で避けられません。*疑似リハーサルは絆創膏であり、実際の解決策ではありません。指数関数を超えるゼロ以外の次数の仮定への復帰は、1つのアプローチです。これに対する提案には、堅牢でノンパラメトリックで分布のない仮定、極値分布の活用などが含まれます。
マイクハンター

回答:


6

壊滅的な忘却は、ニューラルネットワークに固有の問題です。ウィキペディアから、

(破滅的な忘却)は、「感度-安定性」ジレンマまたは「安定性-可塑性」ジレンマの根本的な兆候です。具体的には、これらの問題は、新しい情報に敏感ではあるがそれによって妨害されない人工ニューラルネットワークを作成できるという問題を指します。ルックアップテーブルとコネクショニストネットワークは、安定性可塑性スペクトルの反対側にあります。前者は、新しい情報が存在しても完全に安定していますが、新しい入力から一般化する、つまり一般原則を推論する機能はありません。

破滅的な忘却とは何ですか?タスクAとタスクBの2つのタスクについて考えてみましょう。ここで、タスクA(学習済みの重み)ですでにかなり優れている事前学習済みモデルを使用しているとします。θ)、タスクBにも適合するように「微調整」します。一般的な方法は、タスクAでトレーニングされたモデルの重みを取得して、タスクBでのトレーニングの初期化として使用することです。これはうまく機能しますタスクBがタスクAの「サブタスク」であるアプリケーション(たとえば、タスクBが眼鏡を検出し、タスクAが顔を検出する)。BがAのサブタスクではない場合、壊滅的な忘却が発生する恐れがあります。基本的に、ネットワークはタスクAに対して最適化される前と同じニューロンを使用して、タスクBを予測します。これを行うと、タスクAのインスタンスを正しく分類する機能を完全に失います。実際にこれを試すことができます。MNISTイメージが5であるかどうかを判断できる小さなネットワークを構築し、このタスクでその精度を測定できます。次に、このモデルをMNISTイメージが4かどうかを判断するタスクに微調整すると、元のタスク(5を認識する)の最終モデルの精度が低下していることに気付くでしょう。

素朴なソリューション。壊滅的な忘却の素朴な解決策は、微調整されたモデルの重みを初期化するだけではなく、θだけでなく、正則化も追加します。微調整されたモデルのソリューションが遠くにある場合は、ペナルティを課します θ。基本的に、これは、目的がタスクBの最適なソリューションを見つけることであることを意味します。θ、タスクAの解決策。これを単純なアプローチと呼ぶのは、多くの場合、うまく機能しないためです。ニューラルネットワークによって学習される関数は、非常に複雑で線形からはほど遠いことが多いため、パラメーター値の小さな変更(つまり、θB に近い θ)は、非常に異なる結果(つまり、 fθ とは大きく異なります fθB)。それは私たちが気にする結果なので、これは私たちにとって悪いことです。

疑似リハーサル。より良いアプローチは、タスクBで良い結果を出そうとすると同時にfθ。良いことは、このアプローチは非常に簡単に実装できることです。θ、そのモデルを使用して、「ラベル付き」の例を無限に生成できます。 バツfθバツ。次に、微調整されたモデルをトレーニングするときに、タスクBのラベルが付いた例とフォームの例を交互に使用しますバツfθバツ後者は、ネットワークがタスクBの処理を学習しながらタスクAを処理する能力を失わないようにする「改訂演習」と考えることができます

さらに良い方法は、メモリを追加することです。私たちは人間として、新しい例を使用して一般化(可塑性)することと、非常にまれなイベントを記憶すること、またはしばらく使用しなかったスキル(安定性)を維持することに優れています。多くの点で、ディープニューラルネットワークで同様のことを実現する唯一の方法は、私たちが知っているように、何らかの形の「記憶」をそれらに組み込むことです。これはあなたの質問の範囲外ですが、興味深く、活発な研究分野なので、私はそれを言及します。この例の最近の作品を参照してください:レアイベントを覚える

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.