壊滅的な忘却は、ニューラルネットワークに固有の問題です。ウィキペディアから、
(破滅的な忘却)は、「感度-安定性」ジレンマまたは「安定性-可塑性」ジレンマの根本的な兆候です。具体的には、これらの問題は、新しい情報に敏感ではあるがそれによって妨害されない人工ニューラルネットワークを作成できるという問題を指します。ルックアップテーブルとコネクショニストネットワークは、安定性可塑性スペクトルの反対側にあります。前者は、新しい情報が存在しても完全に安定していますが、新しい入力から一般化する、つまり一般原則を推論する機能はありません。
破滅的な忘却とは何ですか?タスクAとタスクBの2つのタスクについて考えてみましょう。ここで、タスクA(学習済みの重み)ですでにかなり優れている事前学習済みモデルを使用しているとします。θあ)、タスクBにも適合するように「微調整」します。一般的な方法は、タスクAでトレーニングされたモデルの重みを取得して、タスクBでのトレーニングの初期化として使用することです。これはうまく機能しますタスクBがタスクAの「サブタスク」であるアプリケーション(たとえば、タスクBが眼鏡を検出し、タスクAが顔を検出する)。BがAのサブタスクではない場合、壊滅的な忘却が発生する恐れがあります。基本的に、ネットワークはタスクAに対して最適化される前と同じニューロンを使用して、タスクBを予測します。これを行うと、タスクAのインスタンスを正しく分類する機能を完全に失います。実際にこれを試すことができます。MNISTイメージが5であるかどうかを判断できる小さなネットワークを構築し、このタスクでその精度を測定できます。次に、このモデルをMNISTイメージが4かどうかを判断するタスクに微調整すると、元のタスク(5を認識する)の最終モデルの精度が低下していることに気付くでしょう。
素朴なソリューション。壊滅的な忘却の素朴な解決策は、微調整されたモデルの重みを初期化するだけではなく、θあだけでなく、正則化も追加します。微調整されたモデルのソリューションが遠くにある場合は、ペナルティを課します θあ。基本的に、これは、目的がタスクBの最適なソリューションを見つけることであることを意味します。θあ、タスクAの解決策。これを単純なアプローチと呼ぶのは、多くの場合、うまく機能しないためです。ニューラルネットワークによって学習される関数は、非常に複雑で線形からはほど遠いことが多いため、パラメーター値の小さな変更(つまり、θB に近い θあ)は、非常に異なる結果(つまり、 fθあ とは大きく異なります fθB)。それは私たちが気にする結果なので、これは私たちにとって悪いことです。
疑似リハーサル。より良いアプローチは、タスクBで良い結果を出そうとすると同時に、 fθあ。良いことは、このアプローチは非常に簡単に実装できることです。θあ、そのモデルを使用して、「ラベル付き」の例を無限に生成できます。 (x 、fθあ(x ))。次に、微調整されたモデルをトレーニングするときに、タスクBのラベルが付いた例とフォームの例を交互に使用します(x 、fθあ(x ))。後者は、ネットワークがタスクBの処理を学習しながらタスクAを処理する能力を失わないようにする「改訂演習」と考えることができます。
さらに良い方法は、メモリを追加することです。私たちは人間として、新しい例を使用して一般化(可塑性)することと、非常にまれなイベントを記憶すること、またはしばらく使用しなかったスキル(安定性)を維持することに優れています。多くの点で、ディープニューラルネットワークで同様のことを実現する唯一の方法は、私たちが知っているように、何らかの形の「記憶」をそれらに組み込むことです。これはあなたの質問の範囲外ですが、興味深く、活発な研究分野なので、私はそれを言及します。この例の最近の作品を参照してください:レアイベントを覚える。