ニューラルネットワークが簡単にだまされるのはなぜですか?


13

ニューラルネットワークを「だます」ために手動で画像を作成することに関するいくつかの論文を読みました(以下を参照)。

これは、ネットワークが条件付き確率のみをモデル化するためですか? ネットワークが結合確率p y x をモデル化できる場合、そのようなケースは引き続き発生しますか?py|バツ
pyバツ

私の推測では、そのような人為的に生成された画像はトレーニングデータとは異なるため、確率が低くなります。したがって、p y | x がそのような画像に対して高くてもp y x は低くなければなりません。pバツpyバツpy|バツ

更新

私はいくつかの生成モデルを試してみましたが、役に立たないことが判明したので、おそらくこれはMLEの結果でしょうか?

私はKL発散は、損失関数の値として使用した場合の平均ここで、P D A T AX 損失に影響を与えない小さいです。だから、一致していない不自然な画像のためのpをD A T Aの値のp θは任意とすることができます。pθバツpdataバツpdatapθ

更新

Andrej Karpathyによるブログを見つけました。

これらの結果は画像、ConvNetsに固有のものではなく、ディープラーニングの「欠陥」でもありません。

ここに画像の説明を入力してください
ADVERSARIALの例の説明と活用ディープニューラルネットワークは簡単にだまされます:認識できない画像の高信頼性予測
ここに画像の説明を入力してください


質問は、一般的なNNではなくDNNのように見えますか?
マシューガン

@MatthewGunn seanv507の答えによると、それはより一般的な問題のようです。
dontloo

@MattewGunnが敵のサンプルペーパーを説明し利用する-ショーはロジスティック回帰にも適用される
-seanv507

回答:


10

参照しているモデルの種類は、差別的ではなく「生成的」モデルと呼ばれ、実際には高次元のデータにスケールアップしません。言語タスクにおけるNNの成功の一部は、生成モデル(HMM)から「より」差別的なモデルを実行することです(たとえば、MEMMはロジスティック回帰を使用して、コンテキストデータを効果的に使用できますhttps://en.wikipedia.org/ wiki / Hidden_​​Markov_model#Extensions

私は彼らがだまされている理由はより一般的な問題だと主張します。これは、より洗練された方法に対する「浅い」ML駆動型AIの現在の優位性です。[多くの論文で、他のMLモデルも簡単にだまされていることが言及されています-http : //www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html-Ian Goodfellow]

多くのタスクで最も効果的な「言語モデル」は「言葉の袋」です。これが人間の言語の意味のあるモデルを表していると主張する人はいません。この種のモデルも簡単にだまされることを想像するのは難しくありません。

同様に、オブジェクト認識などのコンピュータービジョンタスクは、より大量の計算を必要とする方法(大量のデータセットには適用できませんでした)を吹き飛ばした「ビジュアルバッグオブワード」によって革命を起こしました。

CNNは、より良い「視覚的な言葉の袋」を主張します-あなたが画像で示すように、間違いはピクセルレベル/低レベルの機能で行われます。すべての誇張にもかかわらず、隠されたレイヤーには高レベルの表現はありません-(誰もが間違いを犯しますが、ポイントは、より高いレベルの機能のために人が「間違い」を犯し、たとえば、私は猫の漫画を認識します」 tはNNが信じます)。

コンピュータービジョンのより洗練されたモデルの例(NNよりもパフォーマンスが悪い)は、たとえば「変形可能部品」モデルです。


4

私の知る限り、ほとんどのニューラルネットワークは、入力画像の事前確率分布を使用していません。ただし、トレーニングセットの選択は、このような確率分布であると解釈できます。そのビューでは、これらの人為的に生成された画像がテストセットの画像として選択されることはほとんどありません。「結合確率」を測定する1つの方法は、画像をランダムに生成してからラベルを付けることです。問題は、広大なVASTの大多数にラベルがないことです。したがって、適切な数のラベル付きサンプルを取得するには時間がかかりすぎます。


答えてくれてありがとう:)「結合確率」を測定する方法の1つは、画像をランダムに生成してからラベルを付けることです。」 )?
dontloo

1
つまり、各ピクセルのRGB値をランダムに選択して画像を生成します。これは、投稿の右上のパンダ画像と左上の「ギボン」パンダ画像が生成される確率が等しいことを意味します。これに関する問題は、各ピクセルに2 ^ 24色があり、生成される画像の大部分がナンセンスであることです。「パンダ」とラベル付けできる単一の画像さえ生成するまでに、宇宙は消えてしまいます。
dimpol

ああ、そうですね、やることがたくさんあるようです。とにかくありがとう。
dontloo
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.