人工知能はハッキングに対して脆弱ですか？

27

論文「敵対的設定におけるディープラーニングの制限」では、ニューラルネットワークがトレーニングするデータセットを操作できる攻撃者によって、ニューラルネットワークがどのように破損する可能性があるかを探っています。著者たちは、手書き数字を読み取ることを目的としたニューラルネットワークで実験を行い、ニューラルネットワークでトレーニングされた手書き数字のサンプルを歪めることにより、その読み取り能力を弱めました。

悪意のある攻撃者がAIをハッキングしようとするのではないかと心配しています。例えば

自動運転車をだまして、一時停止標識と速度制限を誤って解釈する。
ATMのような顔認識のバイパス。
スパムフィルターのバイパス。
映画レビュー、ホテルなどのだまされやすい感情分析
異常検出エンジンのバイパス。
音声コマンドの偽造。
機械学習ベースの医療予測の誤分類。

どのような敵対効果が世界を混乱させる可能性がありますか？どうすればそれを防ぐことができますか？

— スーリヤSg
ソース

6

ことを考えてみましょう、人間の知性がハッキングに対して脆弱である

— ガイウス

面白い。「敵対的な設定のリスクモデル」や、従来のサイバーセキュリティの答えに近いものの、AIに真っ向から興味を持っていますか？ご多幸を祈る。

— トートロジーの啓示

19

AIは、私が見ているように、2つのセキュリティの観点から脆弱です。

AIを実行しているマシン上で何らかのコード実行を達成するため、またはデータを抽出するために、完全なプログラムエラーを悪用する古典的な方法。
システムが処理するように設計されている特定の形式のデータについて、AIの錯視に相当するトリックを介したトリック。

最初のものは、他のソフトウェアと同じ方法で緩和する必要があります。AIがこの点で他のソフトウェアよりも脆弱であるかどうかはわかりませんが、複雑さはリスクをわずかに高める可能性があると思います。

2番目の方法は、おそらく他の回答のいくつかに記載されているようにシステムを慎重に改良することと、システムのコンテキスト依存性を高めることの両方によって最適に緩和されます。多くの敵対的手法は、真空で評価される入力に依存しています。

— クリストファー・グリフィス
ソース

1

コードの脆弱性と使用の脆弱性の分割は良好です。ただし、通常、コードの脆弱性はAIにわずかです。AIの複雑さは、それがニューラルネットワークのノードの重みであれ、ランダムフォレストのツリーであれ、データにあります。AIにフィードするためのコードはほんのわずかであり、それをオーバーフィードしない主なリスクは、20世紀後半の手法によって簡単に軽減される古典的なバッファーオーバーフローリスクです。

— MSalters

@MSaltersコードの複雑さはAIエージェントの種類によって大きく異なる可能性があるため、一般的な結論を導き出すのは難しいと思います（あなたのコメントは、ニューラルネットワークではほぼ正確だと思います）。さらに、データとその操作はおそらくより大きな攻撃対象になりますが、過去に画像閲覧アプリケーションの欠陥を悪用した侵害された画像ファイルを介したリモートコード実行を許可していた同じ種類の攻撃を軽視することは賢明ではありません。ベクトルは渡されるデータですが、動作は依然としてコード脆弱性ヘッダーに該当すると思います。

— クリストファーグリフィス

7

プログラマーvsプログラマー

それは「無限大戦争」です。プログラマー対プログラマー。すべてのものはハッキング可能です。予防は、セキュリティを担当する専門家とアプリケーションセキュリティのプログラマの知識レベルにリンクしています。

たとえば、センチメント分析によって生成されたメトリックを台無しにしようとしているユーザーを特定する方法はいくつかありますが、それらの手順を回避する方法もあります。それはかなり退屈な戦いです。

エージェントvsエージェント

@DukeZhouが提起した興味深い点は、2つの人工知能（エージェント）が関与するこの戦争の進化です。その場合、戦闘は最も知識のあるものの1つです。最もよく訓練されたモデルはどれですか？

ただし、脆弱性の問題で完全性を達成するには、人工知能または人工超知能が人間を回避する能力を超えています。今日までのすべてのハッキングの知識がこのエージェントの心の中にすでに存在しており、彼は彼自身のシステムを迂回し、保護を開発する新しい方法を開発し始めたかのようです。複雑ですか？

「人間は顔を特定する代わりに写真を使用するだろうか」と考えるAIを持つのは難しいと思います。

どうすればそれを防ぐことができますか

常に機械を監督する人間がいますが、それでも100％効果的ではありません。これは、エージェントが自分のモデルだけを改善できる可能性を無視しています。

結論

そのため、シナリオはこのように機能すると思います：プログラマーはAIの検証を回避しようとし、IA開発者はログとテストを通じて知識を獲得しようとし、失敗の可能性を減らすために、よりスマートで安全なモデルを構築しようとします。

— ギルヘルメIA
ソース

3

素晴らしい答え。（imo、受け入れられた答えであるべきですが、いくつかのサポートまたはリンクを提供する必要があります。）それにもかかわらず、新しいアルゴリズムが増加するにつれて、これはプログラマー対プログラマーからエージェント対エージェントへと拡張し始めると思いますが、ロジックは正しいです洗練され、人間のプロンプトなしでこれらの戦略を引き受けます。

— 公爵

1

更新しました！グッドポイント@DukeZhou

— ギルヘルムIA

6

どうすればそれを防ぐことができますか？

AI検証に関するいくつかの作業があります。自動検証は、ニューラルネットワークの堅牢性を証明できます。つまり、NNの入力Xが与えられた制限ε（L2などの何らかのメトリックで）を超えない場合、NNは同じ答えを与えます。

このような検証は次の方法で行われます。

スタンフォード：https : //arxiv.org/pdf/1702.01135.pdf
ETHZ：https : //www.sri.inf.ethz.ch/papers/sp2018.pdf
グーグル：https://arxiv.org/pdf/1803.06567.pdf、https://arxiv.org/pdf/1805.10265.pdf
ボッシュ：https : //arxiv.org/pdf/1805.10265.pdf

このアプローチは、ニューラルネットワークの堅牢性を確認するのに役立ちます。次のステップは、堅牢性を必要とするこのようなニューラルネットワークを構築することです。上記の論文のいくつかには、それを行う方法の方法も含まれています。

ニューラルネットワークの堅牢性を向上させるさまざまな手法があります。

敵対的トレーニング（A. Kurakin et al。、ICLR 2017を参照）
防御蒸留（N. Papernot et al。、SSP 2016を参照）
MMSTVディフェンス（Maudry et al。、ICLR 2018）。

少なくとも最後のものは、NNをより堅牢にすることができます。より多くの文献はここで見つけることができます。

— イリヤ・パラチェフ
ソース

2

これは不可能な主張のように聞こえます...一般的な入力Xではなく、特定の入力Xに関するものでない限り？その場合、入力はトレーニング中の人の摂動に限定される必要がないため、ハッキング可能性についてはほとんど何も言わないようですか？

— Mehrdad

1

@Mehrdad：入力空間がランダムにサンプリングできるほど十分に構造化されている場合、おそらく確率的な意味で達成可能です。つまり、可能性のある入力の95％に対して、εより小さい外乱の95％がクラスラベルに影響を与えないことをおそらく確立できます。これは、入力空間の出力クラス間の境界が滑らかであること、または入力空間の最大部分がクラス境界の近くにないことを確立することと同等です。明らかに、入力空間の一部はクラス境界の近くになければなりません。

— MSalters

論文で説明されている「敵対的」なケースにこれが当てはまるかどうかはわかりません：そこで、（IIRC）逆伝播勾配が画像全体に追加されるため、完全な入力への変更は非常に大きくなる可能性があります。個々のピクセルの変化はほとんど目立ちません。

— ニキ

@MSalters：そうですね。しかし、その後、それはあなたが実際に実際にすべきクラスの境界線上にある画像を表示することができない限り、それを公正ビットを切り下げるように見えること ...クラスの国境に

— Mehrdad

「次のステップは、堅牢性を必要とするこのようなニューラルネットワークを構築することです」という文は研究中です。一般に、NNの非ロバスト性の問題を取り除くことは非常に困難です。しかし、敵対的なトレーニング（A. Kurakin et al。、ICLR 2017を参照）、防御蒸留（N. Papernot et al。、SSP 2016を参照）、MMSTV防衛（Maudry et al。、ICLR 2018を参照）によって堅牢性を強化することは可能です）。少なくとも最後のものは、NNをより堅牢にすることができます。

— イリヤパラチェフ

4

安全だと思うシステムはありませんが、20〜30年のAIの開発/進化の後でも、これを言えるかどうかはわかりません。とにかく、AI（コンピュータービジョン）をだましている人間を示した記事があります。

https://www.theverge.com/2018/1/3/16844842/ai-computer-vision-trick-adversarial-patches-google

https://spectrum.ieee.org/cars-that-think/transportation/sensors/slight-street-sign-modifications-can-fool-machine-learning-algorithms

— あきお
ソース

4

人工知能はハッキングに対して脆弱ですか？

ちょっと質問を逆にして考えてみましょう。

他の種類のソフトウェアと比較して、ハッキングのリスクが少ないAIを作成するものは何ですか？

結局のところ、ソフトウェアはソフトウェアであり、常にバグとセキュリティの問題があります。AIは、AI以外のソフトウェアが危険にさらされるすべての問題のリスクにさらされており、AIが何らかの免疫を付与することはありません。

AI固有の改ざんについては、AIに誤った情報が入力される危険があります。ほとんどのプログラムとは異なり、AIの機能は消費するデータによって決まります。

実世界の例として、数年前にMicrosoftはTayと呼ばれるAIチャットボットを作成しました。Twitterの人々が「壁を構築し、メキシコはそれを支払う」と言うのに、それを教えるのに24時間もかかりませんでした。

（以下にリンクされているVergeの記事から取られた画像、私はそれに対する信用を主張しません。）

そして、それは氷山の一角にすぎません。

Tayに関するいくつかの記事：

これがチャットボットではないことを想像してください。AIが車（つまり、自動運転車）の乗員を殺さない、または患者を殺さないなどのことをAIが担当する未来の重要なAIであると想像してください手術台（つまり、何らかの医療補助機器）。

確かに、そのようなAIがそのような脅威に対してより安全であることを願っていますが、誰かがそのようなAIに気付かれずに誤った情報を大量に供給する方法を見つけたと仮定すると（結局、最高のハッカーは痕跡を残しません）、それは本当に意味があります生と死の違い。

自動運転車の例を使用して、誤ったデータが高速道路での緊急停止を行う必要があると自動車に思わせる場合を想像してください。医療AIのアプリケーションの1つは、ERでの生死の決定です。ハッカーが誤った決定を支持してスケールを傾けることができるかどうかを想像してください。

どうすればそれを防ぐことができますか？

最終的に、リスクの規模は、AIに依存する人間の状態に依存します。たとえば、人間がAIの判断を受け入れ、それを疑問視しなかった場合、あらゆる種類の操作に自分自身を開放することになります。ただし、AIの分析をパズルのほんの一部として使用すると、偶発的または悪意のある手段を介して、AIが間違っているときに見つけやすくなります。

医療の意思決定者の場合、AIを信じるだけでなく、身体検査を実施し、人間の意見も得ます。2人の医師がAIに同意しない場合、AIの診断を破棄します。

車の場合、1つの可能性は、何をすべきかについて基本的に「投票」しなければならないいくつかの冗長システムを持つことです。車が別々のシステムに複数のAIを搭載しており、どのアクションを実行するかについて投票する必要がある場合、ハッカーは複数のAIを取り出して制御または膠着状態を引き起こす必要があります。重要なことに、AIが異なるシステム上で実行された場合、あるシステムで使用された同じ悪用を別のシステムで実行できず、ハッカーの作業負荷がさらに増加します。

— ファラプ
ソース

1

緩和技術として合意に達しなければならないいくつかの独立したAIシステムを持つというアイデアが好きです。しかし、彼らが使用した投票メカニズムが決定を偽造するために含まれていなかったと確信する必要があります。

— クリストファーグリフィス

@ChristopherGriffith確かに、それはリスクです。車の場合、それを緩和する最良の方法は、システムを設計して、攻撃者がそれを操作するために物理的なアクセスを必要とし、人が車にアクセスしてアクセスするのを困難にすることです。システムをオフラインに保つことは、常に理想的ではありませんが、一般的には適切なハッキング対策です。

— ファラプ

1