人工知能はハッキングに対して脆弱ですか?


27

論文「敵対的設定におけるディープラーニングの制限」では、ニューラルネットワークがトレーニングするデータセットを操作できる攻撃者によって、ニューラルネットワークがどのように破損する可能性があるかを探っています。著者たちは、手書き数字を読み取ることを目的としたニューラルネットワークで実験を行い、ニューラルネットワークでトレーニングされた手書き数字のサンプルを歪めることにより、その読み取り能力を弱めました。

悪意のある攻撃者がAIをハッキングしようとするのではないかと心配しています。例えば

  • 自動運転車をだまして、一時停止標識と速度制限を誤って解釈する。
  • ATMのような顔認識のバイパス。
  • スパムフィルターのバイパス。
  • 映画レビュー、ホテルなどのだまされやすい感情分析
  • 異常検出エンジンのバイパス。
  • 音声コマンドの偽造。
  • 機械学習ベースの医療予測の誤分類。

どのような敵対効果が世界を混乱させる可能性がありますか?どうすればそれを防ぐことができますか?


6
ことを考えてみましょう、人間の知性がハッキングに対して脆弱である
ガイウス

面白い。「敵対的な設定のリスクモデル」や、従来のサイバーセキュリティの答えに近いものの、AIに真っ向から興味を持っていますか?ご多幸を祈る。
トートロジーの啓示

回答:


19

AIは、私が見ているように、2つのセキュリティの観点から脆弱です。

  1. AIを実行しているマシン上で何らかのコード実行を達成するため、またはデータを抽出するために、完全なプログラムエラーを悪用する古典的な方法。

  2. システムが処理するように設計されている特定の形式のデータについて、AIの錯視に相当するトリックを介したトリック。

最初のものは、他のソフトウェアと同じ方法で緩和する必要があります。AIがこの点で他のソフトウェアよりも脆弱であるかどうかはわかりませんが、複雑さはリスクをわずかに高める可能性があると思います。

2番目の方法は、おそらく他の回答のいくつかに記載されているようにシステムを慎重に改良することと、システムのコンテキスト依存性を高めることの両方によって最適に緩和されます。多くの敵対的手法は、真空で評価される入力に依存しています。


1
コードの脆弱性と使用の脆弱性の分割は良好です。ただし、通常、コードの脆弱性はAIにわずかです。AIの複雑さは、それがニューラルネットワークのノードの重みであれ、ランダムフォレストのツリーであれ、データにあります。AIにフィードするためのコードはほんのわずかであり、それをオーバーフィードしない主なリスクは、20世紀後半の手法によって簡単に軽減される古典的なバッファーオーバーフローリスクです。
MSalters

@MSaltersコードの複雑さはAIエージェントの種類によって大きく異なる可能性があるため、一般的な結論を導き出すのは難しいと思います(あなたのコメントは、ニューラルネットワークではほぼ正確だと思います)。さらに、データとその操作はおそらくより大きな攻撃対象になりますが、過去に画像閲覧アプリケーションの欠陥を悪用した侵害された画像ファイルを介したリモートコード実行を許可していた同じ種類の攻撃を軽視することは賢明ではありません。ベクトルは渡されるデータですが、動作は依然としてコード脆弱性ヘッダーに該当すると思います。
クリストファーグリフィス

7

プログラマーvsプログラマー

それは「無限大戦争」です。プログラマー対プログラマー。すべてのものはハッキング可能です。予防は、セキュリティを担当する専門家とアプリケーションセキュリティのプログラマの知識レベルにリンクしています。

たとえば、センチメント分析によって生成されたメトリックを台無しにしようとしているユーザーを特定する方法はいくつかありますが、それらの手順を回避する方法もあります。それはかなり退屈な戦いです。

エージェントvsエージェント

@DukeZhouが提起した興味深い点は、2つの人工知能(エージェント)が関与するこの戦争の進化です。その場合、戦闘は最も知識のあるものの1つです。最もよく訓練されたモデルはどれですか?

ただし、脆弱性の問題で完全性を達成するには、人工知能または人工超知能が人間を回避する能力を超えています。今日までのすべてのハッキングの知識がこのエージェントの心の中にすでに存在しており、彼は彼自身のシステムを迂回し、保護を開発する新しい方法を開発し始めたかのようです。複雑ですか?

「人間は顔を特定する代わりに写真を使用するだろうか」と考えるAIを持つのは難しいと思います。

どうすればそれを防ぐことができますか

常に機械を監督する人間がいますが、それでも100%効果的ではありません。これは、エージェントが自分のモデルだけを改善できる可能性を無視しています。

結論

そのため、シナリオはこのように機能すると思います:プログラマーはAIの検証を回避しようとし、IA開発者はログとテストを通じて知識を獲得しようとし、失敗の可能性を減らすために、よりスマートで安全なモデルを構築しようとします。


3
素晴らしい答え。(imo、受け入れられた答えであるべきですが、いくつかのサポートまたはリンクを提供する必要があります。)それにもかかわらず、新しいアルゴリズムが増加するにつれて、これはプログラマー対プログラマーからエージェント対エージェントへと拡張し始めると思いますが、ロジックは正しいです洗練され、人間のプロンプトなしでこれらの戦略を引き受けます。
公爵

1
更新しました!グッドポイント@DukeZhou
ギルヘルムIA

6

どうすればそれを防ぐことができますか?

AI検証に関するいくつかの作業があります。自動検証は、ニューラルネットワークの堅牢性を証明できます。つまり、NNの入力Xが与えられた制限ε(L2などの何らかのメトリックで)を超えない場合、NNは同じ答えを与えます。

このような検証は次の方法で行われます。

このアプローチは、ニューラルネットワークの堅牢性を確認するのに役立ちます。次のステップは、堅牢性を必要とするこのようなニューラルネットワークを構築することです。上記の論文のいくつかには、それを行う方法の方法も含まれています。

ニューラルネットワークの堅牢性を向上させるさまざまな手法があります。

少なくとも最後のものは、NNをより堅牢にすることができます。より多くの文献はここで見つけることができます


2
これは不可能な主張のように聞こえます...一般的な入力Xではなく、特定の入力Xに関するものでない限り?その場合、入力はトレーニング中の人の摂動に限定される必要がないため、ハッキング可能性についてはほとんど何も言わないようですか?
Mehrdad

1
@Mehrdad:入力空間がランダムにサンプリングできるほど十分に構造化されている場合、おそらく確率的な意味で達成可能です。つまり、可能性のある入力の95%に対して、εより小さい外乱の95%がクラスラベルに影響を与えないことをおそらく確立できます。これは、入力空間の出力クラス間の境界が滑らかであること、または入力空間の最大部分がクラス境界の近くにないことを確立することと同等です。明らかに、入力空間の一部はクラス境界の近くになければなりません。
MSalters

論文で説明されている「敵対的」なケースにこれが当てはまるかどうかはわかりません:そこで、(IIRC)逆伝播勾配が画像全体に追加されるため、完全な入力への変更は非常に大きくなる可能性があります。個々のピクセルの変化はほとんど目立ちません。
ニキ

@MSalters:そうですね。しかし、その後、それはあなたが実際に実際にすべきクラスの境界線上にある画像を表示することができない限り、それを公正ビットを切り下げるように見えること ...クラスの国境に
Mehrdad

「次のステップは、堅牢性を必要とするこのようなニューラルネットワークを構築することです」という文は研究中です。一般に、NNの非ロバスト性の問題を取り除くことは非常に困難です。しかし、敵対的なトレーニング(A. Kurakin et al。、ICLR 2017を参照)、防御蒸留(N. Papernot et al。、SSP 2016を参照)、MMSTV防衛(Maudry et al。、ICLR 2018を参照)によって堅牢性を強化することは可能です)。少なくとも最後のものは、NNをより堅牢にすることができます。
イリヤパラチェフ

4

安全だと思うシステムはありませんが、20〜30年のAIの開発/進化の後でも、これを言えるかどうかはわかりません。とにかく、AI(コンピュータービジョン)をだましている人間を示した記事があります。

https://www.theverge.com/2018/1/3/16844842/ai-computer-vision-trick-adversarial-patches-google

https://spectrum.ieee.org/cars-that-think/transportation/sensors/slight-street-sign-modifications-can-fool-machine-learning-algorithms


4

人工知能はハッキングに対して脆弱ですか?

ちょっと質問を逆にして考えてみましょう。

他の種類のソフトウェアと比較して、ハッキングのリスクが少ないAIを作成するものは何ですか?

結局のところ、ソフトウェアはソフトウェアであり、常にバグとセキュリティの問題があります。AIは、AI以外のソフトウェアが危険にさらされるすべての問題のリスクにさらされており、AIが何らかの免疫を付与することはありません。

AI固有の改ざんについては、AIに誤った情報が入力される危険があります。ほとんどのプログラムとは異なり、AIの機能は消費するデータによって決まります。

実世界の例として、数年前にMicrosoftはTayと呼ばれるAIチャットボットを作成しました。Twitterの人々が「壁を構築し、メキシコはそれを支払う」と言うのに、それを教えるのに24時間もかかりませんでした。

私たちは壁を建設し、メキシコはそれにお金を払うつもりです

(以下にリンクされているVergeの記事から取られた画像、私はそれに対する信用を主張しません。)

そして、それは氷山の一角にすぎません。

Tayに関するいくつかの記事:

これがチャットボットではないことを想像してください。AIが車(つまり、自動運転車)の乗員を殺さない、または患者を殺さないなどのことをAIが担当する未来の重要なAIであると想像してください手術台(つまり、何らかの医療補助機器)。

確かに、そのようなAIがそのような脅威に対してより安全であることを願っていますが、誰かがそのようなAIに気付かれずに誤った情報を大量に供給する方法を見つけたと仮定すると(結局、最高のハッカーは痕跡を残しません)、それは本当に意味があります生と死の違い。

自動運転車の例を使用して、誤ったデータが高速道路での緊急停止を行う必要があると自動車に思わせる場合を想像してください。医療AIのアプリケーションの1つは、ERでの生死の決定です。ハッカーが誤った決定を支持してスケールを傾けることができるかどうかを想像してください。

どうすればそれを防ぐことができますか?

最終的に、リスクの規模は、AIに依存する人間の状態に依存します。たとえば、人間がAIの判断を受け入れ、それを疑問視しなかった場合、あらゆる種類の操作に自分自身を開放することになります。ただし、AIの分析をパズルのほんの一部として使用すると、偶発的または悪意のある手段を介して、AIが間違っているときに見つけやすくなります。

医療の意思決定者の場合、AIを信じるだけでなく、身体検査を実施し、人間の意見も得ます。2人の医師がAIに同意しない場合、AIの診断を破棄します。

車の場合、1つの可能性は、何をすべきかについて基本的に「投票」しなければならないいくつかの冗長システムを持つことです。車が別々のシステムに複数のAIを搭載しており、どのアクションを実行するかについて投票する必要がある場合、ハッカーは複数のAIを取り出して制御または膠着状態を引き起こす必要があります。重要なことに、AIが異なるシステム上で実行された場合、あるシステムで使用された同じ悪用を別のシステムで実行できず、ハッカーの作業負荷がさらに増加し​​ます。


1
緩和技術として合意に達しなければならないいくつかの独立したAIシステムを持つというアイデアが好きです。しかし、彼らが使用した投票メカニズムが決定を偽造するために含まれていなかったと確信する必要があります。
クリストファーグリフィス

@ChristopherGriffith確かに、それはリスクです。車の場合、それを緩和する最良の方法は、システムを設計して、攻撃者がそれを操作するために物理的なアクセスを必要とし、人が車にアクセスしてアクセスするのを困難にすることです。システムをオフラインに保つことは、常に理想的ではありませんが、一般的には適切なハッキング対策です。
ファラプ

1

私は、完全に安全なシステムはないという点に同意しますが、重要なことは、AIシステムは常に改善する能力があるため、古いシステムと比較して攻撃を受けにくいことです。

時間が経つにつれて、より多くの人々が新しいアイデアをもたらし、ハードウェアが改良されて「強力なAI」になるようにフィールドに入ります。


1

人工知能はハッキングに対して脆弱ですか?

ヒント; AIが脆弱であると言う場合、そのような声明ではここであなたに同意しません。人工知能は、3つのカテゴリにも段階にも分けられます。

  • 人工狭知能

  • 人工知能

  • 人工知能

したがって、あなたの声明に従って; 「悪意のある攻撃者がAIをハッキングしようとするのではないかと心配しています。...」

メッセージ本文の例で示されているように、私たちは人工の狭い知性のレベルにあり、人間のハッカーがこのレベルでそのようなアプリケーションに侵入するために彼/悪意のあるコードをねじることができます。しかし、人工の最終レベルインテリジェンス; それからすべての手段によって、人間はスーパーインテリジェントソフトウェアプログラムやハイテクスーパーインテリジェントエージェントに侵入したりハッカーしたりすることはできません。例えば; 人間のハッカーは、一度に1つのことを行い、人工知能がその焦点を分割し、同時に多くのスタッフを行うことを止めるものは何もありません。

ご参考までに

メディアは、一般的にAIについて言っていることによって取り込まれていない、という理由だけで、彼らは大きなものがそれが起こるのだろうということを知らないことである新種その競合人間アウト

ハイテクである新しい社会に住むことを想像してください。サイバーグランドチャレンジをご覧 ください

そのイベントを逃した場合は、申し訳ありません。


人工的に非常にインテリジェントな創造物のある世界でさえ、特定のタスクで一般化されたAIシステムを単純に上回ることができる高度に特殊化されたツールを使用して、これらのシステムをハッキングする方法がまだあると思います。
krowe2

1

あらゆる種類のインテリジェンスは、DNAベースまたは人工にかかわらず、ハッキングに対して脆弱です。最初に、ハッキングを定義しましょう。これに関連して、ハッキングとは、ステータス、経済的利益、企業または政府の混乱、恐for、商取引または選挙の優位性、またはその他の形態を含む特定の目的を達成するための弱点の活用です。制御または操作の。

以下は、脳のハッキング戦略とその共通の目的の例です。これらにはそれぞれ、同等のデジタルシステムがあります。

  • 政府のプロパガンダ—予測可能なコンプライアンス
  • 詐欺—お金
  • なりすまし—ユーモラスな公共の反応
  • ロールプレイ—アクセスを取得または操作する信頼を得る
  • 疼痛センター—中毒を利用して収入を増やす

一部の人々は、インテリジェントソフトウェアエンティティが人間とその社会構造をハッキングして自分の目的を達成できるという特異性と呼ばれるものに懸念を抱いています。人間が他の人間の知的エージェントをハッキングできることは、別の明らかな可能性です。トレーニングデータが攻撃の唯一のポイントだとは思いません。

  • パラメータ行列は、検出が困難な方法で上書きされる可能性があります。
  • 補強信号は改ざんされる可能性があります。
  • 入力順列の既知のエラーのポケットは悪用される可能性があります。
  • デジタルシステムの決定論的な性質は、訓練されたシステムを複製し、ネットワーク上で実行する前にオフラインで脆弱点を探すことにより、他の深層学習者によって悪用される可能性があります。

質問にリストされている可能性は考慮に値しますが、これはリストの私のバージョンです。

  • 薬局や病院でのAV誤動作またはなりすまし識別システムによる殺人
  • 出荷された大量の製品を、代金を支払わなかった受取人に転用する
  • 特定の個人グループを疎外することによる社会的虐殺

それを防ぐ唯一の方法は、グローバルな絶滅イベントを待つことですが、それを軽減する方法があるかもしれません。プログラムsatanがUNIXシステムの脆弱性を見つけるために書かれたように、インテリジェントシステムは他のインテリジェントシステムの脆弱性を見つけるために考案される可能性があります。もちろん、プログラミングモデルと従来の情報システムを、セキュリティを念頭に置いて設計し、初日から合理的に可能な限り脆弱性を減らすことができるように、AIシステムはその目的を念頭に置いて設計できます。

任意のシステムの情報パスをたどり、パスに沿った任意のポイントで信号を読み書きする方法を検討する場合、これらのアクセスポイントを予防的に保護できます。明らかに、トレーニングに使用するデータを取得する際には注意がこの質問で言及されている場合に重要であり、情報経路に沿った適切な暗号化が必要です。これらの懸念と機会から生じる対策。


0

AIをハッキングする方法はたくさんあります。子供の頃、チェスのコンピューターを倒す方法を考えました。あなたがそれを悪用できることを知ったら、私はいつも同じパターンに従いました。世界最高のハッカーは4歳で、両親にパターンを確立するまで別のことを試したいと思っています。とにかく、AIを取得してAIのパターンを学習し、与えられた組み合わせで結果を把握できます。また、意図的または偶然にコードに単純な欠陥や裏口があります。AIがハッキングする可能性もあります。それは不正行為と呼ばれ、小さな子供を思い出してください...

ところで、簡単な方法は、AIを常に安全に失敗させることです...人々が忘れるものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.