近い将来、ニューラルネットワークに取って代わる可能性のあるモデルは何ですか?


回答:


4

これは逆に進んでいますが、それは引数の論理にある程度従います。

効率の面では、古典的なニューラルネットワークに関するいくつかの主要な問題を見ることができます。

データ収集と前処理のオーバーヘッド

大規模なニューラルネットワークをトレーニングするには、大量のデータが必要です。量は、ネットワークのサイズとタスクの複雑さによって異なりますが、経験則として、通常は重みの数に比例します。一部の教師あり学習タスクでは、高品質のラベル付きデータが十分ではありません。大量の専門トレーニングデータの収集には数か月または数年かかる場合があり、ラベル付けは煩雑で信頼性が低くなる可能性があります。これは、データ増強によって部分的に軽減できます。つまり、既存の例からより多くの例を「合成」しますが、万能薬ではありません。

トレーニング時間とエネルギーのトレードオフ

学習率は通常かなり小さいため、トレーニングの進行は遅いです。デスクトップCPUでのトレーニングに数週間かかる可能性がある大規模モデルは、数kWの電力を消費するGPUクラスターを使用することで、たとえば2時間でトレーニングできます。これは、トレーニング手順の性質上、基本的なトレードオフです。とはいえ、GPUの効率はますます高まっています。たとえば、新しいnVidia Volta GPUアーキテクチャでは、消費電力が300 W未満で15.7 TFLOPが可能です。

譲渡不可

現在、ほぼすべての異なる問題で、カスタムニューラルネットワークを設計、トレーニング、および展開する必要があります。解決策はしばしば機能しますが、それはその問題にある程度縛られています。たとえば、AlphaGoはGoで素晴らしいですが、車の運転や音楽の推奨を提供することは絶望的です。この圧倒的な冗長性は、私の考えではニューラルネットワークの主要な欠点であり、ニューラルネットワークの研究全体の進歩に対する大きな障害でもあります。転移学習と呼ばれる研究領域全体がありますこれは、あるタスクでトレーニングされたネットワークを別のタスクに適用する方法を見つけることを扱います。多くの場合、これは2番目のタスクでネットワークを最初からトレーニングするのに十分なデータがない可能性があるという事実に関連しているため、追加のチューニングを行った事前トレーニング済みモデルを使用できることは非常に魅力的です。


質問の最初の部分はよりトリッキーです。純粋に統計的なモデルは別として、ニューラルネットワークとは根本的に異なる、機械学習への顕著なアプローチを見たことはありません。ただし、上記の非効率性のいくつかに対処しているため、注目に値する興味深い開発がいくつかあります。

ニューロモーフィックチップ

最初に少し背景を説明します。

スパイクニューラルネットワークには、計算能力の面で大きな可能性があります。実際、シグモイドアクティベーションを使用する従来のニューラルネットワークよりも強力あることが証明ています。

それに加えて、スパイクニューラルネットワークは本質的に時間を把握しています。これは、創業以来、古典的なネットワークにとって大きな障害でした。それだけでなく、スパイキングネットワークはイベント駆動型です。つまり、入力信号がある場合にのみニューロンが動作します。これは、入力に関係なく各ニューロンが評価される従来のネットワークとは対照的です(これも、通常、2つの密行列の乗算として実装される評価手順の結果です)。したがって、スパイキングネットワークではスパースエンコーディングスキームが採用されています。これは、ニューロンのごく一部のみが常にアクティブであることを意味します。

現在、スパーススパイクベースのエンコードとイベント駆動型の操作は、ニューロモーフィックチップと呼ばれるスパイキングネットワークのハードウェアベースの実装に適しています。たとえば、IBMのTrueNorthチップは、平均で約100 mWの電力しか消費せずに、100 万のニューロン2億5600万の接続をシミュレートできます。これは、現在のnVidia GPUよりも桁違いに効率的です。ニューロモーフィックチップは、上で述べたトレーニング時間とエネルギーのトレードオフのソリューションである可能性があります。

また、メモリスタは比較的新しいが非常に有望な開発です。基本的に、メモリスタは、抵抗器に非常によく似た基本的な回路要素ですが、可変抵抗は、その寿命全体で通過した電流の総量に比例します。本質的に、これは通過した電流量の「メモリ」を維持することを意味します。メモリスタのエキサイティングな潜在的なアプリケーションの1つは、ハードウェアのシナプスを非常に効率的にモデリングすることです。

強化学習と進化

これらは譲渡不可能性の問題に取り組むための有望な候補なので、言及する価値があると思います。これらはニューラルネットワークに限定されません。報酬主導型であるため、RLと進化は、報酬またはエージェントが達成する目標を定義できるすべてのタスクに一般的な設定で理論的に適用できます。これは必ずしも簡単なことではありませんが、学習エージェントが出力とグラウンドトゥルースの差を最小化しようとする通常のエラー駆動型アプローチよりもはるかに一般的です。ここでの主なポイントは転移学習に関するものです。理想的には、訓練されたエージェントを別のタスクに適用することは、目標や報酬を変更するの同じくらい簡単である必要があります(ただし、まだそのレベルではありません...)。


マースが1996年の論文で書いたのは「厳密により強力」ですが、数学的な厳密さを主張し、計算能力を定義することに失敗しています。さらに、シグモイドアクティベーション関数が普及したときに1996年に書かれましたが、現在では普及していません。正確な理由は、単純なアクティベーション関数ほど信頼性が高く、高速でもないためです。マースは論文で収束について2回のみ言及し、収束がどのように発生するかを示していません。さらに、機械学習の目的に関する計算能力の定義がないことを強調しています。
FauChristian

RLと進化の関係は不明です。遺伝的アルゴリズムとRLのいくつかの組み合わせを参照していますか?もしそうなら、リファレンスは何ですか?
FauChristian

@FauChristianあなたが全体の論文を読んでいない場合であっても、計算能力のdeifinitionは抽象(第2文)で提供されていますIn particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
cantordust

@FauChristian Sigmoidアクティベーションは、まだ非常に活発で、活発です。たとえば、LSTMはゲートにシグモイドアクティベーションを使用します。ソフトマックス(正規化シグモイド)は、マルチクラス分類などに最適です。「シンプルな」アクティベーションは必ずしも優れているわけではありません。元のReLU(max(0, x))は非常に危険ですに行き詰まり、x < 0ニューロンが死んでしまいます。とにかく、重要なのは、スパイクネットの計算能力と、消費電力の観点から見た超効率的なハードウェア実装です。
cantordust 2018

@FauChristian私はRLと進化の類似点を描いていません。特定のタイプの非効率性に対処するための有望なアプローチの例として、つまり、手元にある個々の問題ごとに解決策(NNなど)を手動で作成する必要がある例を挙げます。理想的には、高レベルの目標のみに基づいて特定の問題に対してRLおよび/または進化によって自動的に調整される汎用ソルバーを設計できるはずです。
cantordust 2018

1

ニューラルネットの置き換え

ニューラルネットを置き換える可能性のある新しいアルゴリズムが存在する可能性があります。ただし、ニューラルネットの特性の1つは、単純な要素を使用しており、それぞれが幾何学的パターンの計算リソースに対する要求が低いことです。

人工ニューロンは、DSPデバイスまたは他の並列計算ハードウェアに計算をマッピングすることにより、並列で(CPUタイムシェアリングまたはループなしで)実行できます。したがって、多くのニューロンが本質的に同じであることは、強力な利点です。

何を交換しますか?

ニューラルネットのアルゴリズムによる置換を検討する場合、ニューラルネットの設計はアルゴリズムであることを意味します。そうではない。

ニューラルネットは、リアルタイム回路に収束して、最適なものの定式化に基づいて入力から出力への非線形変換を実行するアプローチです。そのような定式化は、ある定義された理想からの誤差または視差の測定値の最小化であるかもしれません。それは最大化されなければならない健康の尺度かもしれません。

特定のネットワーク動作の適合度決定のソースは内部にある可能性があります。これを教師なし学習と呼びます。外部フィットネス情報が、ラベルと呼ばれる望ましい出力値の形式で入力ベクトルと結合されている場合、監視と呼ばれる外部の場合があります。

フィットネスは、入力データと結合されていないスカラーまたはベクトルとして外部から発生することもあり、実際には強化と呼ばれます。これには、再入可能な学習アルゴリズムが必要です。あるいは、スタックされたネットやラプラシアン階層などの他の構成の場合、ネットの動作適合性は、システム内の他のネットによって評価される場合があります。

アルゴリズムの選択は、数学およびプロセスの設計が選択された後は、比較知能とはほとんど関係がありません。アルゴリズムの設計は、コンピューティングリソースの要求を最小限に抑え、時間要件を減らすことに、より直接的に関連しています。この最小化は、ハードウェアとオペレーティングシステムにも依存します。

交換は示されていますか?

承知しました。ネットワークが哺乳類のニューロンに似ていれば、もっと良いでしょう。

  • 活性化の高度化
  • 接続パターンの不均一性
  • メタ適応をサポートするデザインの可塑性
  • 地域シグナリングの多くの側面によって管理されています

地域的シグナル伝達とは、シナプスを介したシグナル伝達を超えた多くの化学的シグナルを意味します。

哺乳類の神経学を超えることも検討できます。

  • パラメトリックと仮説ベースの学習を組み合わせる
  • 微生物がDNAを通過するときに採用される形の学習

ニューラルネット効率

温度はケルビン単位で定量化できるため、いくつかの普遍的なスケールでは効率を定量化できません。効率は、ある理論上の理想に対するある測定値の商としてのみ定量化できます。これは分母の最大値ではなく、理想的な値であることに注意してください。熱力学エンジンでは、理想はエネルギー入力率であり、出力に完全に転送することはできません。

同様に、ニューラルネットはゼロ時間で学習することはできません。また、ニューラルネットは、運用において任意の長い時間にわたってゼロエラーを達成することはできません。したがって、情報は何らかの形でエネルギーであり、デジタルオートメーションの黎明期にBell LabsのClaude Shannonによって調査された概念であり、情報エントロピーと熱力学エントロピーの関係は現在、理論物理学の重要な部分です。

悪い学習効率や良い学習効率はありません。論理的および科学的な用語で考えたい場合、パフォーマンスが悪いことも、パフォーマンスが良いこともありません。特定のパフォーマンスシナリオのセットに対して、他のシステム構成と比べて、一部のシステム構成の相対的な改善のみです。

したがって、2つのハードウェア、オペレーティングシステム、およびソフトウェア構成の明確な仕様と、相対的な評価に使用される完全に定義されたテストスイートがなければ、効率は意味がありません。


1

私たちはその前線に潜む希望を持っています。今のところ、私たちは持っているカプセルのネットワーク「スカッシュ」関数と呼ばれる別の非線形活性化を使用することによりJ.Hintonを。

  1. ヒントンはCNNでの最大プーリングを「大きな間違い」と呼んでいます。CNNは、画像間の存在オブジェクトのみを相対的な方向ではなく、探すためです。したがって、並進不変性を達成しようとすると、空間情報が失われます。
  2. ニューラルネットの接続は固定されていますが、カプセルネットワーク内のカプセルは、すべてのエポック中にアクティブ化をパスする必要がある他のカプセルを「決定」します。これは「ルーティング」と呼ばれます。
  3. ニューラルネットのすべてのニューロンの活性化はスカラーです。一方、カプセルのアクティブ化は、画像内のオブジェクトのポーズと方向をキャプチャするベクトルです。
  4. CNNは人間の視覚システムの悪い表現と見なされます。人間の視覚システムとは、目と脳/認知を一緒に意味します。自由の女神は、1つのポーズから見ても、どのポーズからでも特定できます。ほとんどの場合のCNNは、異なるポーズや向きの同じオブジェクトを検出できません。

カプセルネットワーク自体にはいくつかの欠点があります。したがって、ニューラルネットを超えた方向への取り組みが行われています。J.Hintonの論文を読む前に、このブログをよく読んで理解してください。


0

ニューラルネットワークには、大量のデータとトレーニングが必要です。ほとんどの表形式データセットでは、決定木ベースのモデルを使用する方がはるかに優れています。ほとんどの場合、単純なモデルで十分な精度が得られます。ただし、ニューラルネットワークには時間のテストがありました。深層学習革命が始まってから5年から6年しか経っていないため、深層学習の真の効力はまだわかりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.