回答:
これは逆に進んでいますが、それは引数の論理にある程度従います。
効率の面では、古典的なニューラルネットワークに関するいくつかの主要な問題を見ることができます。
大規模なニューラルネットワークをトレーニングするには、大量のデータが必要です。量は、ネットワークのサイズとタスクの複雑さによって異なりますが、経験則として、通常は重みの数に比例します。一部の教師あり学習タスクでは、高品質のラベル付きデータが十分ではありません。大量の専門トレーニングデータの収集には数か月または数年かかる場合があり、ラベル付けは煩雑で信頼性が低くなる可能性があります。これは、データ増強によって部分的に軽減できます。つまり、既存の例からより多くの例を「合成」しますが、万能薬ではありません。
学習率は通常かなり小さいため、トレーニングの進行は遅いです。デスクトップCPUでのトレーニングに数週間かかる可能性がある大規模モデルは、数kWの電力を消費するGPUクラスターを使用することで、たとえば2時間でトレーニングできます。これは、トレーニング手順の性質上、基本的なトレードオフです。とはいえ、GPUの効率はますます高まっています。たとえば、新しいnVidia Volta GPUアーキテクチャでは、消費電力が300 W未満で15.7 TFLOPが可能です。
現在、ほぼすべての異なる問題で、カスタムニューラルネットワークを設計、トレーニング、および展開する必要があります。解決策はしばしば機能しますが、それはその問題にある程度縛られています。たとえば、AlphaGoはGoで素晴らしいですが、車の運転や音楽の推奨を提供することは絶望的です。この圧倒的な冗長性は、私の考えではニューラルネットワークの主要な欠点であり、ニューラルネットワークの研究全体の進歩に対する大きな障害でもあります。転移学習と呼ばれる研究領域全体がありますこれは、あるタスクでトレーニングされたネットワークを別のタスクに適用する方法を見つけることを扱います。多くの場合、これは2番目のタスクでネットワークを最初からトレーニングするのに十分なデータがない可能性があるという事実に関連しているため、追加のチューニングを行った事前トレーニング済みモデルを使用できることは非常に魅力的です。
質問の最初の部分はよりトリッキーです。純粋に統計的なモデルは別として、ニューラルネットワークとは根本的に異なる、機械学習への顕著なアプローチを見たことはありません。ただし、上記の非効率性のいくつかに対処しているため、注目に値する興味深い開発がいくつかあります。
最初に少し背景を説明します。
スパイクニューラルネットワークには、計算能力の面で大きな可能性があります。実際、シグモイドアクティベーションを使用する従来のニューラルネットワークよりも強力であることが証明されています。
それに加えて、スパイクニューラルネットワークは本質的に時間を把握しています。これは、創業以来、古典的なネットワークにとって大きな障害でした。それだけでなく、スパイキングネットワークはイベント駆動型です。つまり、入力信号がある場合にのみニューロンが動作します。これは、入力に関係なく各ニューロンが評価される従来のネットワークとは対照的です(これも、通常、2つの密行列の乗算として実装される評価手順の結果です)。したがって、スパイキングネットワークではスパースエンコーディングスキームが採用されています。これは、ニューロンのごく一部のみが常にアクティブであることを意味します。
現在、スパーススパイクベースのエンコードとイベント駆動型の操作は、ニューロモーフィックチップと呼ばれるスパイキングネットワークのハードウェアベースの実装に適しています。たとえば、IBMのTrueNorthチップは、平均で約100 mWの電力しか消費せずに、100 万のニューロンと2億5600万の接続をシミュレートできます。これは、現在のnVidia GPUよりも桁違いに効率的です。ニューロモーフィックチップは、上で述べたトレーニング時間とエネルギーのトレードオフのソリューションである可能性があります。
また、メモリスタは比較的新しいが非常に有望な開発です。基本的に、メモリスタは、抵抗器に非常によく似た基本的な回路要素ですが、可変抵抗は、その寿命全体で通過した電流の総量に比例します。本質的に、これは通過した電流量の「メモリ」を維持することを意味します。メモリスタのエキサイティングな潜在的なアプリケーションの1つは、ハードウェアのシナプスを非常に効率的にモデリングすることです。
これらは譲渡不可能性の問題に取り組むための有望な候補なので、言及する価値があると思います。これらはニューラルネットワークに限定されません。報酬主導型であるため、RLと進化は、報酬またはエージェントが達成する目標を定義できるすべてのタスクに一般的な設定で理論的に適用できます。これは必ずしも簡単なことではありませんが、学習エージェントが出力とグラウンドトゥルースの差を最小化しようとする通常のエラー駆動型アプローチよりもはるかに一般的です。ここでの主なポイントは転移学習に関するものです。理想的には、訓練されたエージェントを別のタスクに適用することは、目標や報酬を変更するのと同じくらい簡単である必要があります(ただし、まだそのレベルではありません...)。
In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
max(0, x)
)は非常に危険ですに行き詰まり、x < 0
ニューロンが死んでしまいます。とにかく、重要なのは、スパイクネットの計算能力と、消費電力の観点から見た超効率的なハードウェア実装です。
ニューラルネットの置き換え
ニューラルネットを置き換える可能性のある新しいアルゴリズムが存在する可能性があります。ただし、ニューラルネットの特性の1つは、単純な要素を使用しており、それぞれが幾何学的パターンの計算リソースに対する要求が低いことです。
人工ニューロンは、DSPデバイスまたは他の並列計算ハードウェアに計算をマッピングすることにより、並列で(CPUタイムシェアリングまたはループなしで)実行できます。したがって、多くのニューロンが本質的に同じであることは、強力な利点です。
何を交換しますか?
ニューラルネットのアルゴリズムによる置換を検討する場合、ニューラルネットの設計はアルゴリズムであることを意味します。そうではない。
ニューラルネットは、リアルタイム回路に収束して、最適なものの定式化に基づいて入力から出力への非線形変換を実行するアプローチです。そのような定式化は、ある定義された理想からの誤差または視差の測定値の最小化であるかもしれません。それは最大化されなければならない健康の尺度かもしれません。
特定のネットワーク動作の適合度決定のソースは内部にある可能性があります。これを教師なし学習と呼びます。外部フィットネス情報が、ラベルと呼ばれる望ましい出力値の形式で入力ベクトルと結合されている場合、監視と呼ばれる外部の場合があります。
フィットネスは、入力データと結合されていないスカラーまたはベクトルとして外部から発生することもあり、実際には強化と呼ばれます。これには、再入可能な学習アルゴリズムが必要です。あるいは、スタックされたネットやラプラシアン階層などの他の構成の場合、ネットの動作適合性は、システム内の他のネットによって評価される場合があります。
アルゴリズムの選択は、数学およびプロセスの設計が選択された後は、比較知能とはほとんど関係がありません。アルゴリズムの設計は、コンピューティングリソースの要求を最小限に抑え、時間要件を減らすことに、より直接的に関連しています。この最小化は、ハードウェアとオペレーティングシステムにも依存します。
交換は示されていますか?
承知しました。ネットワークが哺乳類のニューロンに似ていれば、もっと良いでしょう。
地域的シグナル伝達とは、シナプスを介したシグナル伝達を超えた多くの化学的シグナルを意味します。
哺乳類の神経学を超えることも検討できます。
ニューラルネット効率
温度はケルビン単位で定量化できるため、いくつかの普遍的なスケールでは効率を定量化できません。効率は、ある理論上の理想に対するある測定値の商としてのみ定量化できます。これは分母の最大値ではなく、理想的な値であることに注意してください。熱力学エンジンでは、理想はエネルギー入力率であり、出力に完全に転送することはできません。
同様に、ニューラルネットはゼロ時間で学習することはできません。また、ニューラルネットは、運用において任意の長い時間にわたってゼロエラーを達成することはできません。したがって、情報は何らかの形でエネルギーであり、デジタルオートメーションの黎明期にBell LabsのClaude Shannonによって調査された概念であり、情報エントロピーと熱力学エントロピーの関係は現在、理論物理学の重要な部分です。
悪い学習効率や良い学習効率はありません。論理的および科学的な用語で考えたい場合、パフォーマンスが悪いことも、パフォーマンスが良いこともありません。特定のパフォーマンスシナリオのセットに対して、他のシステム構成と比べて、一部のシステム構成の相対的な改善のみです。
したがって、2つのハードウェア、オペレーティングシステム、およびソフトウェア構成の明確な仕様と、相対的な評価に使用される完全に定義されたテストスイートがなければ、効率は意味がありません。
私たちはその前線に潜む希望を持っています。今のところ、私たちは持っているカプセルのネットワーク「スカッシュ」関数と呼ばれる別の非線形活性化を使用することによりJ.Hintonを。
カプセルネットワーク自体にはいくつかの欠点があります。したがって、ニューラルネットを超えた方向への取り組みが行われています。J.Hintonの論文を読む前に、このブログをよく読んで理解してください。