極端な学習マシン：それは何ですか？

エクストリームラーニングマシン（ELM）パラダイムについて1年以上考え、実装し、使用してきましたが、長くすればするほど、それが本当に良いことだとは思わなくなります。しかし、私の意見は、引用や新しい出版物を尺度として使用する場合、ホットなトピックのように見える科学コミュニティとは対照的であるようです。

ELMはHuang et。等基本的な考え方はかなり単純です。2層の人工ニューラルネットワークから始めて、最初の層の係数をランダムに割り当てます。これは、通常、バックプロパゲーションによって処理される非線形最適化問題を単純な線形回帰問題に変換します。詳細は、場合、モデルは $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

現在、はすべてランダムに選択されていますが、のみが調整されます（二乗誤差損失を最小化するため）。自由度の損失に対する補償として、通常は、かなり多くの隠れノード（つまり、自由パラメーター）を使用することをお勧めします。 $w_i$ $v_{ik}$ $w_i$

別の観点（ニューラルネットワーク側から来た文献で通常宣伝されているものではありません）から見ると、手順全体は単なる線形回帰ですが、基底関数ランダムに選択する場合などは、 $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

（シグモイド以外の多くの選択肢がランダム関数に使用できます。たとえば、動径基底関数を使用しても同じ原理が適用されます。）

この観点からすると、方法全体がほとんど単純化しすぎており、これは、この方法が本当に良い方法であると疑い始める点でもあります（...科学的マーケティングは確かですが）。だから、ここに私の質問があります：

私の意見では、ランダム基底関数を使用して入力空間をラスタ化するという考え方は、低次元に適しています。高次元では、合理的な数の基底関数を持つランダム選択を使用して適切な選択を見つけることは不可能だと思います。したがって、ELMは高次元で低下しますか（次元の呪いのため）？
この意見を支持/矛盾する実験結果をご存知ですか？リンクされた論文には、メソッドがSVMと同様に実行される27次元回帰データセット（PYRIM）が1つしかありません（一方、逆伝播ANNとの比較を確認したいのですが）
より一般的には、ここでELMメソッドに関するコメントをしたいと思います。

regression

— デビッドハイ
ソース

詳細はこちらをご覧ください：theanonymousemail.com/view/

— msg=

回答:

高次元の問題に対するELMの使用についてのあなたの直観は正しいです、私はこれについていくつかの結果を持っています。多くの実用的な問題では、データはそれほど非線形ではなく、ELMはかなりよく機能しますが、次元の呪いは、必要な場所で曲率を持つ適切な基底関数を見つける可能性がかなり高いデータセットが常に存在します小さく、多くの基底ベクトルがあります。

私は個人的に最小二乗サポートベクトルマシン（または放射基底関数ネットワーク）のようなものを使用して試してみて、基底ベクトルを選択するトレーニングセットのものと貪欲な方法で（例えば見ることが私の論文を、しかしそこに他/良好でしたほぼ同時期に公開されたアプローチ。たとえば、ScholkopfとSmolaによる「Learning with Kernels」に関する非常に良い本など）。近似問題の正確な解決よりも、正確な問題の近似解を計算する方が良いと思います。また、カーネルマシンは、より良い理論的基盤を持っています（固定カーネル; oの場合）。

— ディクラン・マースピアル
ソース

+1。ELMについて聞いたことがありませんが、OPの説明からは、Liquid State Machine（LSM）のように聞こえます。ランダムなネットワーク接続と、読み出しの重みのみの最適化です。ただし、LSMではランダムな「リザーバー」が再発しますが、ELMではフィードフォワードです。それは確かに類似点と相違点ですか？

— アメーバは、モニカーを復活させる

良い答えをありがとう、あなたの論文が発表されたときに答えを更新してください。カーネルについて：もちろん、ELMの「カーネル」バージョンもあります。ただ、いくつかの（ない-必ずしも正定値）カーネルにより、上記シグモイドを置き換えると、多くの選択ランダムさんを。ここで、元のELMと同じ「トリック」、同じ問題。センターを選択するために言及したこれらの方法は、ここでも直接重要です（ELMとSVMの目標関数が異なる場合でも）...これは、おそらく「完全なブラインド」から「ハーフブラインド」の方法に変わります。

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

— -davidhigh

@amoeba：液体状態のマシンを知りませんでしたが、あなたの言うことから、それは実際に非常によく似ています...そしてもちろん、技術的にもっと一般的です。それでも、繰り返しは、より複雑な形のランダム性を問題に追加するだけであり、私の意見では、呪いの次元の問題を解決することはできません（...でも、これは誰ですか？）。これらの繰り返しの重みは注意して選択されていますか、それとも完全にランダムに選択されていますか？

— -davidhigh

RBFカーネルの@davidhighの「代表定理」は、各トレーニングサンプルに基底関数を集中させることよりも優れた解決策がないことを示しています（正規化されたコスト関数について合理的な仮定を立てています）。これは、カーネルメソッド（およびスプライン）の優れた機能の1つであるため、それらをランダムに広げる必要はありません。ところで、ランダムに選択された基底関数の出力に線形モデルを構築することは非常に長い歴史を持って、私のお気に入りは、パーセプトロンアップ、単層の外観であるieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1けど偏っているかもしれません！

— ディクランマースピアル

@DikranMarsupialを公開しましたか、または公開前のものはありますか？

— トム・ヘイル

ELMは、出力の重みを解析的に解くことにより、データから「学習」します。したがって、ネットワークに入力されるデータが大きいほど、より良い結果が得られます。ただし、これにはさらに多くの非表示ノードが必要です。ELMがほとんどまたはまったくエラーなしでトレーニングされる場合、新しい入力のセットが与えられると、正しい出力を生成できません。

このような逆伝播などの従来のニューラルネットに対するELMの主な利点は、トレーニング時間が短いことです。Huangの論文で述べられているように、計算時間のほとんどは出力レイヤーの重みの解決に費やされます。

— user62106
ソース