どの機械学習分類器が最も並列化可能ですか?


10

どの機械学習分類器が最も並列化可能ですか?難しい分類問題があり、時間は限られているが、動作するコンピューターのLANはまともな場合、どの分類子を試してみますか?

手元では、私が知っているいくつかの標準的な分類器のように見えますが、次のように積み上げられますが、完全に間違っている可能性があります。

ランダムフォレスト-各マシンがすべてのデータを保持できる限り、非常に並列化できます(つまり、トレーニングデータ自体を分割することはできませんが、それ以外の場合は並列化できます)。

ブースティング-?

サポートベクターマシン-あまり並列化できません。

決定木-部分的に分割できますが、効率的ではありません。


この投稿は更新が必要です。現在、DNNは、並列計算から最も恩恵を受けるアルゴリズムです。ブースティングはほとんど並列化できません。
TNM 2015年

回答:


11

[高めるなど、よく知られた分類器のほとんどを並列化するための努力、が行われてきた ]、SVM [ ]、さらには決定木[ ]。もちろん、並列処理を認めることで、アルゴリズムの実装可能性、サンプルの複雑さ、その他の通常の疑いなど、他の側面を見失うことがあります。

理論の端から言えば、学習について話すときは目的の機能について考える必要があるため、問題はより難しくなります。たとえば、決定木がPAC学習可能であるかどうかさえわからないため、ターゲット(およびメソッド)が決定木である場合、追加のファセットを問題。ブースティングは、弱い学習条件、SVMにマージンなどを仮定することでそれを回避します。これらの仮定は、PAC学習を提供するために並列のケースに移行すると思います。

しかし、いつものように、理論と実践の最前線(そしてそれによる懸念)の間には大きなギャップがあります。たとえば、実際には、並列処理がコア上にあるのかクラスター上にあるのかが重要です。大規模データ設定での実用化のために特に開発された1つのアルゴリズムはVWであり、並列処理をサポートし始めています。実用的な並列学習に関するNIPS 2010 ワークショップの論文に興味があるかもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.