hadoop / map-reduceを使用してスケーリングできる機械学習アルゴリズム


9

スケーラブルな機械学習アルゴリズムは最近流行しているようです。どの企業もビッグデータ以外の何も扱っていません。Map-Reduceのような並列アーキテクチャを使用してスケーリングできる機械学習アルゴリズムと、そうでないアルゴリズムについて説明した教科書はありますか?またはいくつかの関連論文?

回答:



4

オンライン勾配降下学習に焦点を当てた非常に高速な機械学習プログラムであるVowpal Wabbitは、Hadoopで使用できます。http://arxiv.org/abs/1110.4198ただし 、私はこの方法で使用したことがありません。私がそれを正しく理解していれば、信頼性とデータをVowpal Wabbitプロセスに提供するためにHadoopを実際に使用するだけです。MPIのAllReduceのようなものを使用して、ほとんどの通信を行います。


4

Jimmy LinとChris Dyer がMapReduceを使用したデータ集約型テキストマイニングに関する本の最初の章で指摘しているように、大規模なデータスケールでは、さまざまなアルゴリズムのパフォーマンスが収束するため、パフォーマンスの違いはほとんどなくなります。これは、十分に大きなデータセットが与えられた場合、使用したいアルゴリズムが計算コストが低いアルゴリズムであることを意味します。アルゴリズム間のパフォーマンスの違いが問題になるのは、データスケールが小さい場合のみです。

そうは言っても、彼らの本(上記にリンク)およびAnand Rajaraman、Jure Leskovec、およびJeffrey D. UllmanによるMining of Massive Datasetsは、特にMapReduceに直接関係しているため、おそらく2冊の本もチェックしたいと思うでしょう。データマイニングの目的のため。


1
「大規模では、さまざまなアルゴリズムのパフォーマンスが収束します...」私はこれを知りませんでした。この有益な洞察をありがとう。また、「大量のデータセットのマイニング」に遭遇し、それが非常に便利であることがわかりました。他の本も見ていきます。
Nik


1

次の論文については誰も言及していません-http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf(Andrew Ngは著者の1人です)

紙自体はマルチコアマシンに関するものですが、本質的には、機械学習の問題をリマップしてマップ縮小パターンに適合させ、コンピューターのクラスターに使用できるようにすることです。(これが一般に良いアイデアではない理由を確認するには、このペーパーを読むことをお勧めします-http://arxiv.org/pdf/1006.4990v1.pdf。概要がわかります)。


また、Mahoutは、私が言及したAndrew Ngの論文を実装する試みでした。
user48654

0

機械学習のスケールアップ:並列分散アプローチは、John Langfordらによる優れた書籍です。al。監視ありと監視なしのアルゴリズムの並列実装について説明します。MapReduce、デシジョンツリーアンサンブル、並列K平均、並列SVM、信念伝播、およびAD-LDAについて説明します。

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.