回答:
Mahout in Actionは、Mahout(http://manning.com/owen/)を読むのに適した本です。もちろん、ウェブサイトには、対象となるアルゴリズムの概要があります(http://mahout.apache.org/)。
Jimmy LinとChris Dyer がMapReduceを使用したデータ集約型テキストマイニングに関する本の最初の章で指摘しているように、大規模なデータスケールでは、さまざまなアルゴリズムのパフォーマンスが収束するため、パフォーマンスの違いはほとんどなくなります。これは、十分に大きなデータセットが与えられた場合、使用したいアルゴリズムが計算コストが低いアルゴリズムであることを意味します。アルゴリズム間のパフォーマンスの違いが問題になるのは、データスケールが小さい場合のみです。
そうは言っても、彼らの本(上記にリンク)およびAnand Rajaraman、Jure Leskovec、およびJeffrey D. UllmanによるMining of Massive Datasetsは、特にMapReduceに直接関係しているため、おそらく2冊の本もチェックしたいと思うでしょう。データマイニングの目的のため。
Hadoopクラスターにアクセスできる場合は、Sparkを見てみます。https://spark.apache.org/
次の論文については誰も言及していません-http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf(Andrew Ngは著者の1人です)
紙自体はマルチコアマシンに関するものですが、本質的には、機械学習の問題をリマップしてマップ縮小パターンに適合させ、コンピューターのクラスターに使用できるようにすることです。(これが一般に良いアイデアではない理由を確認するには、このペーパーを読むことをお勧めします-http://arxiv.org/pdf/1006.4990v1.pdf。概要がわかります)。
機械学習のスケールアップ:並列分散アプローチは、John Langfordらによる優れた書籍です。al。監視ありと監視なしのアルゴリズムの並列実装について説明します。MapReduce、デシジョンツリーアンサンブル、並列K平均、並列SVM、信念伝播、およびAD-LDAについて説明します。
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242