インフラストラクチャスタック/ワークフロー/パイプラインの例を探す

14

hadoop、monogodb / nosql、storm、kafkaなど、実世界のユースケースですべての「ビッグデータ」コンポーネントがどのように連携するかを理解しようとしています。これは、さまざまな種類がありますが、アプリケーション、webapp、オンラインショップの機械学習など、アプリケーションでの相互作用について詳しく知りたいと思います。

ビスタ/セッション、トランザクションデータなどがあり、それを保存します。しかし、その場で推奨事項を作成したい場合は、私が持っているログの大きなデータベースでそのための遅いmap / reduceジョブを実行できません。インフラストラクチャの側面に関する詳細情報はどこで入手できますか？ほとんどのツールを単独で使用できると思いますが、それらを相互に接続することはそれ自体が芸術のようです。

利用可能な公開例/ユースケースなどはありますか？個々のパイプラインはユースケースとユーザーに強く依存していることを理解していますが、おそらく単なる例が私にとって非常に役立つでしょう。

— チャーム
ソース

これについて何か研究しましたか？多くのユーチューブのビデオと異なるアーキテクチャを説明slideshareプレゼンテーションがあります

— Stanpol

1

ちょっとスタンポール、あなたの応答に感謝します-私はいくつかの最初の検索を行い、AWSとclouderaのもの以外には本当に何も見つけませんでした-多分あなたが私に有望な検索用語を与えることができれば、そこからそれを喜んで取るでしょう。

— chrshmmmr 14年

14

機械学習を実稼働アプリケーションに統合するさまざまな方法を理解するために、オープンソースプロジェクトや、インフラストラクチャについて説明している企業の論文/ブログ投稿を見ると便利だと思います。

これらのシステムに共通するテーマは、モデルトレーニングとモデルアプリケーションの分離です。実動システムでは、モデルの適用は100ミリ秒のオーダーで高速である必要がありますが、適合したモデルパラメーター（または同等の）を更新する必要がある頻度はより自由です。

人々は、モデルのトレーニングと展開に幅広いソリューションを使用しています。

モデルを構築し、PMMLでエクスポートして展開します
- AirBnBは、 R / PythonでのモデルトレーニングとOpenScoringによるPMMLモデルの展開について説明しています。
- パターンは、PMMLを使用して予測モデルを展開できるカスケードに関連するプロジェクトです。
MapReduceでモデルを構築し、カスタムシステムの値にアクセスする
- ConjectureはEtsyのオープンソースプロジェクトで、Scaldingを使用したモデルトレーニング、MapReduceの使いやすいscalaラッパー、およびPhpによる展開を可能にします。
- KijiはWibiDataのオープンソースプロジェクトであり、リアルタイムのモデルスコアリング（アプリケーション）と、Scaldingを介したユーザーデータの永続化とそのデータのトレーニングモデルの機能を可能にします。
モデルパラメータを継続的に更新できるオンラインシステムを使用します。
- Googleは、Googleニュースの推奨事項に対処するために実装したオンラインの共同フィルタリングに関する優れた論文をリリースしました。

— j_houg
ソース

7

複雑な分析パイプラインのセットアップに関する最も詳細で明確な説明の1つは、Twitchの人々からです。
それらは、データの収集、輸送、調整、処理、保管、および照会のためのアーキテクチャー選択のそれぞれの詳細な動機を与えます。
説得力のある読書！こことここで見つけてください。

— チャクラバーティ
ソース

それは本当に素晴らしい、まさに私が探していたものです！

— どうも

@chrshmmmrどういたしまして。これが役立ったら、賛成票を投じることを忘れないでください！

— tchakravarty

3

これらのリンクは確かに非常に便利に思えますが、それでもリンクであり、外部ソースの安定性とは無関係に答えを維持するよう努力する必要があると思います。したがって、たとえば、このリンクの図を追加するのに2〜3分かかり、簡単な説明とともにそれを投稿できると便利です。「たとえば、これは...システムのワークフローです。<img>。詳細は<link>にあります。」

— ルーベンス14年

1

@Rubens編集を少し提案します。fgnu：そうするでしょう、実際に答えを支持するためにもう少し評判が必要ですが、私は確かにあなたの貢献を尊重します:)

— chrshmmmr 14年

@Rubensそれは、リンクで情報を再現することに他なりません。すでにそこに与えられた説明に追加すると思われる何かがあったら、私はそうするでしょう。

— tchakravarty

3

AirbnbとEtsyはどちらも、最近彼らのワークフローに関する詳細情報を投稿しました。

— トレイ
ソース

1

Rを使用したPractical Data Science（http://www.manning.com/zumel/）の第1章には、チームの役割や特定のタスクとの関係など、データサイエンスプロセスの詳細な内訳があります。この本は、このステージまたは担当者がどのステージ/担当者によって実行されるかを参照することにより、この章で説明されているモデルに従います。

— d8aninja
ソース