Apache Stormのカスケードエラー

TwitterによるSummingbirdのプレゼンテーションと資料を見てみると、SummingbirdでStormとHadoopのクラスターを一緒に使用する理由の1つは、Stormを介して処理するとエラーが連鎖的に発生することです。このエラーのカスケードとその累積を回避するために、Hadoopクラスターを使用してデータをバッチ処理し、同じデータがHadoopによって処理された後にStormの結果を破棄します。

このエラーの蓄積が発生する理由は何ですか？そして、なぜそれがHadoopに存在しないのですか？私はストームで働いたことがないので、その理由はわかりません。それは、Stormがリアルタイムでデータを処理するために、データを処理するために何らかの近似アルゴリズムを使用しているためですか？または原因は何か他にありますか？

bigdata apache-hadoop

— mbbce
ソース

Twitterはデータのリアルタイム処理にStormを使用しています。リアルタイムデータで問題が発生する可能性があります。システムがダウンする可能性があります。データが誤って2回処理される可能性があります。ネットワーク接続が失われる可能性があります。リアルタイムシステムでは多くのことが起こります。

彼らは、hadoopを使用して履歴データを確実に処理します。詳細はわかりませんが、たとえば、集約されたログから確実な情報を取得する方が、ストリームにアタッチするよりも信頼性が高いでしょう。

すべてがストームに単純に依存している場合-リアルタイムで大規模な情報を提供するという性質上、ストームには問題があります。すべてがhadoopに依存している場合は、かなりの遅延が発生します。2つをSummingbirdと組み合わせることが次の論理的なステップです。

— スティーブ・カレスタッド
ソース