ラムダアーキテクチャについて読んでいます。
それは理にかなっている。キューベースのデータ取り込みがあります。非常に新しいデータ用のメモリ内ストアがあり、古いデータ用のHDFSがあります。
これでデータセット全体ができました。私たちのシステムで。とても良い。
ただし、アーキテクチャ図は、マージレイヤーがバッチレイヤーとスピードレイヤーの両方を一度にクエリできることを示しています。
どうやってするか?
バッチレイヤーは、おそらくマップ削減ジョブまたはHIVEクエリです。スピードレイヤークエリは、おそらくスパーク上で実行されるscalaプログラムです。
これらをどのようにマージしますか?
何かアドバイスはありますか?