したがって、シナリオは次のとおりです。
データのブロブをAzureStorageに書き込むWebサービスのインスタンスが複数あります。いつ受信したかに応じて、blobをコンテナー(または仮想ディレクトリ)にグループ化できる必要があります。たまに(最悪の場合は毎日)、古いブロブが処理されてから削除されます。
私には2つの選択肢があります:
オプション1
たとえば、「ブロブ」と呼ばれる1つのコンテナーを作成し、すべてのブログをそのコンテナーに格納します。各blobは、ディレクトリスタイル名を使用します。ディレクトリ名は受信時刻です(例: "hr0min0 / data.bin"、 "hr0min0 / data2.bin"、 "hr0min30 / data3.bin"、 "hr1min45 / data.bin "、...、" hr23min0 / dataN.bin "など-X分ごとに新しいディレクトリ)。これらのblobを処理するものは、最初にhr0min0 blobを処理し、次にhr0minXなどを処理します(そして、blobは処理時にまだ書き込まれています)。
オプション2
それぞれが到着時間に基づいた名前のコンテナがたくさんあり(最初はblobs_hr0min0、次にblobs_hr0minXなどと呼ばれるコンテナになります)、コンテナ内のすべてのblobは、指定された時刻に到着したblobです。これらのブログを処理するものは、一度に1つのコンテナーを処理します。
だから私の質問は、どちらのオプションが良いですか?オプション2は(コンテナーが異なるサーバーにある可能性があるため)より良い並列化を提供しますか、それとも多くのコンテナーが他の未知の問題を引き起こす可能性があるため、オプション1はより良いですか?