50 Gb DEMに必要なクラスター処理リソース?


9

「レンタル目的」では、大学のコンピューティングセンターから必要なコンピューティングリソースを指定する必要があります。何を求めればいいのか、ほとんどわからない。

以下の情報を考慮して、何か提案がありますか?

これは計算クラスタです。「各ブレードが2つのクアッドコアインテルXeon 2.33 Ghz CPUと16 GBのメモリで構成され、合計80 CPUと160 GBのメモリで構成される10ブレードサーバー。2TBディスクシステムのアカウント。実行中64ビットLinux」

ロスレス圧縮では、元のデータは1つの50GB TIFFファイルです。ある時点で、サイズが50GBのいくつかの(最大10個の)ファイルを処理します。

GDAL、Pythonスクリプト、そして多分C ++スクリプトを使用します。許可されれば、Grass GISやSaga GISなどのソフトウェアを使用します。また、空間ライブラリを備えたR言語。通常の地形パラメータを導き出し、オブジェクト指向アルゴリズムを適用して特定の特徴(地形)を抽出し、統計分析を使用して説明とモデリングを行います。


3
回答から正確に何を期待していますか?要求できる数量(複数可)は?ブレードの数、1ブレードのコアの数など?手がかりを与えるために記入しなければならないフォームはありますか?
blah238

1
こんにちは。形はありません。私の上司は私にこれらの質問を事前に尋ねています(私が知らないことを念頭に置いて)。ただし、後で、プラットフォームにアクセスするときに、予想されるメモリニーズと処理時間だけでなく、プロセッサの数も正確に指定する必要があります。だから、いいえについての考えを持っていると良いでしょう。単純な行列代数(A * 0.1 + B + C / 50)の実行を可能にするプロセッサとメモリの量)。ありがとうございました。
Marco

2
最初に問題を攻撃するための戦略を決定すると役立ちます。Pythonのスクリプト(GDALバインディングを使用)をそのまま使用しても、複数のプロセッサを利用できるとは思いません。どのようにデータを分割して、並列処理を行う予定ですか。その後、など、あなたが使用することを計画していることコアの数に基づいて、データおよび外挿総処理時間の塊の上にいくつかのテストを実行することができます
DavidF

デビッドに感謝します。私はこれについてもっと徹底的に考えました。Matlabでいくつかのテストを行います。
Marco

回答:


2

だから、いいえについての考えを持っていると良いでしょう。単純行列代数の実行を可能にするプロセッサとメモリの量(A * 0.1 + B + C / 50)

DavidFがより重要なコメントで述べたように、マシンを気にせず、ステートフルであることが重要です。概念的にはマトリックス全体が意味するため、マトリックス全体で一度に50GBマトリックス代数を実行することはできませんメモリに書き込む必要があります。

高速、非常に簡単、かつ効率的な適切な戦略は、gdal_calcを使用することです。これは、ラスタをチャンク単位で読み書きするため、メモリ効率が非常に高くなります。

例:gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B)/ 2"

試してみてください。デスクトップで処理を実行できる可能性が非常に高いため、処理を高速化するかどうかに関係なく、より優れたマシンが必要になる場合があります。

Obs:マルチコアプロセッサを利用するには、複数のgdal_calcプロセスをスパムする必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.