タグ付けされた質問 「data-storage」

9
浮動小数点データの圧縮
浮動小数点科学データを圧縮するために特別に設計されたツールはありますか? 関数がスムーズである場合、その関数を表す数値の間には明らかに多くの相関関係があるため、データは十分に圧縮されるはずです。ただし、バイナリ浮動小数点データを圧縮/ gzip圧縮しても、圧縮はうまくいきません。浮動小数点データを圧縮するために特別に開発された方法があるのだろうか。 要件: ロスレス圧縮、または保持する最小桁数を指定する可能性(アプリケーションdoubleによっては、必要floatな精度よりも高い精度が必要な場合があります)。 十分にテストされた作業ツール(つまり、理論的な方法を説明する論文だけではありません)。 1D数値データ(時系列など)の圧縮に適しています クロスプラットフォーム(Windowsで動作する必要があります) それは高速でなければなりません---できればgzipよりも遅くないことが望ましいです。数値をASCIIとして保存している場合、ファイルをgzipすることで、読み取りと処理を高速化できます(操作がI / Oにバインドされている可能性があるため)。 私は特に、実際にそのようなツールを使用した人々から話を聞きたいです。

1
hdf5の代替
私は何年もHDF5を使用していますが、データセットのサイズが大きくなるにつれて、ここにリストされているのと同じ問題を経験し始めています。 http://cyrille.rossant.net/moving-away-hdf5/ HDF5のようなフォーマットを指定してください-並列書き込みの良好なサポート-巨大なマトリックスのチャンクアクセスのサポート 私の典型的な使用例は、100k x 100k整数行列です。論理的な観点からファイル全体として保持したいのですが、並列ワーカーでチャンクごとに書き込む必要があります。

3
階層シミュレーションデータを保存するためのベストプラクティス
TL、DR 大量の階層構造データを保存するための科学コンピューティング界で受け入れられているベストプラクティスは何ですか?たとえば、SQLは大きなスパース行列ではうまく機能しません。この種のデータを構造化し、保管し、分析するための優れたツールはありますか?LHCのスタッフは何を使用していますか? ユースケースの詳細 次の階層に従ってタンパク質シミュレーションのデータを保存します。 protein |__simulation conditions |____|__residues |____|____|__conformers |____|____|____|__atoms すべてのタンパク質はその各残基を認識している必要があり、すべての原子はそのシミュレーションなどに使用される条件を知っている必要があります。 もともと、このアプリケーションにはリレーショナルデータベースが最適であると考えたため、pythonとsqlalchemeyを使用して、SQLデータベースにデータを保存するプログラムを作成しました。ただし、実際には、このプログラムはあまりうまく機能していません。 最大の問題は、配座異性体データレベルにN x N行列があり、配座異性体のすべての可能なペア間のペアワイズ相互作用によるポテンシャルエネルギーを格納するという事実に関連しています。マトリックス内のエントリのほとんどはゼロです。そのため、データベース内の別のテーブルに、エントリごとに1行、一種のスパース形式でマトリックスを格納しています。残念ながら、数千の配座異性体を含むシミュレーションの場合、ペアワイズテーブルは依然として数十万行になり、次のようになります。 a)構築とクエリが非常に遅い(時間) b)非スパースマトリックスとしてのデータの同等のプレーンテキスト表現よりもハードドライブ上のスペースを1桁多く 消費するc)10ギガバイト以上のメモリを消費するテーブルはメモリに読み込まれます 私の最終的な目標は、データベースに数万の実行(数十のシミュレーション条件下での数千のタンパク質から派生)を保存して、それらをすべて一緒に分析できるようにすることです。これは、ペアワイズ行列を表すテーブルが約10億行になる可能性が高いことを意味します。現在、このデータベースで単一のクエリを実行するためにも、Crayまたはその他の共有メモリモンスターが必要になるようです。 ここにはより良いオプションがありますか?LHCのスタッフは何を使用していますか?

3
HDF5ファイルはgitリビジョン管理に適していますか?
私はHDF5で使用されているファイル形式に精通していませんが、HDF5ファイルがgit(またはMercurialやSubversionなど)のリビジョン管理に適しているかどうか疑問に思っていますか?つまり、HDF5ファイルは行ベースの差分に適していますか、またはgitはHDF5を1つの大きなバイナリとして扱い、各リビジョンのコピー全体を保存する必要がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.