タグ付けされた質問 「h5py」

2
numpy配列をh5pyに入出力
出力がサイズ指定された行列で、エントリがすべてtypeであるPythonコードがありますfloat。拡張子を付けて保存すると、.datファイルサイズは500 MB程度になります。を使用h5pyすると、ファイルサイズが大幅に縮小されることを確認しました。したがって、という名前の2D numpy配列があるとしAます。どうすればh5pyファイルに保存できますか?また、配列を操作する必要があるので、同じファイルを読み取って、それを別のコードの派手な配列として配置するにはどうすればよいですか?
100 python  arrays  numpy  h5py 

1
(フラットバイナリファイルの代わりに)大規模アレイストレージにHDF5を使用することには、分析速度やメモリ使用の利点がありますか?
大きな3Dアレイを処理しています。さまざまなデータ分析を行うために、さまざまな方法でスライスする必要があることがよくあります。典型的な「キューブ」は最大100GBになる可能性があります(将来的にはさらに大きくなる可能性があります) Pythonの大規模なデータセットの一般的な推奨ファイル形式は、HDF5(h5pyまたはpytables)を使用することです。私の質問は、HDF5を使用してこれらのキューブを単純なフラットバイナリファイルに保存するよりも保存および分析することで、速度やメモリ使用のメリットはありますか?HDF5は、操作しているような大きな配列とは対照的に、表形式のデータに適していますか?HDF5は適切な圧縮を提供できることがわかりますが、処理速度とメモリオーバーフローの処理により関心があります。 キューブの1つの大きなサブセットのみを分析したいことがよくあります。pytablesとh5pyの両方の欠点の1つは、配列のスライスを取得すると、常にメモリを使い切ってnumpy配列が返されることです。ただし、フラットバイナリファイルの面倒なmemmapをスライスすると、ディスクにデータを保持するビューを取得できます。したがって、メモリを使い果たすことなく、データの特定のセクターをより簡単に分析できるようです。 私はpytablesとh5pyの両方を調査しましたが、これまでのところ、どちらの目的でも自分の目的に役立つことはありません。
96 python  numpy  hdf5  pytables  h5py 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.