タグ付けされた質問 「pytables」

1
(フラットバイナリファイルの代わりに)大規模アレイストレージにHDF5を使用することには、分析速度やメモリ使用の利点がありますか?
大きな3Dアレイを処理しています。さまざまなデータ分析を行うために、さまざまな方法でスライスする必要があることがよくあります。典型的な「キューブ」は最大100GBになる可能性があります(将来的にはさらに大きくなる可能性があります) Pythonの大規模なデータセットの一般的な推奨ファイル形式は、HDF5(h5pyまたはpytables)を使用することです。私の質問は、HDF5を使用してこれらのキューブを単純なフラットバイナリファイルに保存するよりも保存および分析することで、速度やメモリ使用のメリットはありますか?HDF5は、操作しているような大きな配列とは対照的に、表形式のデータに適していますか?HDF5は適切な圧縮を提供できることがわかりますが、処理速度とメモリオーバーフローの処理により関心があります。 キューブの1つの大きなサブセットのみを分析したいことがよくあります。pytablesとh5pyの両方の欠点の1つは、配列のスライスを取得すると、常にメモリを使い切ってnumpy配列が返されることです。ただし、フラットバイナリファイルの面倒なmemmapをスライスすると、ディスクにデータを保持するビューを取得できます。したがって、メモリを使い果たすことなく、データの特定のセクターをより簡単に分析できるようです。 私はpytablesとh5pyの両方を調査しましたが、これまでのところ、どちらの目的でも自分の目的に役立つことはありません。
96 python  numpy  hdf5  pytables  h5py 

2
オプションの依存関係「テーブル」がありません。パンダでto_hdf
次のコードは私にエラーを与えています。 import pandas as pd df = pd.DataFrame({'a' : [1,2,3]}) df.to_hdf('temp.h5', key='df', mode='w') これは私にエラーを与えています。 オプションの依存関係「テーブル」がありません。テーブルをインストールするには、pipまたはcondaを使用します。 ImportErrorを既に試し ましたHDFStoreにはPyTablesが必要ですテーブルという名前のモジュールはありません。まだ同じエラー。 hdfファイルを読み取るときに同じエラーが発生します。そしてtables、私のPython用にすでにインストールされています。 一部のバージョン情報。 python 3.7.4 パンダ0.25.2 ウインドウズ10 PS:これはrepl https://repl.it/で再現できます。 更新: フォローしてみました。 import tables このエラーが発生しました: ImportError:['hdf5.dll'、 'hdf5dll.dll']をロードできませんでした。システムパスにあることを確認してください。 パンダはこれについて正確なメッセージを出していないようです。実際に存在する場合、依存関係が欠けていると言っています。 誰かがこれを解決する方法を知っているなら。それが役立ちます。
8 python  pandas  pip  hdf5  pytables 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.