プログラミング parquet

3

Apache Parquetの特徴は次のとおりです。自己記述カラムナー形式言語に依存しない Avro、Sequence Files、RC Fileなどと比較して、フォーマットの概要を知りたい。私はすでに読んでいます：ImpalaがHadoopファイル形式でどのように機能するか、それは形式に関するいくつかの洞察を提供しますが、データへのアクセスとデータのストレージがこれらの各形式でどのように行われるかを知りたいです。寄木細工は他のものよりどのように有利ですか？

136 file hadoop hdfs avro parquet

1

羽と寄木細工の違いは何ですか？

どちらも、データ分析システムで使用するための柱状（ディスク）ストレージ形式です。両方が内に一体化されているApacheの矢印（pyarrowのPython用のパッケージ）とに対応するように設計されている矢印柱状インメモリ分析層として。両方のフォーマットはどのように異なりますか？可能であれば、パンダを扱うときは常に羽を好むべきですか？寄木細工よりも羽が適している、またはその逆のユースケースは何ですか？付録 https://github.com/wesm/feather/issues/188でいくつかのヒントを見つけましたが、このプロジェクトの年齢が若いことを考えると、おそらく少し時代遅れです。データフレーム全体をダンプしてロードしているだけなので、深刻な速度テストではありませんが、これまでフォーマットについて聞いたことがない場合は、印象を与えるためです。 # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) print("pandas df to …

95 python pandas parquet feather pyarrow

7

アブロ対寄木細工

私は、Hadoop関連のプロジェクトにHadoopファイル形式の1つを使用することを計画しています。寄木細工は、列ベースのクエリとフルスキャンのavro、またはすべての列データが必要な場合に効率的であることを理解しています。先に進んでファイル形式の1つを選択する前に、一方の欠点/欠点が何であるかを理解したいと思います。誰かが私にそれを簡単な言葉で説明できますか？

92 hadoop avro parquet

5

寄木細工vsORC vs ORC with Snappy

Hiveで利用可能なストレージ形式でいくつかのテストを実行し、主要なオプションとしてParquetとORCを使用しています。ORCをデフォルトの圧縮で1回、Snappyで1回含めました。私はParquetがORCと比較して時間/空間の複雑さが優れていると述べている多くの文書を読みましたが、私のテストは私が経験した文書と反対です。私のデータのいくつかの詳細に従います。 Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB 私のテーブルの圧縮に関する限り、寄木細工は最悪でした。上記の表を使用したテストでは、次の結果が得られました。行カウント操作 Text Format Cumulative CPU - 123.33 sec Parquet Format Cumulative CPU - 204.92 sec ORC Format Cumulative …

88 hadoop hive parquet snappy orc

タグ付けされた質問 「parquet」

タグ付けされた質問「parquet」