プログラミング pyarrow

羽と寄木細工の違いは何ですか？

どちらも、データ分析システムで使用するための柱状（ディスク）ストレージ形式です。両方が内に一体化されているApacheの矢印（pyarrowのPython用のパッケージ）とに対応するように設計されている矢印柱状インメモリ分析層として。両方のフォーマットはどのように異なりますか？可能であれば、パンダを扱うときは常に羽を好むべきですか？寄木細工よりも羽が適している、またはその逆のユースケースは何ですか？付録 https://github.com/wesm/feather/issues/188でいくつかのヒントを見つけましたが、このプロジェクトの年齢が若いことを考えると、おそらく少し時代遅れです。データフレーム全体をダンプしてロードしているだけなので、深刻な速度テストではありませんが、これまでフォーマットについて聞いたことがない場合は、印象を与えるためです。 # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) print("pandas df to …

95 python pandas parquet feather pyarrow

pandasUDFおよびpyarrow 0.15.0

最近pyspark、EMRクラスターで実行されている多数のジョブで多数のエラーが発生し始めました。エラーは java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... それらはすべてapplyパンダシリーズの機能で発生するようです。私が見つけた唯一の変更は、pyarrow土曜日（05/10/2019）に更新されたものです。テストは0.14.1で動作するようですだから私の質問は、これが新しく更新されたpyarrowのバグであるかどうか、またはpandasUDFを将来使用しにくくする重要な変更があるかどうかを誰かが知っているかどうかです。

12 pandas apache-spark pyspark pyarrow

タグ付けされた質問 「pyarrow」

タグ付けされた質問「pyarrow」