プログラミング pandas

6

以前の値も適用で計算されるときに、パンダでdataframe.applyの前の行の値を使用する方法はありますか？

私は次のデータフレームを持っています： Index_Date A B C D =============================== 2015-01-31 10 10 Nan 10 2015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 280 2015-02-03 10 100 Nan 250 必要とする： Index_Date A B C D =============================== 2015-01-31 10 10 10 10 2015-02-01 2 3 23 22 2015-02-02 10 60 290 280 2015-02-03 …

96 python pandas dataframe for-loop iteration

1

Python Pandas：CSVファイルの最初のn行のみを読み取る方法は？

私は非常に大きなデータセットを持っていて、データセット全体を読み取る余裕がありません。したがって、トレーニングのためにデータセットの1つのチャンクだけを読み取ることを考えていますが、その方法がわかりません。どんな考えでもありがたいです。

96 python pandas csv file-io

1

Pandasの「Freq」タグに関するドキュメントはどこにありますか？[閉まっている]

閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、StackOverflowのトピックになります。 3年前に閉鎖されました。この質問を改善する私はパンダに不慣れで、使用しようとしていますdate_range。のfreqようなBME、あらゆる種類の良いものに出くわしBMSました。適切な文字列をすばやく検索して、必要なものを取得できるようにしたいと思います。昨日、ドキュメントのどこかで適切にフォーマットされたテーブルを見つけましたが、テーブルのタイトルが非常に鈍いため、今日は検索を使用して再度見つけることができません。

96 python pandas documentation dataframe frequency

9

ディスクに書き込まずにAWSS3のテキストファイルをパンダにインポートする方法

タブ区切りのテーブルであるテキストファイルをS3に保存しています。パンダにロードしたいのですが、herokuサーバーで実行しているため、最初に保存できません。これが私がこれまでに持っているものです。 import io import boto3 import os import pandas as pd os.environ["AWS_ACCESS_KEY_ID"] = "xxxxxxxx" os.environ["AWS_SECRET_ACCESS_KEY"] = "xxxxxxxx" s3_client = boto3.client('s3') response = s3_client.get_object(Bucket="my_bucket",Key="filename.txt") file = response["Body"] pd.read_csv(file, header=14, delimiter="\t", low_memory=False) エラーは OSError: Expected file path name or file-like object, got <class 'bytes'> type 応答本文をパンダが受け入れる形式に変換するにはどうすればよいですか？ pd.read_csv(io.StringIO(file), header=14, delimiter="\t", low_memory=False) returns TypeError: …

96 python pandas heroku amazon-s3 boto3

9

JavaScriptで同等のPythonパンダ

このCSVの例では： Source,col1,col2,col3 foo,1,2,3 bar,3,4,5 私がパンダを使用する標準的な方法はこれです： CSVを解析するデータフレームに列を選択します（col1およびcol3）カラムを処理（例えばavarageの値 col1とcol3）パンダのようなJavaScriptライブラリはありますか？

96 javascript python pandas

7

ラベルで選択したパンダは時々シリーズを返し、時々DataFrameを返します

パンダでは、インデックスにエントリが1つしかないラベルを選択するとシリーズが返されますが、エントリが1つ以上あるエントリを選択すると、データフレームが返されます。何故ですか？常にデータフレームを確実に取得する方法はありますか？ In [1]: import pandas as pd In [2]: df = pd.DataFrame(data=range(5), index=[1, 2, 3, 3, 3]) In [3]: type(df.loc[3]) Out[3]: pandas.core.frame.DataFrame In [4]: type(df.loc[1]) Out[4]: pandas.core.series.Series

95 python pandas dataframe slice series

4

DataFrameパンダの日付間の日数を含む列を追加する

「B」の日付から「A」の日付を差し引いて、差のある新しい列を追加します。 df A B one 2014-01-01 2014-02-28 two 2014-02-03 2014-03-01 以下を試しましたが、これをforループに含めようとするとエラーが発生します... import datetime date1=df['A'][0] date2=df['B'][0] mdate1 = datetime.datetime.strptime(date1, "%Y-%m-%d").date() rdate1 = datetime.datetime.strptime(date2, "%Y-%m-%d").date() delta = (mdate1 - rdate1).days print delta 私は何をすべきか？

95 python pandas date-difference

3

pandas.read_csvを取得して、nanではなく空の文字列として空の値を読み取ります

pandasライブラリを使用してCSVデータを読み込んでいます。私のデータでは、特定の列に文字列が含まれています。"nan"空の文字列と同様に、文字列は可能な値です。私はパンダに "nan"を文字列として読み取らせることができましたが、空の値をNaNとして読み取らないようにする方法を理解できません。ここにサンプルデータと出力があります One,Two,Three a,1,one b,2,two ,3,three d,4,nan e,5,five nan,6, g,7,seven >>> pandas.read_csv('test.csv', na_values={'One': [], "Three": []}) One Two Three 0 a 1 one 1 b 2 two 2 NaN 3 three 3 d 4 nan 4 e 5 five 5 nan 6 NaN 6 g 7 seven 「nan」は文字列「nan」として正しく読み取られますが、空のセルはNaNとして読み取らstrれconvertersます。read_csv の引数に（converters={'One': str})）を渡してみましたが、空のセルはNaNとして読み取られます。 …

95 python csv pandas

6

pandasとmatplotlibを使用してカテゴリデータをプロットする

カテゴリデータを含むデータフレームがあります。 colour direction 1 red up 2 blue up 3 green down 4 red left 5 red right 6 yellow down 7 blue down カテゴリに基づいて円グラフやヒストグラムなどのグラフを生成したいと思います。ダミーの数値変数を作成せずに可能ですか？何かのようなもの df.plot(kind='hist')

95 python pandas

5

パンダのマージ-列の重複を回避する方法

2つのデータフレーム間のマージを試みています。各データフレームには、2つのインデックスレベル（日付、cusip）があります。列では、たとえば、いくつかの列が2つ（通貨、調整日）の間で一致します。これらをインデックスでマージする最良の方法は何ですか。ただし、通貨と調整日を2つコピーしないでください。各データフレームは90列なので、すべてを手作業で書き出すことは避けようとしています。 df: currency adj_date data_col1 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... df2: currency adj_date data_col2 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... 私が行った場合： dfNew = merge(df, df2, left_index=True, right_index=True, how='outer') 私は得る dfNew: currency_x adj_date_x data_col2 ... currency_y adj_date_y date cusip 2012-01-01 XSDP USD …

95 python pandas

1

羽と寄木細工の違いは何ですか？

どちらも、データ分析システムで使用するための柱状（ディスク）ストレージ形式です。両方が内に一体化されているApacheの矢印（pyarrowのPython用のパッケージ）とに対応するように設計されている矢印柱状インメモリ分析層として。両方のフォーマットはどのように異なりますか？可能であれば、パンダを扱うときは常に羽を好むべきですか？寄木細工よりも羽が適している、またはその逆のユースケースは何ですか？付録 https://github.com/wesm/feather/issues/188でいくつかのヒントを見つけましたが、このプロジェクトの年齢が若いことを考えると、おそらく少し時代遅れです。データフレーム全体をダンプしてロードしているだけなので、深刻な速度テストではありませんが、これまでフォーマットについて聞いたことがない場合は、印象を与えるためです。 # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) print("pandas df to …

95 python pandas parquet feather pyarrow

4

pandas.qcutとpandas.cutの違いは何ですか？

ドキュメントは言う： http://pandas.pydata.org/pandas-docs/dev/basics.html "連続値は、カット（値に基づくビン）およびqcut（サンプル変位値に基づくビン）関数を使用して離散化できます。" 私には非常に抽象的に聞こえます...以下の例で違いを見ることができますが、qcut（サンプル変位値）は実際に何をする/意味するのですか？qcutとcutのどちらを使用しますか？ありがとう。 factors = np.random.randn(30) In [11]: pd.cut(factors, 5) Out[11]: [(-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (0.575, 1.561], ..., (-0.411, 0.575], (-1.397, -0.411], (0.575, 1.561], (-2.388, -1.397], (-0.411, 0.575]] Length: 30 Categories (5, object): [(-2.388, -1.397] < (-1.397, -0.411] < (-0.411, 0.575] < (0.575, 1.561] …

94 python pandas

5

Pandasのread_csv関数でロード時に行をフィルタリングするにはどうすればよいですか？

パンダを使用してメモリにロードするCSVの行をフィルタリングするにはどうすればよいですか？これは、で見つけられるはずのオプションのようread_csvです。何か不足していますか？例：タイムスタンプ列のあるCSVがあり、指定された定数より大きいタイムスタンプを持つ行のみをロードしたいとします。

94 python pandas

11

パンダデータフレームでNaNを含む行の整数インデックスを見つける

私はこのようなパンダDataFrameを持っています： a b 2011-01-01 00:00:00 1.883381 -0.416629 2011-01-01 01:00:00 0.149948 -1.782170 2011-01-01 02:00:00 -0.407604 0.314168 2011-01-01 03:00:00 1.452354 NaN 2011-01-01 04:00:00 -1.224869 -0.947457 2011-01-01 05:00:00 0.498326 0.070416 2011-01-01 06:00:00 0.401665 NaN 2011-01-01 07:00:00 -0.019766 0.533641 2011-01-01 08:00:00 -1.101303 -1.408561 2011-01-01 09:00:00 1.671795 -0.764629 NaNを持つ行の「整数」インデックスを見つける効率的な方法はありますか？この場合、必要な出力はになります[3, 6]。

94 python pandas

5

NaNとNoneの違いは何ですか？

私はパンダreadcsv()を使用してcsvファイルの2つの列を読み取り、その値を辞書に割り当てています。列には数字と文字の文字列が含まれます。セルが空の場合があります。私の意見では、そのディクショナリー項目に読み取られる値は、割り当てられるべきですがNone、代わりnanに割り当てられるべきです。確かNoneに、空のセルはnull値を持っているので、よりわかりやすくなりますが、nan読み取られた値は数値ではないというだけです。私の理解が正しい、との違いは何ですかれるNoneとはnan？のnan代わりになぜ割り当てられるのNoneですか？また、空のセルがないか私の辞書チェックで使用されていnumpy.isnan()ます： for k, v in my_dict.iteritems(): if np.isnan(v): しかし、これにより、このチェックをに使用できないというエラーが表示されvます。文字列ではなく、整数または浮動小数点変数が使用されることを意図しているためだと思います。これに該当する場合v、「空のセル」/ nanケースを確認するにはどうすればよいですか？

94 python numpy pandas nan

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」