タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

6
以前の値も適用で計算されるときに、パンダでdataframe.applyの前の行の値を使用する方法はありますか?
私は次のデータフレームを持っています: Index_Date A B C D =============================== 2015-01-31 10 10 Nan 10 2015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 280 2015-02-03 10 100 Nan 250 必要とする: Index_Date A B C D =============================== 2015-01-31 10 10 10 10 2015-02-01 2 3 23 22 2015-02-02 10 60 290 280 2015-02-03 …


1
Pandasの「Freq」タグに関するドキュメントはどこにありますか?[閉まっている]
閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、StackOverflowのトピックになります。 3年前に閉鎖されました。 この質問を改善する 私はパンダに不慣れで、使用しようとしていますdate_range。のfreqようなBME、あらゆる種類の良いものに出くわしBMSました。適切な文字列をすばやく検索して、必要なものを取得できるようにしたいと思います。昨日、ドキュメントのどこかで適切にフォーマットされたテーブルを見つけましたが、テーブルのタイトルが非常に鈍いため、今日は検索を使用して再度見つけることができません。

9
ディスクに書き込まずにAWSS3のテキストファイルをパンダにインポートする方法
タブ区切りのテーブルであるテキストファイルをS3に保存しています。パンダにロードしたいのですが、herokuサーバーで実行しているため、最初に保存できません。これが私がこれまでに持っているものです。 import io import boto3 import os import pandas as pd os.environ["AWS_ACCESS_KEY_ID"] = "xxxxxxxx" os.environ["AWS_SECRET_ACCESS_KEY"] = "xxxxxxxx" s3_client = boto3.client('s3') response = s3_client.get_object(Bucket="my_bucket",Key="filename.txt") file = response["Body"] pd.read_csv(file, header=14, delimiter="\t", low_memory=False) エラーは OSError: Expected file path name or file-like object, got <class 'bytes'> type 応答本文をパンダが受け入れる形式に変換するにはどうすればよいですか? pd.read_csv(io.StringIO(file), header=14, delimiter="\t", low_memory=False) returns TypeError: …

9
JavaScriptで同等のPythonパンダ
このCSVの例では: Source,col1,col2,col3 foo,1,2,3 bar,3,4,5 私がパンダを使用する標準的な方法はこれです: CSVを解析する データフレームに列を選択します(col1およびcol3) カラムを処理(例えばavarageの値 col1とcol3) パンダのようなJavaScriptライブラリはありますか?

7
ラベルで選択したパンダは時々シリーズを返し、時々DataFrameを返します
パンダでは、インデックスにエントリが1つしかないラベルを選択するとシリーズが返されますが、エントリが1つ以上あるエントリを選択すると、データフレームが返されます。 何故ですか?常にデータフレームを確実に取得する方法はありますか? In [1]: import pandas as pd In [2]: df = pd.DataFrame(data=range(5), index=[1, 2, 3, 3, 3]) In [3]: type(df.loc[3]) Out[3]: pandas.core.frame.DataFrame In [4]: type(df.loc[1]) Out[4]: pandas.core.series.Series

4
DataFrameパンダの日付間の日数を含む列を追加する
「B」の日付から「A」の日付を差し引いて、差のある新しい列を追加します。 df A B one 2014-01-01 2014-02-28 two 2014-02-03 2014-03-01 以下を試しましたが、これをforループに含めようとするとエラーが発生します... import datetime date1=df['A'][0] date2=df['B'][0] mdate1 = datetime.datetime.strptime(date1, "%Y-%m-%d").date() rdate1 = datetime.datetime.strptime(date2, "%Y-%m-%d").date() delta = (mdate1 - rdate1).days print delta 私は何をすべきか?

3
pandas.read_csvを取得して、nanではなく空の文字列として空の値を読み取ります
pandasライブラリを使用してCSVデータを読み込んでいます。私のデータでは、特定の列に文字列が含まれています。"nan"空の文字列と同様に、文字列は可能な値です。私はパンダに "nan"を文字列として読み取らせることができましたが、空の値をNaNとして読み取らないようにする方法を理解できません。ここにサンプルデータと出力があります One,Two,Three a,1,one b,2,two ,3,three d,4,nan e,5,five nan,6, g,7,seven >>> pandas.read_csv('test.csv', na_values={'One': [], "Three": []}) One Two Three 0 a 1 one 1 b 2 two 2 NaN 3 three 3 d 4 nan 4 e 5 five 5 nan 6 NaN 6 g 7 seven 「nan」は文字列「nan」として正しく読み取られますが、空のセルはNaNとして読み取らstrれconvertersます。read_csv の引数に(converters={'One': str}))を渡してみましたが、空のセルはNaNとして読み取られます。 …
95 python  csv  pandas 

6
pandasとmatplotlibを使用してカテゴリデータをプロットする
カテゴリデータを含むデータフレームがあります。 colour direction 1 red up 2 blue up 3 green down 4 red left 5 red right 6 yellow down 7 blue down カテゴリに基づいて円グラフやヒストグラムなどのグラフを生成したいと思います。ダミーの数値変数を作成せずに可能ですか?何かのようなもの df.plot(kind='hist')
95 python  pandas 

5
パンダのマージ-列の重複を回避する方法
2つのデータフレーム間のマージを試みています。各データフレームには、2つのインデックスレベル(日付、cusip)があります。列では、たとえば、いくつかの列が2つ(通貨、調整日)の間で一致します。 これらをインデックスでマージする最良の方法は何ですか。ただし、通貨と調整日を2つコピーしないでください。 各データフレームは90列なので、すべてを手作業で書き出すことは避けようとしています。 df: currency adj_date data_col1 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... df2: currency adj_date data_col2 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... 私が行った場合: dfNew = merge(df, df2, left_index=True, right_index=True, how='outer') 私は得る dfNew: currency_x adj_date_x data_col2 ... currency_y adj_date_y date cusip 2012-01-01 XSDP USD …
95 python  pandas 

1
羽と寄木細工の違いは何ですか?
どちらも、データ分析システムで使用するための柱状(ディスク)ストレージ形式です。両方が内に一体化されているApacheの矢印(pyarrowのPython用のパッケージ)とに対応するように設計されている矢印柱状インメモリ分析層として。 両方のフォーマットはどのように異なりますか? 可能であれば、パンダを扱うときは常に羽を好むべきですか? 寄木細工よりも羽が適している、またはその逆のユースケースは何ですか? 付録 https://github.com/wesm/feather/issues/188でいくつかのヒントを見つけましたが、このプロジェクトの年齢が若いことを考えると、おそらく少し時代遅れです。 データフレーム全体をダンプしてロードしているだけなので、深刻な速度テストではありませんが、これまでフォーマットについて聞いたことがない場合は、印象を与えるためです。 # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) print("pandas df to …

4
pandas.qcutとpandas.cutの違いは何ですか?
ドキュメントは言う: http://pandas.pydata.org/pandas-docs/dev/basics.html "連続値は、カット(値に基づくビン)およびqcut(サンプル変位値に基づくビン)関数を使用して離散化できます。" 私には非常に抽象的に聞こえます...以下の例で違いを見ることができますが、qcut(サンプル変位値)は実際に何をする/意味するのですか?qcutとcutのどちらを使用しますか? ありがとう。 factors = np.random.randn(30) In [11]: pd.cut(factors, 5) Out[11]: [(-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (-0.411, 0.575], (0.575, 1.561], ..., (-0.411, 0.575], (-1.397, -0.411], (0.575, 1.561], (-2.388, -1.397], (-0.411, 0.575]] Length: 30 Categories (5, object): [(-2.388, -1.397] < (-1.397, -0.411] < (-0.411, 0.575] < (0.575, 1.561] …
94 python  pandas 

5
Pandasのread_csv関数でロード時に行をフィルタリングするにはどうすればよいですか?
パンダを使用してメモリにロードするCSVの行をフィルタリングするにはどうすればよいですか?これは、で見つけられるはずのオプションのようread_csvです。何か不足していますか? 例:タイムスタンプ列のあるCSVがあり、指定された定数より大きいタイムスタンプを持つ行のみをロードしたいとします。
94 python  pandas 

11
パンダデータフレームでNaNを含む行の整数インデックスを見つける
私はこのようなパンダDataFrameを持っています: a b 2011-01-01 00:00:00 1.883381 -0.416629 2011-01-01 01:00:00 0.149948 -1.782170 2011-01-01 02:00:00 -0.407604 0.314168 2011-01-01 03:00:00 1.452354 NaN 2011-01-01 04:00:00 -1.224869 -0.947457 2011-01-01 05:00:00 0.498326 0.070416 2011-01-01 06:00:00 0.401665 NaN 2011-01-01 07:00:00 -0.019766 0.533641 2011-01-01 08:00:00 -1.101303 -1.408561 2011-01-01 09:00:00 1.671795 -0.764629 NaNを持つ行の「整数」インデックスを見つける効率的な方法はありますか?この場合、必要な出力はになります[3, 6]。
94 python  pandas 

5
NaNとNoneの違いは何ですか?
私はパンダreadcsv()を使用してcsvファイルの2つの列を読み取り、その値を辞書に割り当てています。列には数字と文字の文字列が含まれます。セルが空の場合があります。私の意見では、そのディクショナリー項目に読み取られる値は、割り当てられるべきですがNone、代わりnanに割り当てられるべきです。確かNoneに、空のセルはnull値を持っているので、よりわかりやすくなりますが、nan読み取られた値は数値ではないというだけです。 私の理解が正しい、との違いは何ですかれるNoneとはnan?のnan代わりになぜ割り当てられるのNoneですか? また、空のセルがないか私の辞書チェックで使用されていnumpy.isnan()ます: for k, v in my_dict.iteritems(): if np.isnan(v): しかし、これにより、このチェックをに使用できないというエラーが表示されvます。文字列ではなく、整数または浮動小数点変数が使用されることを意図しているためだと思います。これに該当する場合v、「空のセル」/ nanケースを確認するにはどうすればよいですか?
94 python  numpy  pandas  nan 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.