タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

11
パンダを使用して相関行列をプロットする
膨大な数の機能を備えたデータセットを持っているので、相関行列の分析は非常に困難になりました。dataframe.corr()pandasライブラリの関数を使用して取得した相関行列をプロットしたいと思います。この行列をプロットするためにパンダライブラリによって提供される組み込み関数はありますか?


7
パンダでの結合とマージの違いは何ですか?
次のような2つのデータフレームがあるとします。 left = pd.DataFrame({'key1': ['foo', 'bar'], 'lval': [1, 2]}) right = pd.DataFrame({'key2': ['foo', 'bar'], 'rval': [4, 5]}) それらをマージしたいので、私は次のようなことを試みます: pd.merge(left, right, left_on='key1', right_on='key2') そして私は幸せです key1 lval key2 rval 0 foo 1 foo 4 1 bar 2 bar 5 しかし、私は結合方法を使用しようとしていますが、これはかなり似ていると信じていました。 left.join(right, on=['key1', 'key2']) そして私はこれを手に入れます: //anaconda/lib/python2.7/site-packages/pandas/tools/merge.pyc in _validate_specification(self) 406 if self.right_index: 407 if …
208 python  pandas  dataframe  join 

7
パンダのグループ別と合計
私はこのデータフレームを使用しています。 Fruit Date Name Number Apples 10/6/2016 Bob 7 Apples 10/6/2016 Bob 8 Apples 10/6/2016 Mike 9 Apples 10/7/2016 Steve 10 Apples 10/7/2016 Bob 1 Oranges 10/7/2016 Bob 2 Oranges 10/6/2016 Tom 15 Oranges 10/6/2016 Mike 57 Oranges 10/6/2016 Bob 65 Oranges 10/7/2016 Tony 1 Grapes 10/7/2016 Bob 1 Grapes …

9
pandas.to_datetimeを使用する場合は日付部分のみを保持
pandas.to_datetimeデータの日付を解析するために使用します。datetime64[ns]日付はすべて毎日のみですが、パンダはデフォルトで日付を表します。私は日付を変換するエレガント/巧妙な方法があるかどうかを疑問に思うdatetime.dateかdatetime64[D]、私はCSVにデータを書き込む際に、日付がが付加されていない、ように00:00:00。要素ごとに手動で型を変換できることはわかっています。 [dt.to_datetime().date() for dt in df.dates] しかし、私は多くの行を持っているのでこれは本当に遅いです、そしてそれは一種のを使用する目的を無効にしpandas.to_datetimeます。dtype列全体を一度に変換する方法はありますか?またはpandas.to_datetime、毎日のデータを処理しながら時間の部分を取り除くことができるように、精度仕様をサポートしていますか?
201 python  pandas  csv  datetime  series 

20
パンダのデータフレーム文字列エントリを分割(分解)して行を分離する
pandas dataframeテキスト文字列の1つの列にカンマ区切りの値が含まれているがあります。各CSVフィールドを分割し、エントリごとに新しい行を作成します(CSVはクリーンで、 '、'でのみ分割する必要があると想定しています)。たとえば、次のaようになりbます。 In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 これまでにさまざまな簡単な関数を試しましたが、この.applyメソッドを軸で使用すると、戻り値として1行しか受け入れられないようで.transform、作業できません。どんな提案も大歓迎です! データの例: from pandas import DataFrame import numpy as np a …

17
Pandasデータフレームの外れ値を検出して除外する
列が少ないpandasデータフレームがあります。 これで、特定の行が特定の列値に基づく外れ値であることがわかりました。 例えば 列「Vol」にはすべての値が12xxあり、1つの値は4000(外れ値)です。 次にVol、このような列を持つ行を除外します。 したがって、基本的には、特定の列の値が平均から3標準偏差以内にあるすべての行を選択するように、データフレームにフィルターをかける必要があります。 これを達成するためのエレガントな方法は何ですか?

11
列を2つの列に分割する方法は?
私は1つの列を有するデータフレームを持っていると私は1つの列'としてヘッダと2つの列に分割したいfips'と他の'row' 私のデータフレームdfは次のようになります: row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL df.row.str[:]行セルを分割するという私の目標を達成するために使用する方法がわかりません。を使用df['fips'] = helloして新しい列を追加し、それをで埋めることができhelloます。何か案は? fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour …
196 python  dataframe  pandas 

9
Pandas DataFrameで特定の列名を変更する
で指定された列名を変更するエレガントな方法を探していましたDataFrame。 データを再生する... import pandas as pd d = { 'one': [1, 2, 3, 4, 5], 'two': [9, 8, 7, 6, 5], 'three': ['a', 'b', 'c', 'd', 'e'] } df = pd.DataFrame(d) これまでに見つけた最もエレガントなソリューション... names = df.columns.tolist() names[names.index('two')] = 'new_name' df.columns = names 私はシンプルなワンライナーを期待していました...この試みは失敗しました... df.columns[df.columns.tolist().index('one')] = 'another_name' 感謝して受け取ったヒント。
195 python  pandas 

3
PythonのPandasとNumPy + SciPyの違いは何ですか?[閉まっている]
休業。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善してみませんか?この投稿を編集して、事実と引用で回答できるように質問を更新してください。 4年前休業。 この質問を改善する どちらも非常に似ているようで、財務データ分析にどのパッケージがより有益であるかについて知りたいです。
195 python  numpy  scipy  pandas 

8
2つの日付の間のDataFrame行を選択する
私はcsvからDataFrameを次のように作成しています: stock = pd.read_csv('data_in/' + filename + '.csv', skipinitialspace=True) DataFrameには日付列があります。指定された日付範囲内または指定された2つの日付値の間にある日付値を持つ行のみを含む新しいDataFrameを作成する(または既存のデータフレームを上書きする)方法はありますか?
195 python  pandas 

7
パンダのプロットにxとyのラベルを追加する
パンダを使用して非常に単純なものをプロットする次のコードがあるとします。 import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') 特定のカラーマップを使用する機能を維持しながら、xラベルとyラベルを簡単に設定するにはどうすればよいですか?plot()pandas DataFrames のラッパーは、それに固有のパラメーターを取りません。


10
列上の複数のデータフレームを結合するパンダ
3つのCSVファイルがあります。各列の最初の列は(文字列)人の名前ですが、各データフレームの他のすべての列はその人の属性です。 3つのCSVドキュメントすべてを「結合」して、各行に人物の文字列名の一意の値ごとにすべての属性を持つ単一のCSVを作成するにはどうすればよいですか? join()パンダの関数は、マルチインデックスが必要であることを指定していますが、階層インデックススキーマが単一のインデックスに基づいて結合を行うこととどのように関係しているのか混乱しています。
191 python  pandas  join  merge 

4
Python pandas文字列の列のデータ選択からナンをフィルタリングする
使用groupbyせずにデータを除外するにはどうすればよいNaNですか? 顧客が「N / A」、「n / a」またはそのバリエーションのいずれかを入力し、他のユーザーはそれを空白のままにするマトリックスがあるとします。 import pandas as pd import numpy as np df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'], 'rating': [3., 4., 5., np.nan, np.nan, np.nan], 'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]}) nbs = df['name'].str.extract('^(N/A|NA|na|n/a)') nms=df[(df['name'] != nbs) ] 出力: >>> nms movie name rating …
190 python  pandas  dataframe 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.