タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

7
パンダのデータフレーム列からリストを取得する
次のようなExcelドキュメントがあります。 cluster load_date budget actual fixed_price A 1/1/2014 1000 4000 Y A 2/1/2014 12000 10000 Y A 3/1/2014 36000 2000 Y B 4/1/2014 15000 10000 N B 4/1/2014 12000 11500 N B 4/1/2014 90000 11000 N C 7/1/2014 22000 18000 N C 8/1/2014 30000 28960 N C 9/1/2014 53000 51200 …
288 python  list  pandas 


6
Numpy配列からのPandas DataFrameの作成:インデックス列と列ヘッダーを指定するにはどうすればよいですか?
以下に示すように、行ラベルと列名を持つ2次元配列を表すリストのリストで構成されるNumpy配列があります。 data = array([['','Col1','Col2'],['Row1',1,2],['Row2',3,4]]) 結果のDataFrameにRow1とRow2をインデックス値として、Col1とCol2をヘッダー値として設定します インデックスは次のように指定できます。 df = pd.DataFrame(data,index=data[:,0]), ただし、列ヘッダーを最適に割り当てる方法がわかりません。
281 python  pandas  numpy 

8
パンダの1列を除くすべての列を選択するにはどうすればよいですか?
私はこのようなデータフレームを持っています: import pandas import numpy as np df = DataFrame(np.random.rand(4,4), columns = list('abcd')) df a b c d 0 0.418762 0.042369 0.869203 0.972314 1 0.991058 0.510228 0.594784 0.534366 2 0.407472 0.259811 0.396664 0.894202 3 0.726168 0.139531 0.324932 0.906575 を除くすべての列を取得するにはどうすればよいcolumn bですか?
278 python  pandas 


6
Python Pandas:列が特定の値に一致する行のインデックスを取得します
列「BoolCol」を持つDataFrameが与えられた場合、「BoolCol」の値== TrueであるDataFrameのインデックスを見つけたいと思います。 私は現在それを行うための反復的な方法を持っています、それは完全に機能します: for i in range(100,3000): if df.iloc[i]['BoolCol']== True: print i,df.iloc[i]['BoolCol'] しかし、これはパンダの正しいやり方ではありません。いくつかの調査の後、私は現在このコードを使用しています: df[df['BoolCol'] == True].index.tolist() これは私にインデックスのリストを与えますが、私が次のようにしてそれらをチェックすると一致しません: df.iloc[i]['BoolCol'] 結果は実際にはFalseです!! これを行うパンダの正しい方法はどれですか?
277 python  indexing  pandas 

5
文字列からPandas DataFrameを作成する
いくつかの機能をテストするためにDataFrame、文字列からを作成したいと思います。私のテストデータが次のようであるとしましょう: TESTDATA="""col1;col2;col3 1;4.4;99 2;4.5;200 3;4.7;65 4;3.2;140 """ そのデータをパンダに読み込む最も簡単な方法は何DataFrameですか?


3
Pandasに列が存在するかどうかを確認する方法
Pandas DataFrameに列が存在するかどうかを確認する方法はありますか? 次のDataFrameがあるとします。 >>> import pandas as pd >>> from random import randint >>> df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) >>> df A B C 0 3 40 100 1 6 30 200 …
274 python  pandas  dataframe 

21
パンダの軸はどういう意味ですか?
データフレームを生成するためのコードは次のとおりです。 import pandas as pd import numpy as np dff = pd.DataFrame(np.random.randn(1,2),columns=list('AB')) それから私はデータフレームを手に入れました: +------------+---------+--------+ | | A | B | +------------+---------+--------- | 0 | 0.626386| 1.52325| +------------+---------+--------+ コマンドを入力すると: dff.mean(axis=1) 私は得た: 0 1.074821 dtype: float64 パンダのリファレンスによると、axis = 1は列を表し、コマンドの結果は A 0.626386 B 1.523255 dtype: float64 だからここに私の質問です:パンダの軸は何を意味していますか?

10
パンダでデータフレームの列スライスを取得する方法
CSVファイルから機械学習データを読み込みます。最初の2列は観測値で、残りの列は特徴です。 現在、私は次のことをしています。 data = pandas.read_csv('mydata.csv') これは次のようなものになります: data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde')) 私は2つのデータフレームでは、このデータフレームをスライスしたいと思います:1列を含むaとb、もう1つは列を含むc、dとe。 次のようなものを書くことはできません observations = data[:'c'] features = data['c':] 私は最善の方法が何であるかわかりません。私は必要pd.Panelですか? ちなみに、データフレームのインデックス付けはかなり一貫性data['a']がdata[0]ありません。許可されていますが許可されていません。一方で、data['a':]許可されていませんが許可されていdata[0:]ます。これには実際的な理由はありますか?列がIntによってインデックス付けされている場合、これは本当に混乱します。data[0] != data[0:1]





弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.