プログラミング pandas

5

次のような形状（X、Y）のPandasデータフレームオブジェクトがあります。 [[1, 2, 3], [4, 5, 6], [7, 8, 9]] 形状（X、Z）のでこぼこしたスパース行列（CSC）は、次のようになります。 [[0, 1, 0], [0, 0, 1], [1, 0, 0]] データフレームが次のようになるように、マトリックスのコンテンツを新しい名前付き列のデータフレームに追加するにはどうすればよいですか。 [[1, 2, 3, [0, 1, 0]], [4, 5, 6, [0, 0, 1]], [7, 8, 9, [1, 0, 0]]] データフレームの形状が（X、Y + 1）になり、マトリックスの行がデータフレームの要素になっていることに注意してください。

85 python numpy pandas

2

Python-データフレームの次元

Pythonの新機能。 Rでは、dim（...）を使用して行列の次元を取得できます。Python Pandasのデータフレームに対応する関数は何ですか？

85 python pandas

2

PandasDataFrameオブジェクトのインデックスを再定義する

私はパンダDataFrameオブジェクトのインデックスを再作成しようとしています。 From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 私は以下に示すようにこれについて行っていますが、間違った答えを得ています。これを行う方法についての手がかりはありますか？ >>> col = ['a','b','c'] >>> data = DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col) >>> data a b c 0 1 2 3 1 10 …

84 python pandas dataframe

7

2つのパンダ列の文字列連結

私は以下を持っていますDataFrame： from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) 次のようになります。 bar foo 0 1 a 1 2 b 2 3 c 今、私は次のようなものが欲しいです： bar 0 1 is a 1 2 is b 2 3 is c どうすればこれを達成できますか？私は以下を試しました： df['foo'] = '%s is %s' % (df['bar'], df['foo']) しかし、それは私に間違った結果を与えます： >>>print df.ix[0] bar …

84 python string pandas numpy dataframe

2

パンダのデータフレームを列名で結合する

次の列名を持つ2つのデータフレームがあります。 frame_1: event_id, date, time, county_ID frame_2: countyid, state （左）を結合して、次の列のデータフレームを取得したいと思いますcounty_ID = countyid。 joined_dataframe event_id, date, time, county, state 結合したい列がインデックスでない場合、その方法がわかりません。最も簡単な方法は何ですか？ありがとう！

84 python pandas dataframe

7

Python、Pandas：DataFrameのコンテンツをテキストファイルに書き込む

私はこのようなパンダDataFrameを持っています X Y Z Value 0 18 55 1 70 1 18 55 2 67 2 18 57 2 75 3 18 58 1 35 4 19 54 2 70 このデータを次のようなテキストファイルに書き込みたいと思います。 18 55 1 70 18 55 2 67 18 57 2 75 18 58 1 35 19 54 2 …

84 python pandas file-io

2

pandas groupby（）。sum（）の出力から新しい列を作成するにはどうすればよいですか？

groupby計算から新しい列を作成しようとしています。以下のコードでは、各日付の正しい計算値を取得しています（以下のグループを参照）が、それを使用して新しい列（df['Data4']）を作成しようとすると、NaNが取得されます。そのData3ため、すべての日付の合計を使用してデータフレームに新しい列を作成し、それを各日付行に適用しようとしています。たとえば、2015-05-08は2行にあり（合計は50 + 5 = 55）、この新しい列では、両方の行に55を入れたいと思います。 import pandas as pd import numpy as np from pandas import DataFrame df = pd.DataFrame({ 'Date' : ['2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05', '2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05'], 'Sym' : ['aapl', 'aapl', 'aapl', 'aapl', 'aaww', 'aaww', 'aaww', 'aaww'], 'Data2': [11, 8, 10, 15, 110, 60, 100, 40], 'Data3': …

84 python pandas group-by pandas-groupby

7

列内の一意の値を見つけて、それらを並べ替えます

パンダのデータフレームがあります。その列の1つの一意の値を昇順で出力したいと思います。これは私がそれをしている方法です： import pandas as pd df = pd.DataFrame({'A':[1,1,3,2,6,2,8]}) a = df['A'].unique() print a.sort() 問題はNone、出力用にを取得していることです。

84 python pandas sorting dataframe unique

3

2つのパンダデータフレームを結合します（共通の列に参加します）

私は2つのデータフレームを持っています：レストラン_ids_dataframe Data columns (total 13 columns): business_id 4503 non-null values categories 4503 non-null values city 4503 non-null values full_address 4503 non-null values latitude 4503 non-null values longitude 4503 non-null values name 4503 non-null values neighborhoods 4503 non-null values open 4503 non-null values review_count 4503 non-null values stars 4503 non-null …

83 python pandas dataframe merge left-join

9

パンダ：各グループの平均で不足している値を埋める

これは簡単なはずですが、私が見つけた最も近いものはこの投稿です：パンダ：グループ内の不足している値を埋めていますが、それでも問題を解決できません...。次のデータフレームがあるとします df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']}) name value 0 A 1 1 A NaN 2 B NaN 3 B 2 4 B 3 5 B 1 6 C 3 7 C NaN 8 C 3 そして、「NaN」に各「名前」グループの平均値を入力したいと思います。 name …

83 python pandas pandas-groupby imputation fillna

6

データフレームの最後の要素のアクセスインデックス

私はこれを探し回っていますが、見つけることができないようです（非常に些細なことですが）。私が抱えている問題は、データフレームの最初と最後のエントリの列の値を取得したいということです。しかし、私がそうするなら： df.ix[0]['date'] 私は得る： datetime.datetime(2011, 1, 10, 16, 0) しかし、私がそうする場合： df[-1:]['date'] 私は得る： myIndex 13 2011-12-20 16:00:00 Name: mydate 別の形式で。理想的には、データフレームの最後のインデックスの値にアクセスできるようにしたいのですが、その方法がわかりません。インデックスの値を使用して列（IndexCopy）を作成し、次のことを試してみました。 df.ix[df.tail(1)['IndexCopy']]['mydate'] ただし、これによって異なる形式も生成されます（df.tail（1）['IndexCopy']は単純な整数を出力しないため）。何か案は？

83 python pandas

4

get_dummies（パンダ）とOneHotEncoder（Scikit-learn）の長所と短所は何ですか？

機械学習分類器のカテゴリ変数を数値に変換するさまざまな方法を学習しています。私はそのpd.get_dummies方法に出くわし、sklearn.preprocessing.OneHotEncoder()パフォーマンスと使用法の点でそれらがどのように異なるかを見たかったのです。私が使用する方法についてのチュートリアル見つかっOneHotEncoder()にhttps://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/をするのでsklearnドキュメントには、この機能のあまり有用ではなかったです。正しくやっていない気がします…でもいくつかの使用の長所と短所を説明することができpd.dummies超えるsklearn.preprocessing.OneHotEncoder()と、その逆の？私はそれOneHotEncoder()があなたにスパース行列を与えることを知っていますが、それ以外はそれがどのように使われるか、そしてそのpandas方法にどのような利点があるのかわかりません。非効率的に使用していますか？ import pandas as pd import numpy as np from sklearn.datasets import load_iris sns.set() %matplotlib inline #Iris Plot iris = load_iris() n_samples, m_features = iris.data.shape #Load Data X, y = iris.data, iris.target D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names)) DF_data = pd.DataFrame(X,columns=iris.feature_names) DF_data["target"] = pd.Series(y).map(D_target_dummy) #sepal length (cm) sepal width (cm) …

83 python pandas machine-learning scikit-learn dummy-variable

5

IPythonNotebookセルの複数の出力

IPythonNotebookでこのセルを実行しています。 # salaries and teams are Pandas dataframe salaries.head() teams.head() 結果は、私が唯一の出力取得していますということであるteamsという両方のよりデータフレームをsalariesとteams。実行しただけsalaries.head()でsalariesデータフレームの結果が得られますが、両方のステートメントを実行すると、の出力が表示されteams.head()ます。どうすればこれを修正できますか？

83 pandas jupyter-notebook ipython

5

Python Pandas groupby操作の結果を親データフレームの列に割り当てる方法は？

IPythonには次のデータフレームがあり、各行は単一の株です。 In [261]: bdata Out[261]: <class 'pandas.core.frame.DataFrame'> Int64Index: 21210 entries, 0 to 21209 Data columns: BloombergTicker 21206 non-null values Company 21210 non-null values Country 21210 non-null values MarketCap 21210 non-null values PriceReturn 21210 non-null values SEDOL 21210 non-null values yearmonth 21210 non-null values dtypes: float64(2), int64(1), object(4) 「yearmonth」列の各日付ごとに、すべてのキャップ加重平均リターンを計算するgroupby操作を適用したいと思います。これは期待どおりに機能します。 In …

83 python group-by dataframe pandas

6

シリーズとDataFrameをマージする方法

とインデックスをマージする方法DataFrameSeriesについての情報を探してここに来た場合は、この回答を見てください。 OPの当初の意図は、シリーズ要素を列として別のDataFrameに割り当てる方法を尋ねることでした。これに対する答えを知りたい場合は、EdChumによって受け入れられた答えを見てください。私が思いつくことができる最高のものは df = pd.DataFrame({'a':[1, 2], 'b':[3, 4]}) # see EDIT below s = pd.Series({'s1':5, 's2':6}) for name in s.index: df[name] = s[name] a b s1 s2 0 1 3 5 6 1 2 4 5 6 誰かがより良い構文/より速い方法を提案できますか？私の試み： df.merge(s) AttributeError: 'Series' object has no attribute 'columns' そして df.join(s) …

82 python pandas dataframe

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」