タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

5
numpy配列を列としてPandasデータフレームに追加します
次のような形状(X、Y)のPandasデータフレームオブジェクトがあります。 [[1, 2, 3], [4, 5, 6], [7, 8, 9]] 形状(X、Z)のでこぼこしたスパース行列(CSC)は、次のようになります。 [[0, 1, 0], [0, 0, 1], [1, 0, 0]] データフレームが次のようになるように、マトリックスのコンテンツを新しい名前付き列のデータフレームに追加するにはどうすればよいですか。 [[1, 2, 3, [0, 1, 0]], [4, 5, 6, [0, 0, 1]], [7, 8, 9, [1, 0, 0]]] データフレームの形状が(X、Y + 1)になり、マトリックスの行がデータフレームの要素になっていることに注意してください。
85 python  numpy  pandas 


2
PandasDataFrameオブジェクトのインデックスを再定義する
私はパンダDataFrameオブジェクトのインデックスを再作成しようとしています。 From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 私は以下に示すようにこれについて行っていますが、間違った答えを得ています。これを行う方法についての手がかりはありますか? >>> col = ['a','b','c'] >>> data = DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col) >>> data a b c 0 1 2 3 1 10 …

7
2つのパンダ列の文字列連結
私は以下を持っていますDataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) 次のようになります。 bar foo 0 1 a 1 2 b 2 3 c 今、私は次のようなものが欲しいです: bar 0 1 is a 1 2 is b 2 3 is c どうすればこれを達成できますか?私は以下を試しました: df['foo'] = '%s is %s' % (df['bar'], df['foo']) しかし、それは私に間違った結果を与えます: >>>print df.ix[0] bar …

2
パンダのデータフレームを列名で結合する
次の列名を持つ2つのデータフレームがあります。 frame_1: event_id, date, time, county_ID frame_2: countyid, state (左)を結合して、次の列のデータフレームを取得したいと思いますcounty_ID = countyid。 joined_dataframe event_id, date, time, county, state 結合したい列がインデックスでない場合、その方法がわかりません。最も簡単な方法は何ですか?ありがとう!


2
pandas groupby()。sum()の出力から新しい列を作成するにはどうすればよいですか?
groupby計算から新しい列を作成しようとしています。以下のコードでは、各日付の正しい計算値を取得しています(以下のグループを参照)が、それを使用して新しい列(df['Data4'])を作成しようとすると、NaNが取得されます。そのData3ため、すべての日付の合計を使用してデータフレームに新しい列を作成し、それを各日付行に適用しようとしています。たとえば、2015-05-08は2行にあり(合計は50 + 5 = 55)、この新しい列では、両方の行に55を入れたいと思います。 import pandas as pd import numpy as np from pandas import DataFrame df = pd.DataFrame({ 'Date' : ['2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05', '2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05'], 'Sym' : ['aapl', 'aapl', 'aapl', 'aapl', 'aaww', 'aaww', 'aaww', 'aaww'], 'Data2': [11, 8, 10, 15, 110, 60, 100, 40], 'Data3': …


3
2つのパンダデータフレームを結合します(共通の列に参加します)
私は2つのデータフレームを持っています: レストラン_ids_dataframe Data columns (total 13 columns): business_id 4503 non-null values categories 4503 non-null values city 4503 non-null values full_address 4503 non-null values latitude 4503 non-null values longitude 4503 non-null values name 4503 non-null values neighborhoods 4503 non-null values open 4503 non-null values review_count 4503 non-null values stars 4503 non-null …

9
パンダ:各グループの平均で不足している値を埋める
これは簡単なはずですが、私が見つけた最も近いものはこの投稿です: パンダ:グループ内の不足している値を埋めていますが、それでも問題を解決できません...。 次のデータフレームがあるとします df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']}) name value 0 A 1 1 A NaN 2 B NaN 3 B 2 4 B 3 5 B 1 6 C 3 7 C NaN 8 C 3 そして、「NaN」に各「名前」グループの平均値を入力したいと思います。 name …

6
データフレームの最後の要素のアクセスインデックス
私はこれを探し回っていますが、見つけることができないようです(非常に些細なことですが)。 私が抱えている問題は、データフレームの最初と最後のエントリの列の値を取得したいということです。しかし、私がそうするなら: df.ix[0]['date'] 私は得る: datetime.datetime(2011, 1, 10, 16, 0) しかし、私がそうする場合: df[-1:]['date'] 私は得る: myIndex 13 2011-12-20 16:00:00 Name: mydate 別の形式で。理想的には、データフレームの最後のインデックスの値にアクセスできるようにしたいのですが、その方法がわかりません。 インデックスの値を使用して列(IndexCopy)を作成し、次のことを試してみました。 df.ix[df.tail(1)['IndexCopy']]['mydate'] ただし、これによって異なる形式も生成されます(df.tail(1)['IndexCopy']は単純な整数を出力しないため)。 何か案は?
83 python  pandas 

4
get_dummies(パンダ)とOneHotEncoder(Scikit-learn)の長所と短所は何ですか?
機械学習分類器のカテゴリ変数を数値に変換するさまざまな方法を学習しています。私はそのpd.get_dummies方法に出くわし、sklearn.preprocessing.OneHotEncoder()パフォーマンスと使用法の点でそれらがどのように異なるかを見たかったのです。 私が使用する方法についてのチュートリアル見つかっOneHotEncoder()にhttps://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/をするのでsklearnドキュメントには、この機能のあまり有用ではなかったです。正しくやっていない気がします…でも いくつかの使用の長所と短所を説明することができpd.dummies超えるsklearn.preprocessing.OneHotEncoder()と、その逆の?私はそれOneHotEncoder()があなたにスパース行列を与えることを知っていますが、それ以外はそれがどのように使われるか、そしてそのpandas方法にどのような利点があるのか​​わかりません。非効率的に使用していますか? import pandas as pd import numpy as np from sklearn.datasets import load_iris sns.set() %matplotlib inline #Iris Plot iris = load_iris() n_samples, m_features = iris.data.shape #Load Data X, y = iris.data, iris.target D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names)) DF_data = pd.DataFrame(X,columns=iris.feature_names) DF_data["target"] = pd.Series(y).map(D_target_dummy) #sepal length (cm) sepal width (cm) …

5
IPythonNotebookセルの複数の出力
IPythonNotebookでこのセルを実行しています。 # salaries and teams are Pandas dataframe salaries.head() teams.head() 結果は、私が唯一の出力取得していますということであるteamsという両方のよりデータフレームをsalariesとteams。実行しただけsalaries.head()でsalariesデータフレームの結果が得られますが、両方のステートメントを実行すると、の出力が表示されteams.head()ます。どうすればこれを修正できますか?

5
Python Pandas groupby操作の結果を親データフレームの列に割り当てる方法は?
IPythonには次のデータフレームがあり、各行は単一の株です。 In [261]: bdata Out[261]: <class 'pandas.core.frame.DataFrame'> Int64Index: 21210 entries, 0 to 21209 Data columns: BloombergTicker 21206 non-null values Company 21210 non-null values Country 21210 non-null values MarketCap 21210 non-null values PriceReturn 21210 non-null values SEDOL 21210 non-null values yearmonth 21210 non-null values dtypes: float64(2), int64(1), object(4) 「yearmonth」列の各日付ごとに、すべてのキャップ加重平均リターンを計算するgroupby操作を適用したいと思います。 これは期待どおりに機能します。 In …

6
シリーズとDataFrameをマージする方法
とインデックスをマージする方法DataFrameSeriesについての情報を探してここに来た場合は、この回答を見てください。 OPの当初の意図は、シリーズ要素を列として別のDataFrameに割り当てる方法を尋ねることでした。これに対する答えを知りたい場合は、EdChumによって受け入れられた答えを見てください。 私が思いつくことができる最高のものは df = pd.DataFrame({'a':[1, 2], 'b':[3, 4]}) # see EDIT below s = pd.Series({'s1':5, 's2':6}) for name in s.index: df[name] = s[name] a b s1 s2 0 1 3 5 6 1 2 4 5 6 誰かがより良い構文/より速い方法を提案できますか? 私の試み: df.merge(s) AttributeError: 'Series' object has no attribute 'columns' そして df.join(s) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.