タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

5
同じIPythonNotebookセルで複数のグラフを作成する
IPythonノートブックを ipython notebook --pylab inline これは1つのセルの私のコードです df['korisnika'].plot() df['osiguranika'].plot() これは正常に機能しています。2本の線が描画されますが、同じグラフ上に表示されます。 それぞれの線を別々のチャートに描きたいと思います。そして、チャートが次々ではなく、隣り合っていれば素晴らしいでしょう。 次のセルに2行目を配置すると、2つのグラフが表示されることを知っています。ただし、グラフは同じ論理単位を表しているため、グラフを互いに近づけてください。

1
DataFrameの各セルに関数を適用します
次のようなデータフレームがあります。 A B C foo bar foo bar bar foo foo bar 各行のすべての要素(または各列のすべての要素)を調べて、次の関数を適用して後続のDFを取得したいと思います。 def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar wow bar bar wow wow bar 各セルに機能を適用できるシンプルなワンライナーはありますか? これは単純な例であるため、関数を適用する以外にこの特定の例を実行する簡単な方法があるかもしれませんが、私が本当に求めているのは、データフレーム内のすべてのセルに関数を適用する方法です。

6
python pandasデータフレーム、値渡しか参照渡しか
データフレームを関数に渡し、関数内で変更した場合、値渡しですか、それとも参照渡しですか? 次のコードを実行します a = pd.DataFrame({'a':[1,2], 'b':[3,4]}) def letgo(df): df = df.drop('b',axis=1) letgo(a) の値はa、関数呼び出し後も変更されません。それは値渡しであることを意味しますか? 私も以下を試しました xx = np.array([[1,2], [3,4]]) def letgo2(x): x[1,1] = 100 def letgo3(x): x = np.array([[3,3],[3,3]]) それは判明letgo2()変更を行いxxそしてletgo3()ません。なんでこんな感じ?

1
パンダの時系列プロット設定x軸の主および副目盛りとラベル
Pandas時系列オブジェクトからプロットされた時系列グラフのメジャーおよびマイナーxtickとそれらのラベルを設定できるようにしたいと思います。 Pandas0.9の「最新情報」ページには次のように書かれています。 「to_pydatetimeを使用するか、タイムスタンプタイプのコンバーターを登録することができます」 しかし、matplotlibax.xaxis.set_major_locatorおよびax.xaxis.set_major_formatter(およびマイナーな)コマンドを使用できるようにする方法を理解することはできません。 パンダの時間を変換せずに使用すると、x軸の目盛りとラベルが間違ってしまいます。 'xticks'パラメーターを使用することで、主要なティックをpandas.plotに渡し、主要なティックのラベルを設定できます。このアプローチを使用してマイナーティックを実行する方法を理解することはできません。(pandas.plotによって設定されたデフォルトのマイナーティックにラベルを設定できます) これが私のテストコードです: import pandas print 'pandas.__version__ is ', pandas.__version__ print 'matplotlib.__version__ is ', matplotlib.__version__ dStart = datetime.datetime(2011,5,1) # 1 May dEnd = datetime.datetime(2011,7,1) # 1 July dateIndex = pandas.date_range(start=dStart, end=dEnd, freq='D') print "1 May to 1 July 2011", dateIndex testSeries = pandas.Series(data=np.random.randn(len(dateIndex)), index=dateIndex) ax = …


3
numpy.timedelta64値から日を抽出する
私はpandas / pythonを使用しており、日付/時刻を含むdfのフィールドで「to_datetime」関数を使用して生成された2つの日付時系列s1とs2があります。 s2からs1を引くと s3 = s2-s1 タイプのシリーズs3を取得します timedelta64 [ns] 0 385 days, 04:10:36 1 57 days, 22:54:00 2 642 days, 21:15:23 3 615 days, 00:55:44 4 160 days, 22:13:35 5 196 days, 23:06:49 6 23 days, 22:57:17 7 2 days, 22:17:31 8 622 days, 01:29:25 9 79 days, 20:15:14 …
87 python  numpy  pandas 

8
パンダ:時間間隔による移動平均
私はパンダに不慣れです....私はたくさんのポーリングデータを持っています。3日間のウィンドウに基づいて、毎日の推定値を取得するために移動平均を計算したいと思います。この質問から理解できるように、rolling_ *関数は、特定の日時範囲ではなく、指定された数の値に基づいてウィンドウを計算します。 この機能を実装する別の機能はありますか?それとも私は自分で書くのに行き詰まっていますか? 編集: サンプル入力データ: polls_subset.tail(20) Out[185]: favorable unfavorable other enddate 2012-10-25 0.48 0.49 0.03 2012-10-25 0.51 0.48 0.02 2012-10-27 0.51 0.47 0.02 2012-10-26 0.56 0.40 0.04 2012-10-28 0.48 0.49 0.04 2012-10-28 0.46 0.46 0.09 2012-10-28 0.48 0.49 0.03 2012-10-28 0.49 0.48 0.03 2012-10-30 0.53 0.45 0.02 2012-11-01 0.49 0.49 …

2
Seaborn lmplotfacetgridでxlimとylimを設定する方法
Seabornのlmplotを使用して線形回帰をプロットし、データセットをカテゴリ変数を使用して2つのグループに分割しています。 xとyの両方について、両方のプロットの下限を手動で設定したいのですが、上限はSeabornのデフォルトのままにしておきます。簡単な例を次に示します。 import pandas as pd import seaborn as sns import random n = 200 random.seed(2014) base_x = [random.random() for i in range(n)] base_y = [2*i for i in base_x] errors = [random.uniform(0,1) for i in range(n)] y = [i+j for i,j in zip(base_y,errors)] df = pd.DataFrame({'X': base_x, 'Y': y, …
87 python  pandas  seaborn 

9
不足している値がある場合、パンダのデータフレーム文字列列を小文字にする方法は?
次のコードは機能しません。 import pandas as pd import numpy as np df=pd.DataFrame(['ONE','Two', np.nan],columns=['x']) xLower = df["x"].map(lambda x: x.lower()) xLower = ['one'、 'two'、np.nan]を取得するには、どのように調整すればよいですか?実際のデータフレームは巨大であるため、効率は重要です。

13
ValueError:numpy.dtypeのサイズが間違っています。再コンパイルしてみてください
Python2.7にpandasand statsmodelsパッケージをインストールしました。「importpandasas pd」を実行しようとすると、このエラーメッセージが表示されます。誰か助けてもらえますか?ありがとう!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\__init__.py", line 4, in <module> from formulatools import handle_formula_data File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\formulatools.p y", line 1, in <module> import statsmodels.tools.data as data_util File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\tools\__init__.py", li ne 1, in <module> from …

6
パンダ:DataFrameの行の複雑なフィルター
各行の関数で行をフィルタリングしたいと思います。 def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] または、別のより複雑で不自然な例については、 def g(row): if row['col1'].method1() == 1: val = row['col1'].method2() / row['col1'].method3(row['col3'], row['col4']) else: val = row['col2'].method5(row['col6']) return np.sin(val) df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, g)] どうすればよいですか?
86 python  pandas 

3
pandas / matplotlib棒グラフにカスタムカラーを与える方法
Excelの代わりにpandas / matplotlibを使用して、積み上げ棒グラフを生成し始めました。問題が発生しています (1)デフォルトのカラーマップには5色しかないため、5つ以上のカテゴリがある場合は、色が繰り返されます。より多くの色を指定するにはどうすればよいですか?理想的には、開始色と終了色のグラデーション、およびその間にn色を動的に生成する方法はありますか? (2)色があまり視覚的に心地よいものではありません。n色のカスタムセットを指定するにはどうすればよいですか?または、グラデーションも機能します。 上記の両方のポイントを示す例を以下に示します。 4 from matplotlib import pyplot 5 from pandas import * 6 import random 7 8 x = [{i:random.randint(1,5)} for i in range(10)] 9 df = DataFrame(x) 10 11 df.plot(kind='bar', stacked=True) そして出力はこれです:

6
パンダ:カテゴリを数字に変換する
次のような国のデータフレームがあるとします。 cc | temp US | 37.0 CA | 12.0 US | 35.0 AU | 20.0 国を「ワンホットエンコーディング」に変換するpd.get_dummies関数があることを私は知っています。ただし、代わりに取得できるように、代わりにインデックスに変換したいと思いcc_index = [1,2,1,3]ます。 以下に示すように、get_dummiesをnumpywhere句と一緒に使用するよりも高速な方法があると思います。 [np.where(x) for x in df.cc.get_dummies().values] これは、Rで「factors」を使用して行う方がやや簡単なので、パンダにも同様の機能があることを期待しています。

2
pandas.Seriesヒストグラムプロットをファイルに保存します
ipython Notebookで、最初にpandas Seriesオブジェクトを作成し、次にインスタンスメソッド.hist()を呼び出すことにより、ブラウザーに図が表示されます。 この図をファイルに保存する方法を知りたいです(右クリックして名前を付けて保存するのではなく、スクリプトで必要なコマンドを意味します)。

3
時間と分で2つの列間のパンダDataFrame時間差を計算します
データフレームに2つの列とがfromdateありますtodate。 import pandas as pd data = {'todate': [pd.Timestamp('2014-01-24 13:03:12.050000'), pd.Timestamp('2014-01-27 11:57:18.240000'), pd.Timestamp('2014-01-23 10:07:47.660000')], 'fromdate': [pd.Timestamp('2014-01-26 23:41:21.870000'), pd.Timestamp('2014-01-27 15:38:22.540000'), pd.Timestamp('2014-01-23 18:50:41.420000')]} df = pd.DataFrame(data) 新しい列を追加して、diffを使用して2つの日付の違いを見つけます df['diff'] = df['fromdate'] - df['todate'] diff列を取得しましたがdays、24時間を超えると、列が含まれます。 todate fromdate diff 0 2014-01-24 13:03:12.050 2014-01-26 23:41:21.870 2 days 10:38:09.820000 1 2014-01-27 11:57:18.240 2014-01-27 15:38:22.540 0 days 03:41:04.300000 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.