タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

6
y軸をパーセントでフォーマット
次のようなパンダで作成された既存のプロットがあります: df['myvar'].plot(kind='bar') y軸の形式は浮動小数点で、y軸をパーセンテージに変更したいと思います。私が見つけたすべてのソリューションはax.xyz構文を使用しており、プロットを作成するコードを上の行の下にのみ配置できます(上の行にax = axを追加することはできません)。 上記の行を変更せずにy軸をパーセンテージとしてフォーマットするにはどうすればよいですか? これが私が見つけた解決策ですが、プロットを再定義する必要があります: import matplotlib.pyplot as plt import numpy as np import matplotlib.ticker as mtick data = [8,12,15,17,18,18.5] perc = np.linspace(0,100,len(data)) fig = plt.figure(1, (7,4)) ax = fig.add_subplot(1,1,1) ax.plot(perc, data) fmt = '%.0f%%' # Format you want the ticks, e.g. '40%' xticks = mtick.FormatStrFormatter(fmt) ax.xaxis.set_major_formatter(xticks) plt.show() …

14
パンダのデータフレームにすべての列名を表示するにはどうすればよいですか?
何百もの列で構成されるデータフレームがあり、すべての列名を確認する必要があります。 私がしたこと: In[37]: data_all2.columns 出力は次のとおりです。 Out[37]: Index(['customer_id', 'incoming', 'outgoing', 'awan', 'bank', 'family', 'food', 'government', 'internet', 'isipulsa', ... 'overdue_3months_feature78', 'overdue_3months_feature79', 'overdue_3months_feature80', 'overdue_3months_feature81', 'overdue_3months_feature82', 'overdue_3months_feature83', 'overdue_3months_feature84', 'overdue_3months_feature85', 'overdue_3months_feature86', 'loan_overdue_3months_total_y'], dtype='object', length=102) 切り捨てられたリストではなく、すべての列を表示するにはどうすればよいですか?
114 python  pandas  dataframe  show 

11
Python Pandasを使用して日付と時刻の列を組み合わせる
私は次の列を持つパンダのデータフレームを持っています。 Date Time 01-06-2013 23:00:00 02-06-2013 01:00:00 02-06-2013 21:00:00 02-06-2013 22:00:00 02-06-2013 23:00:00 03-06-2013 01:00:00 03-06-2013 21:00:00 03-06-2013 22:00:00 03-06-2013 23:00:00 04-06-2013 01:00:00 data ['Date']とdata ['Time']を組み合わせて以下を取得するにはどうすればよいですか?それを使用してそれを行う方法はありpd.to_datetimeますか? Date 01-06-2013 23:00:00 02-06-2013 01:00:00 02-06-2013 21:00:00 02-06-2013 22:00:00 02-06-2013 23:00:00 03-06-2013 01:00:00 03-06-2013 21:00:00 03-06-2013 22:00:00 03-06-2013 23:00:00 04-06-2013 01:00:00

8
Pandas DataFrameからリストのリストへ
リストのリストをパンダデータフレームに変換するのは簡単です。 import pandas as pd df = pd.DataFrame([[1,2,3],[3,4,5]]) しかし、どうすればdfをリストのリストに戻すことができますか? lol = df.what_to_do_now? print lol # [[1,2,3],[3,4,5]]
113 python  pandas 

9
pandasデータフレームをプリティプリントする
次のように、パンダのデータフレームをテキストベースのテーブルとして印刷するにはどうすればよいですか? +------------+---------+-------------+ | column_one | col_two | column_3 | +------------+---------+-------------+ | 0 | 0.0001 | ABCD | | 1 | 1e-005 | ABCD | | 2 | 1e-006 | long string | | 3 | 1e-007 | ABCD | +------------+---------+-------------+


6
Pandas DataFrameからヒートマップを作成する
PythonのPandasパッケージから生成されたデータフレームがあります。pandasパッケージのDataFrameを使用してヒートマップを生成するにはどうすればよいですか。 import numpy as np from pandas import * Index= ['aaa','bbb','ccc','ddd','eee'] Cols = ['A', 'B', 'C','D'] df = DataFrame(abs(np.random.randn(5, 4)), index= Index, columns=Cols) >>> df A B C D aaa 2.431645 1.248688 0.267648 0.613826 bbb 0.809296 1.671020 1.564420 0.347662 ccc 1.501939 1.126518 0.702019 1.596048 ddd 0.137160 0.147368 1.504663 0.202822 eee …

5
PandasデータフレームでOLS回帰を実行する
私はpandasデータフレームを、私はここで、列BおよびCの値から列Aの値を予測することができるしたい玩具例です。 import pandas as pd df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]}) 理想的には、次のようなものols(A ~ B + C, data = df)がありますが、アルゴリズムライブラリの例を見ると、scikit-learn列ではなく行のリストを使用してモデルにデータを供給しているように見えます。これは、リスト内のリストにデータを再フォーマットすることを必要とします。これは、最初にパンダを使用する目的に反するようです。パンダデータフレーム内のデータに対してOLS回帰(またはより一般的には機械学習アルゴリズム)を実行するための最もPython的な方法は何ですか?

11
パンダデータフレームに行を挿入する
私はデータフレームを持っています: s1 = pd.Series([5, 6, 7]) s2 = pd.Series([7, 8, 9]) df = pd.DataFrame([list(s1), list(s2)], columns = ["A", "B", "C"]) A B C 0 5 6 7 1 7 8 9 [2 rows x 3 columns] 取得するには、最初の行[2、3、4]を追加する必要があります。 A B C 0 2 3 4 1 5 6 7 2 7 …


12
python pandas dataframe to辞書
私は2列のデータフレームを持っているので、それをpython辞書に変換するつもりです。最初の列がキーになり、2番目の列が値になります。前もって感謝します。 データフレーム: id value 0 0 10.2 1 1 5.7 2 2 7.4

4
Pandas DataFrameの行を列ヘッダーに変換し、
私が操作しなければならないデータは少し厄介です。データの中にヘッダー名があります。既存のパンダデータフレームから行を選択して列ヘッダーにする(名前を変更する)にはどうすればよいですか? 私は次のようなことをしたいです: header = df[df['old_header_name1'] == 'new_header_name1'] df.columns = header

5
パンダのデータフレームで使用されているメモリを解放するにはどうすればよいですか?
次のようにパンダで開いた非常に大きなcsvファイルがあります。 import pandas df = pandas.read_csv('large_txt_file.txt') これを実行すると、メモリ使用量が2GB増加します。これは、このファイルに数百万の行が含まれているためです。私の問題は、このメモリを解放する必要があるときに発生します。走った… del df しかし、私のメモリ使用量は減りませんでした。これは、pandasデータフレームによって使用されているメモリを解放するための間違ったアプローチですか?もしそうなら、適切な方法は何ですか?
111 python  pandas  memory 

4
UNIX時間をパンダデータフレームで読み取り可能な日付に変換する
UNIX時間と価格が含まれたデータフレームがあります。人間が読める日付で表示されるようにインデックス列を変換したいと思います。 したがって、たとえば、インデックス列にはdateas 1349633705がありますが、それを10/07/2012(または少なくとも10/07/2012 18:15)として表示したいとします。 いくつかのコンテキストでは、これが私が作業しているコードと私がすでに試したことです: import json import urllib2 from datetime import datetime response = urllib2.urlopen('http://blockchain.info/charts/market-price?&format=json') data = json.load(response) df = DataFrame(data['values']) df.columns = ["date","price"] #convert dates df.date = df.date.apply(lambda d: datetime.strptime(d, "%Y-%m-%d")) df.index = df.date ご覧のとおり、df.date = df.date.apply(lambda d: datetime.strptime(d, "%Y-%m-%d"))ここでは文字列ではなく整数を使用 しているため、機能しません。私は使用する必要があると思いますdatetime.date.fromtimestampが、これを全体に適用する方法がよくわかりませんdf.date。 ありがとう。

6
パンダのデータフレーム列のdtypeを割り当てる
dtype複数の列のs を設定したいpd.Dataframe(ファイルが対応していなかったため、リストのリストに手動で解析しなければならないファイルがありますpd.read_csv) import pandas as pd print pd.DataFrame([['a','1'],['b','2']], dtype={'x':'object','y':'int'}, columns=['x','y']) 私は得る ValueError: entry not a 2- or 3- tuple それらを設定できる唯一の方法は、各列変数をループしてで再キャストすることastypeです。 dtypes = {'x':'object','y':'int'} mydata = pd.DataFrame([['a','1'],['b','2']], columns=['x','y']) for c in mydata.columns: mydata[c] = mydata[c].astype(dtypes[c]) print mydata['y'].dtype #=> int64 もっと良い方法はありますか?
110 python  pandas 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.