プログラミング pandas

4

今日の最後の初心者パンダの質問：単一のシリーズのテーブルを生成するにはどうすればよいですか？例えば： my_series = pandas.Series([1,2,2,3,3,3]) pandas.magical_frequency_function( my_series ) >> { 1 : 1, 2 : 2, 3 : 3 } グーグルがたくさんあるので、Series.describe（）とpandas.crosstabsにつながっていますが、どちらも必要なことをまったく行いません。ああ、それがさまざまなデータ型（strings、intsなど）で機能するのは素晴らしいことです。

97 python statistics pandas frequency

6

パンダデータフレームでセルをNaNに設定する方法

データフレームの列の不良値をNaNで置き換えたいのですが。 mydata = {'x' : [10, 50, 18, 32, 47, 20], 'y' : ['12', '11', 'N/A', '13', '15', 'N/A']} df = pd.DataFrame(mydata) df[df.y == 'N/A']['y'] = np.nan ただし、dfのコピーを処理しているため、最後の行は失敗し、警告がスローされます。それで、これを処理する正しい方法は何ですか？ilocまたはixを使用した多くのソリューションを見てきましたが、ここではブール条件を使用する必要があります。

97 python pandas nan

12

mongodbからpandasにデータをインポートする方法は？

mongodbのコレクションに大量のデータがあり、分析する必要があります。そのデータをパンダにインポートするにはどうすればよいですか？私はパンダとナンピーが初めてです。編集：mongodbコレクションには、日付と時刻でタグ付けされたセンサー値が含まれています。センサー値は、floatデータ型です。サンプルデータ： { "_cls" : "SensorReport", "_id" : ObjectId("515a963b78f6a035d9fa531b"), "_types" : [ "SensorReport" ], "Readings" : [ { "a" : 0.958069536790466, "_types" : [ "Reading" ], "ReadingUpdatedDate" : ISODate("2013-04-02T08:26:35.297Z"), "b" : 6.296118156595, "_cls" : "Reading" }, { "a" : 0.95574014778624, "_types" : [ "Reading" ], "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:09.963Z"), …

97 python mongodb pandas pymongo

3

Pandasデータフレーム列を整数ではなく文字列としてインポートする

次のcsvをint64ではなく文字列としてインポートしたいと思います。Pandas read_csvは自動的にそれをint64に変換しますが、この列を文字列として必要とします。 ID 00013007854817840016671868 00013007854817840016749251 00013007854817840016754630 00013007854817840016781876 00013007854817840017028824 00013007854817840017963235 00013007854817840018860166 df = read_csv('sample.csv') df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 -9223372036854775808 6 -9223372036854775808 Name: ID 残念ながら、コンバータを使用しても同じ結果が得られます。 df = read_csv('sample.csv', converters={'ID': str}) df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 …

97 python pandas

5

パンダのread_csvとusecolsを使用した列のフィルター

複数のインデックスを使用しpandas.read_csvて列をフィルタリングしusecols、使用すると、正しく取得されないcsvファイルがあります。 import pandas as pd csv = r"""dummy,date,loc,x bar,20090101,a,1 bar,20090102,a,3 bar,20090103,a,5 bar,20090101,b,1 bar,20090102,b,3 bar,20090103,b,5""" f = open('foo.csv', 'w') f.write(csv) f.close() df1 = pd.read_csv('foo.csv', header=0, names=["dummy", "date", "loc", "x"], index_col=["date", "loc"], usecols=["dummy", "date", "loc", "x"], parse_dates=["date"]) print df1 # Ignore the dummy columns df2 = pd.read_csv('foo.csv', index_col=["date", "loc"], usecols=["date", "loc", "x"], …

97 python pandas csv csv-import

6

csvインポートパンダ中に行をスキップ

を使用して.csvファイルをインポートしようとしpandas.read_csv()ていますが、データファイルの2行目（0インデックスの場合、インデックス= 1の行）をインポートしたくありません。コマンドで使用される引数があいまいなため、インポートする方法がわかりません。パンダのウェブサイトから： skiprows ：リストのようなまたは整数ファイルの先頭でスキップする行番号（0から始まる）またはスキップする行数（int）。 skiprows=1引数を入力した場合、最初の行をスキップするか、インデックス1の行をスキップするかはどのようにしてわかりますか？

97 python csv pandas

6

パンダのデータフレームをシリーズに変換する

私はパンダに少し慣れていません。1行23列のパンダデータフレームがあります。これをシリーズに変換したいですか？これを行うための最もPython的な方法は何ですか？私は試しましたpd.Series(myResults)が、文句を言いValueError: cannot copy sequence with size 23 to array axis with dimension 1ます。数学的にはまだ「ベクトル」であることに気付くほど賢くはありません。ありがとう！

97 python pandas dataframe series

2

「notin」条件に基づいてデータフレームから行を削除する[重複]

この質問にはすでにここに答えがあります： SQLのように「in」と「notin」を使用してPandasデータフレームをフィルタリングする方法（9つの回答） 4か月前に閉鎖されました。日付列の値が日付のリストにある場合、パンダのデータフレームから行を削除したいと思います。次のコードは機能しません。 a=['2015-01-01' , '2015-02-01'] df=df[df.datecolumn not in a] 次のエラーが発生します。 ValueError：シリーズの真理値があいまいです。a.empty、a.bool（）、a.item（）、a.any（）、またはa.all（）を使用します。

97 python pandas

3

Python Pandasは、1つの列のNaNを2番目の列の対応する行の値に置き換えます

私はPythonでこのパンダDataFrameを使用しています。 File heat Farheit Temp_Rating 1 YesQ 75 N/A 1 NoR 115 N/A 1 YesA 63 N/A 1 NoT 83 41 1 NoY 100 80 1 YesZ 56 12 2 YesQ 111 N/A 2 NoR 60 N/A 2 YesA 19 N/A 2 NoT 106 77 2 NoY 45 21 2 …

97 python pandas dataframe nan fillna

4

複数行のJSONを含むファイルをPandasにロードする

JSONファイルをPythonpandas（0.14.0）データフレームに読み込もうとしています。JSONファイルの最初の行は次のとおりです。 {"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandwiches and wraps are good but a little overpriced and the food items are the same. The chicken caesar salad wrap is my favorite here but …

97 python json python-2.7 pandas

4

ポイントを使用してパンダデータフレームの2つの列をプロットする方法

パンダデータフレームがあり、ある列の値と別の列の値をプロットしたいと思います。幸い、plot私が必要としているように見えるデータフレームに関連付けられたメソッドがあります。 df.plot(x='col_name_1', y='col_name_2') 残念ながら、プロットスタイル（ここではkindパラメーターの後にリストされています）にはポイントがないようです。線や棒、密度まで使用できますが、点は使用できません。この問題の解決に役立つ回避策はありますか？

96 python matplotlib plot pandas dataframe

4

DataFrame内の文字列、ただしdtypeはオブジェクト

選択した列のすべての項目が文字列であるにもかかわらず、明示的に変換した後でも、Pandasがオブジェクトを持っていると教えてくれるのはなぜですか。これは私のデータフレームです： <class 'pandas.core.frame.DataFrame'> Int64Index: 56992 entries, 0 to 56991 Data columns (total 7 columns): id 56992 non-null values attr1 56992 non-null values attr2 56992 non-null values attr3 56992 non-null values attr4 56992 non-null values attr5 56992 non-null values attr6 56992 non-null values dtypes: int64(2), object(5) それらの5つですdtype object。これらのオブジェクトを明示的に文字列に変換します。 for c …

96 python pandas numpy types series

5

パンダのデータフレームの列ヘッダーをすべて小文字にするにはどうすればよいですか？

パンダのデータフレームのすべての列ヘッダーを小文字にしたい例私が持っている場合： data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... XRATをxratに変更したい： data.headers.lowercase() 私が得るように： country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …

96 python pandas dataframe

4

Pandasデータフレームの列のテキストを置き換える方法は？

次のようにデータフレームに列があります： range "(2,30)" "(50,290)" "(400,1000)" ... そして、,コンマを-ダッシュに置き換えたいです。私は現在この方法を使用していますが、何も変更されていません。 org_info_exc['range'].replace(',', '-', inplace=True) 誰か助けてもらえますか？

96 python replace pandas dataframe

13

パンダの大きな相関行列から最も高い相関ペアをリストしますか？

パンダとの相関行列で上位の相関をどのように見つけますか？Rでこれを行う方法については多くの答えがあります（大きな行列としてではなく、順序付けられたリストとして相関を表示するか、PythonまたはRの大きなデータセットから相関の高いペアを取得する効率的な方法）が、どのように行うのか疑問に思っていますパンダと？私の場合、マトリックスは4460x4460なので、視覚的に行うことはできません。

96 python pandas correlation

タグ付けされた質問 「pandas」

タグ付けされた質問「pandas」