タグ付けされた質問 「pandas」

Pandasは、データの操作と分析のためのPythonライブラリです。たとえば、データフレーム、多次元時系列、統計、実験科学の結果、計量経済学、金融などでよく見られる断面データセットです。Pandasは、Pythonの主要なデータサイエンスライブラリの1つです。

4
単一変数の頻度表
今日の最後の初心者パンダの質問:単一のシリーズのテーブルを生成するにはどうすればよいですか? 例えば: my_series = pandas.Series([1,2,2,3,3,3]) pandas.magical_frequency_function( my_series ) >> { 1 : 1, 2 : 2, 3 : 3 } グーグルがたくさんあるので、Series.describe()とpandas.crosstabsにつながっていますが、どちらも必要なことをまったく行いません。ああ、それがさまざまなデータ型(strings、intsなど)で機能するのは素晴らしいことです。

6
パンダデータフレームでセルをNaNに設定する方法
データフレームの列の不良値をNaNで置き換えたいのですが。 mydata = {'x' : [10, 50, 18, 32, 47, 20], 'y' : ['12', '11', 'N/A', '13', '15', 'N/A']} df = pd.DataFrame(mydata) df[df.y == 'N/A']['y'] = np.nan ただし、dfのコピーを処理しているため、最後の行は失敗し、警告がスローされます。それで、これを処理する正しい方法は何ですか?ilocまたはixを使用した多くのソリューションを見てきましたが、ここではブール条件を使用する必要があります。
97 python  pandas  nan 

12
mongodbからpandasにデータをインポートする方法は?
mongodbのコレクションに大量のデータがあり、分析する必要があります。そのデータをパンダにインポートするにはどうすればよいですか? 私はパンダとナンピーが初めてです。 編集:mongodbコレクションには、日付と時刻でタグ付けされたセンサー値が含まれています。センサー値は、floatデータ型です。 サンプルデータ: { "_cls" : "SensorReport", "_id" : ObjectId("515a963b78f6a035d9fa531b"), "_types" : [ "SensorReport" ], "Readings" : [ { "a" : 0.958069536790466, "_types" : [ "Reading" ], "ReadingUpdatedDate" : ISODate("2013-04-02T08:26:35.297Z"), "b" : 6.296118156595, "_cls" : "Reading" }, { "a" : 0.95574014778624, "_types" : [ "Reading" ], "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:09.963Z"), …

3
Pandasデータフレーム列を整数ではなく文字列としてインポートする
次のcsvをint64ではなく文字列としてインポートしたいと思います。Pandas read_csvは自動的にそれをint64に変換しますが、この列を文字列として必要とします。 ID 00013007854817840016671868 00013007854817840016749251 00013007854817840016754630 00013007854817840016781876 00013007854817840017028824 00013007854817840017963235 00013007854817840018860166 df = read_csv('sample.csv') df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 -9223372036854775808 6 -9223372036854775808 Name: ID 残念ながら、コンバータを使用しても同じ結果が得られます。 df = read_csv('sample.csv', converters={'ID': str}) df.ID >> 0 -9223372036854775808 1 -9223372036854775808 2 -9223372036854775808 3 -9223372036854775808 4 -9223372036854775808 5 …
97 python  pandas 

5
パンダのread_csvとusecolsを使用した列のフィルター
複数のインデックスを使用しpandas.read_csvて列をフィルタリングしusecols、使用すると、正しく取得されないcsvファイルがあります。 import pandas as pd csv = r"""dummy,date,loc,x bar,20090101,a,1 bar,20090102,a,3 bar,20090103,a,5 bar,20090101,b,1 bar,20090102,b,3 bar,20090103,b,5""" f = open('foo.csv', 'w') f.write(csv) f.close() df1 = pd.read_csv('foo.csv', header=0, names=["dummy", "date", "loc", "x"], index_col=["date", "loc"], usecols=["dummy", "date", "loc", "x"], parse_dates=["date"]) print df1 # Ignore the dummy columns df2 = pd.read_csv('foo.csv', index_col=["date", "loc"], usecols=["date", "loc", "x"], …

6
csvインポートパンダ中に行をスキップ
を使用して.csvファイルをインポートしようとしpandas.read_csv()ていますが、データファイルの2行目(0インデックスの場合、インデックス= 1の行)をインポートしたくありません。 コマンドで使用される引数があいまいなため、インポートする方法がわかりません。 パンダのウェブサイトから: skiprows :リストのようなまたは整数 ファイルの先頭でスキップする行番号(0から始まる)またはスキップする行数(int)。 skiprows=1引数を入力した場合、最初の行をスキップするか、インデックス1の行をスキップするかはどのようにしてわかりますか?
97 python  csv  pandas 

6
パンダのデータフレームをシリーズに変換する
私はパンダに少し慣れていません。1行23列のパンダデータフレームがあります。 これをシリーズに変換したいですか?これを行うための最もPython的な方法は何ですか? 私は試しましたpd.Series(myResults)が、文句を言いValueError: cannot copy sequence with size 23 to array axis with dimension 1ます。数学的にはまだ「ベクトル」であることに気付くほど賢くはありません。 ありがとう!

2
「notin」条件に基づいてデータフレームから行を削除する[重複]
この質問にはすでにここに答えがあります: SQLのように「in」と「notin」を使用してPandasデータフレームをフィルタリングする方法 (9つの回答) 4か月前に閉鎖されました。 日付列の値が日付のリストにある場合、パンダのデータフレームから行を削除したいと思います。次のコードは機能しません。 a=['2015-01-01' , '2015-02-01'] df=df[df.datecolumn not in a] 次のエラーが発生します。 ValueError:シリーズの真理値があいまいです。a.empty、a.bool()、a.item()、a.any()、またはa.all()を使用します。
97 python  pandas 


4
複数行のJSONを含むファイルをPandasにロードする
JSONファイルをPythonpandas(0.14.0)データフレームに読み込もうとしています。JSONファイルの最初の行は次のとおりです。 {"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandwiches and wraps are good but a little overpriced and the food items are the same. The chicken caesar salad wrap is my favorite here but …

4
ポイントを使用してパンダデータフレームの2つの列をプロットする方法
パンダデータフレームがあり、ある列の値と別の列の値をプロットしたいと思います。幸い、plot私が必要としているように見えるデータフレームに関連付けられたメソッドがあります。 df.plot(x='col_name_1', y='col_name_2') 残念ながら、プロットスタイル(ここではkindパラメーターの後にリストされています)にはポイントがないようです。線や棒、密度まで使用できますが、点は使用できません。この問題の解決に役立つ回避策はありますか?

4
DataFrame内の文字列、ただしdtypeはオブジェクト
選択した列のすべての項目が文字列であるにもかかわらず、明示的に変換した後でも、Pandasがオブジェクトを持っていると教えてくれるのはなぜですか。 これは私のデータフレームです: <class 'pandas.core.frame.DataFrame'> Int64Index: 56992 entries, 0 to 56991 Data columns (total 7 columns): id 56992 non-null values attr1 56992 non-null values attr2 56992 non-null values attr3 56992 non-null values attr4 56992 non-null values attr5 56992 non-null values attr6 56992 non-null values dtypes: int64(2), object(5) それらの5つですdtype object。これらのオブジェクトを明示的に文字列に変換します。 for c …
96 python  pandas  numpy  types  series 

5
パンダのデータフレームの列ヘッダーをすべて小文字にするにはどうすればよいですか?
パンダのデータフレームのすべての列ヘッダーを小文字にしたい 例 私が持っている場合: data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... XRATをxratに変更したい: data.headers.lowercase() 私が得るように: country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …


13
パンダの大きな相関行列から最も高い相関ペアをリストしますか?
パンダとの相関行列で上位の相関をどのように見つけますか?Rでこれを行う方法については多くの答えがあります(大きな行列としてではなく、順序付けられたリストとして相関を表示するか、PythonまたはRの大きなデータセットから相関の高いペアを取得する効率的な方法)が、どのように行うのか疑問に思っていますパンダと?私の場合、マトリックスは4460x4460なので、視覚的に行うことはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.