タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。


4
ポイントを使用してパンダデータフレームの2つの列をプロットする方法
パンダデータフレームがあり、ある列の値と別の列の値をプロットしたいと思います。幸い、plot私が必要としているように見えるデータフレームに関連付けられたメソッドがあります。 df.plot(x='col_name_1', y='col_name_2') 残念ながら、プロットスタイル(ここではkindパラメーターの後にリストされています)にはポイントがないようです。線や棒、密度まで使用できますが、点は使用できません。この問題の解決に役立つ回避策はありますか?

5
パンダのデータフレームの列ヘッダーをすべて小文字にするにはどうすればよいですか?
パンダのデータフレームのすべての列ヘッダーを小文字にしたい 例 私が持っている場合: data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... XRATをxratに変更したい: data.headers.lowercase() 私が得るように: country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 …

6
データフレームの選択された列にNA(欠損)値を含む行のサブセット
CSVファイルからのデータフレームがあります。データフレームにDFは、観測値を含む列VaR2と、測定が行われた日付を含む列()があります。日付が記録されなかった場合、CSVファイルにはNA欠落データの値が含まれます。 Var1 Var2 10 2010/01/01 20 NA 30 2010/03/01 サブセットコマンドを使用して、列からの値new_DFを持つ行のみが含まれるように新しいデータフレームを定義したいと思いNA'ます(VaR2)。上記の例では、行2のみが新しいに含まれDFます。 コマンド new_DF<-subset(DF,DF$Var2=="NA") 機能しません。結果のデータフレームには行エントリがありません。 元のCSVファイルで値NAがと交換された NULL場合、同じコマンドで目的の結果が生成されますnew_DF<-subset(DF,DF$Var2=="NULL")。 文字列の値NAが元のCSVファイルで提供されている場合、このメソッドをどのように機能させることができますか?
96 r  csv  dataframe  subset  na 


6
以前の値も適用で計算されるときに、パンダでdataframe.applyの前の行の値を使用する方法はありますか?
私は次のデータフレームを持っています: Index_Date A B C D =============================== 2015-01-31 10 10 Nan 10 2015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 280 2015-02-03 10 100 Nan 250 必要とする: Index_Date A B C D =============================== 2015-01-31 10 10 10 10 2015-02-01 2 3 23 22 2015-02-02 10 60 290 280 2015-02-03 …

1
Pandasの「Freq」タグに関するドキュメントはどこにありますか?[閉まっている]
閉まっている。この質問は、StackOverflowのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善したいですか?質問を更新して、StackOverflowのトピックになります。 3年前に閉鎖されました。 この質問を改善する 私はパンダに不慣れで、使用しようとしていますdate_range。のfreqようなBME、あらゆる種類の良いものに出くわしBMSました。適切な文字列をすばやく検索して、必要なものを取得できるようにしたいと思います。昨日、ドキュメントのどこかで適切にフォーマットされたテーブルを見つけましたが、テーブルのタイトルが非常に鈍いため、今日は検索を使用して再度見つけることができません。

7
ラベルで選択したパンダは時々シリーズを返し、時々DataFrameを返します
パンダでは、インデックスにエントリが1つしかないラベルを選択するとシリーズが返されますが、エントリが1つ以上あるエントリを選択すると、データフレームが返されます。 何故ですか?常にデータフレームを確実に取得する方法はありますか? In [1]: import pandas as pd In [2]: df = pd.DataFrame(data=range(5), index=[1, 2, 3, 3, 3]) In [3]: type(df.loc[3]) Out[3]: pandas.core.frame.DataFrame In [4]: type(df.loc[1]) Out[4]: pandas.core.series.Series


5
リストからデータフレームに列を追加します
次のような列を持つデータフレームがあります。 A B C 0 4 5 6 7 7 6 5 Aの値の可能な範囲は、0から7までです。 また、私はこのような8つの要素のリストを持っています: List=[2,5,6,8,12,16,26,32] //There are only 8 elements in this list 列Aの要素がnの場合、リストのn番目の要素を新しい列(「D」など)に挿入する必要があります。 データフレーム全体をループせずに、これを一度に行うにはどうすればよいですか? 結果のデータフレームは次のようになります。 A B C D 0 2 4 12 5 16 6 26 7 32 7 32 6 26 5 16 注:データフレームは巨大であり、反復は最後のオプションオプションです。ただし、必要に応じて、「リスト」の要素をdictなどの他のデータ構造に配置することもできます。

3
パンダの棒グラフの値で棒に注釈を付ける
Pandas棒グラフの棒にDataFrameの丸められた数値で注釈を付ける方法を探していました。 >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df A B value1 0.440922 0.911800 value2 0.588242 0.797366 私はこのようなものを手に入れたいです: このコードサンプルを試してみましたが、注釈はすべてxティックを中心にしています。 >>> ax = df.plot(kind='bar') >>> for idx, label in enumerate(list(df.index)): for acc in df.columns: value = np.round(df.ix[idx][acc],decimals=2) ax.annotate(value, (idx, value), xytext=(0, 15), textcoords='offset points')

11
Dataframeセル内のリストを個別の行に分解する方法
リストを含むパンダのセルを、それらの各値の行に変換しようとしています。 だから、これを取る: nearest_neighbors列の値をアンパックしてスタックし、各値が各opponentインデックス内の行になるようにしたい場合は、どうすればよいですか?このような操作を目的としたパンダメソッドはありますか?


6
パンダシリーズをDataFrameに変換する
私はパンダシリーズSFを持っています: email email1@email.com [1.0, 0.0, 0.0] email2@email.com [2.0, 0.0, 0.0] email3@email.com [1.0, 0.0, 0.0] email4@email.com [4.0, 0.0, 0.0] email5@email.com [1.0, 0.0, 3.0] email6@email.com [1.0, 5.0, 0.0] そして、それを次のDataFrameに変換したいと思います。 index | email | list _____________________________________________ 0 | email1@email.com | [1.0, 0.0, 0.0] 1 | email2@email.com | [2.0, 0.0, 0.0] 2 | email3@email.com …

11
データフレームを複数のデータフレームに分割する
実験からのデータ(60人の回答者)を含む非常に大きなデータフレーム(約100万行)があります。 データフレームを60個のデータフレーム(各参加者のデータフレーム)に分割したいと思います。 データフレームdataには、'name'各参加者に固有のコードである、という変数があります。 以下を試しましたが、何も起こりません(または実行が1時間以内に停止しません)。私がやろうとしているのは、dataをより小さなデータフレームに分割し、それらをリストに追加することです(datalist): import pandas as pd def splitframe(data, name='name'): n = data[name][0] df = pd.DataFrame(columns=data.columns) datalist = [] for i in range(len(data)): if data[name][i] == n: df = df.append(data.iloc[i]) else: datalist.append(df) df = pd.DataFrame(columns=data.columns) n = data[name][i] df = df.append(data.iloc[i]) return datalist エラーメッセージが表示されません。スクリプトは永久に実行されているようです。 それを行うための賢い方法はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.