タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。

13
特定の列の値がNaNであるPandas DataFrameの行を削除する方法
私はこれを持ってDataFrameおり、EPS列が次のレコードでないレコードのみが必要ですNaN。 >>> df STK_ID EPS cash STK_ID RPT_Date 601166 20111231 601166 NaN NaN 600036 20111231 600036 NaN 12 600016 20111231 600016 4.3 NaN 601009 20111231 601009 NaN NaN 601939 20111231 601939 2.5 NaN 000001 20111231 000001 NaN NaN ...つまりdf.drop(....)、この結果のデータフレームを取得するようなもの: STK_ID EPS cash STK_ID RPT_Date 600016 20111231 600016 4.3 NaN 601939 …
754 python  pandas  dataframe  nan 


7
pandas DataFrameをCSVファイルに書き込む
CSVファイルに書き込みたいパンダのデータフレームがあります。私はこれを使ってこれをやっています: df.to_csv('out.csv') そしてエラーを取得する: UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128) これを簡単に回避する方法はありますか(つまり、データフレームにUnicode文字があります)?そして、例えば「to-tab」メソッドを使用してCSVの代わりにタブ区切りファイルに書き込む方法はありますか(私は存在しないと思います)?
715 python  csv  pandas  dataframe 

8
辞書のリストをpandas DataFrameに変換する
私はこのような辞書のリストを持っています: [{'points': 50, 'time': '5:00', 'year': 2010}, {'points': 25, 'time': '6:00', 'month': "february"}, {'points':90, 'time': '9:00', 'month': 'january'}, {'points_h1':20, 'month': 'june'}] そして、私はこれをDataFrameこのようなパンダに変えたいです: month points points_h1 time year 0 NaN 50 NaN 5:00 2010 1 february 25 NaN 6:00 NaN 2 january 90 NaN 9:00 NaN 3 june NaN 20 NaN …

10
Pandasシリーズ/ DataFrame全体をきれいに印刷する
端末でSeriesとDataFrameをよく使用します。__repr__Series のデフォルトは、いくつかの頭と尾の値を含む減少したサンプルを返しますが、残りは欠落しています。 Series / DataFrame全体をきれいに印刷する組み込みの方法はありますか?理想的には、列間の境界線や、異なる列の色分けなど、適切な配置をサポートします。
654 python  pandas  dataframe 

3
iloc、ix、locの違いは何ですか?
誰かがこれらの3つのスライス方法がどのように異なるか説明できますか? 私はドキュメントを見て、これらの 答えを見ましたが、それでも私は3つがどのように違うのか説明することができません。私にとっては、スライスのレベルが低いため、それらは大部分が交換可能に見えます。 たとえば、の最初の5行を取得するとしDataFrameます。これら3つすべてがどのように機能するのですか? df.loc[:5] df.ix[:5] df.iloc[:5] 誰かが使用の区別がより明確な3つのケースを提示できますか?

15
パンダでSettingWithCopyWarningを処理する方法?
バックグラウンド パンダを0.11から0.13.0rc1にアップグレードしました。現在、アプリケーションは多くの新しい警告を表示しています。それらの1つはこのような: E:\FinReporter\FM_EXT.py:449: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_index,col_indexer] = value instead quote_df['TVol'] = quote_df['TVol']/TVOL_SCALE どういう意味か知りたいのですが?何かを変更する必要がありますか? 使用を主張した場合、警告を一時停止する必要がありますquote_df['TVol'] = quote_df['TVol']/TVOL_SCALEか? エラーを出す関数 def _decode_stock_quote(list_of_150_stk_str): """decode the webpage and return dataframe""" from cStringIO import StringIO str_of_all = "".join(list_of_150_stk_str) quote_df …

14
サブセット化されたデータフレームのドロップファクターレベル
を含むデータフレームがありfactorます。subsetまたは別のインデックス関数を使用してこのデータフレームのサブセットを作成すると、新しいデータフレームが作成されます。ただし、factor変数が新しいデータフレームに存在しない場合でも、変数は元のレベルをすべて保持します。 これにより、ファセットプロットを実行するとき、または因子レベルに依存する関数を使用するときに問題が発生します。 新しいデータフレームの要素からレベルを削除する最も簡単な方法は何ですか? 次に例を示します。 df <- data.frame(letters=letters[1:5], numbers=seq(1:5)) levels(df$letters) ## [1] "a" "b" "c" "d" "e" subdf <- subset(df, numbers <= 3) ## letters numbers ## 1 a 1 ## 2 b 2 ## 3 c 3 # all levels are still there! levels(subdf$letters) ## [1] "a" "b" "c" "d" …
543 r  dataframe  r-factor  r-faq 


20
リストをデータフレームに変換する
ネストされたデータのリストがあります。その長さは132で、各項目は長さ20のリストです。この構造を、132行と20列のデータを持つデータフレームにすばやく変換する方法はありますか? 処理するサンプルデータを次に示します。 l <- replicate( 132, list(sample(letters, 20)), simplify = FALSE )
513 r  list  dataframe 

11
非常に大きなテーブルをデータフレームとしてすばやく読み取る
Rのデータフレームとしてロードしたい非常に大きなテーブル(3000万行)があります。 read.table()便利な機能がたくさんありますが、実装には低速化するロジックがたくさんあるようです。私の場合、列のタイプが事前にわかっており、テーブルに列ヘッダーや行名が含まれておらず、心配する必要のある病理学的文字が含まれていないと想定しています。 を使用してリストとしてテーブルを読み取るのはscan()非常に高速である可能性があることを知っています。例: datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))) しかし、これをデータフレームに変換しようとする私の試みの一部は、上記のパフォーマンスを6分の1に低下させるように見えます。 df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))) これを行うより良い方法はありますか?または、問題へのまったく異なるアプローチ?
504 r  import  dataframe  r-faq 

9
Pandas GroupBy出力をSeriesからDataFrameに変換する
私はこのような入力データから始めています df1 = pandas.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , "City" : ["Seattle", "Seattle", "Portland", "Seattle", "Seattle", "Portland"] } ) 印刷すると次のようになります。 City Name 0 Seattle Alice 1 Seattle Bob 2 Portland Mallory 3 Seattle Mallory 4 Seattle Bob 5 Portland Mallory グループ化は非常に簡単です: g1 = df1.groupby( …


21
Pandas DataFrameで値がNaNかどうかを確認する方法
Python Pandasで、DataFrameに1つ(または複数)のNaN値があるかどうかを確認する最良の方法は何ですか? 私は関数について知っていますpd.isnanが、これは各要素に対してブール値のDataFrameを返します。この投稿はここでも私の質問に正確に答えるものではありません。
483 python  pandas  dataframe  nan 

16
空のdata.frameを作成する
行なしでdata.frameを初期化しようとしています。基本的に、各列のデータ型を指定して名前を付けたいのですが、結果として行は作成されません。 私がこれまでにできることは、次のようなものです。 df <- data.frame(Date=as.Date("01/01/2000", format="%m/%d/%Y"), File="", User="", stringsAsFactors=FALSE) df <- df[-1,] これにより、必要なすべてのデータ型と列名を含む単一の行を含むdata.frameが作成されますが、不要な行も作成されるため、削除する必要があります。 これを行うより良い方法はありますか?
480 r  dataframe  r-faq 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.