プログラミング dataframe

13

私はこれを持ってDataFrameおり、EPS列が次のレコードでないレコードのみが必要ですNaN。 >>> df STK_ID EPS cash STK_ID RPT_Date 601166 20111231 601166 NaN NaN 600036 20111231 600036 NaN 12 600016 20111231 600016 4.3 NaN 601009 20111231 601009 NaN NaN 601939 20111231 601939 2.5 NaN 000001 20111231 000001 NaN NaN ...つまりdf.drop(....)、この結果のデータフレームを取得するようなもの： STK_ID EPS cash STK_ID RPT_Date 600016 20111231 600016 4.3 NaN 601939 …

754 python pandas dataframe nan

19

RデータフレームでNA値をゼロに置き換えるにはどうすればよいですか？

データフレームがあり、一部の列にNA値があります。これらのNA値をゼロに置き換えるにはどうすればよいですか？

728 r dataframe na missing-data imputation

7

pandas DataFrameをCSVファイルに書き込む

CSVファイルに書き込みたいパンダのデータフレームがあります。私はこれを使ってこれをやっています： df.to_csv('out.csv') そしてエラーを取得する： UnicodeEncodeError: 'ascii' codec can't encode character u'\u03b1' in position 20: ordinal not in range(128) これを簡単に回避する方法はありますか（つまり、データフレームにUnicode文字があります）？そして、例えば「to-tab」メソッドを使用してCSVの代わりにタブ区切りファイルに書き込む方法はありますか（私は存在しないと思います）？

715 python csv pandas dataframe

8

辞書のリストをpandas DataFrameに変換する

私はこのような辞書のリストを持っています： [{'points': 50, 'time': '5:00', 'year': 2010}, {'points': 25, 'time': '6:00', 'month': "february"}, {'points':90, 'time': '9:00', 'month': 'january'}, {'points_h1':20, 'month': 'june'}] そして、私はこれをDataFrameこのようなパンダに変えたいです： month points points_h1 time year 0 NaN 50 NaN 5:00 2010 1 february 25 NaN 6:00 NaN 2 january 90 NaN 9:00 NaN 3 june NaN 20 NaN …

657 python dictionary pandas dataframe

10

Pandasシリーズ/ DataFrame全体をきれいに印刷する

端末でSeriesとDataFrameをよく使用します。__repr__Series のデフォルトは、いくつかの頭と尾の値を含む減少したサンプルを返しますが、残りは欠落しています。 Series / DataFrame全体をきれいに印刷する組み込みの方法はありますか？理想的には、列間の境界線や、異なる列の色分けなど、適切な配置をサポートします。

654 python pandas dataframe

3

iloc、ix、locの違いは何ですか？

誰かがこれらの3つのスライス方法がどのように異なるか説明できますか？私はドキュメントを見て、これらの答えを見ましたが、それでも私は3つがどのように違うのか説明することができません。私にとっては、スライスのレベルが低いため、それらは大部分が交換可能に見えます。たとえば、の最初の5行を取得するとしDataFrameます。これら3つすべてがどのように機能するのですか？ df.loc[:5] df.ix[:5] df.iloc[:5] 誰かが使用の区別がより明確な3つのケースを提示できますか？

636 python pandas indexing dataframe

15

パンダでSettingWithCopyWarningを処理する方法？

バックグラウンドパンダを0.11から0.13.0rc1にアップグレードしました。現在、アプリケーションは多くの新しい警告を表示しています。それらの1つはこのような： E:\FinReporter\FM_EXT.py:449: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_index,col_indexer] = value instead quote_df['TVol'] = quote_df['TVol']/TVOL_SCALE どういう意味か知りたいのですが？何かを変更する必要がありますか？使用を主張した場合、警告を一時停止する必要がありますquote_df['TVol'] = quote_df['TVol']/TVOL_SCALEか？エラーを出す関数 def _decode_stock_quote(list_of_150_stk_str): """decode the webpage and return dataframe""" from cStringIO import StringIO str_of_all = "".join(list_of_150_stk_str) quote_df …

629 python pandas dataframe chained-assignment

14

サブセット化されたデータフレームのドロップファクターレベル

を含むデータフレームがありfactorます。subsetまたは別のインデックス関数を使用してこのデータフレームのサブセットを作成すると、新しいデータフレームが作成されます。ただし、factor変数が新しいデータフレームに存在しない場合でも、変数は元のレベルをすべて保持します。これにより、ファセットプロットを実行するとき、または因子レベルに依存する関数を使用するときに問題が発生します。新しいデータフレームの要素からレベルを削除する最も簡単な方法は何ですか？次に例を示します。 df <- data.frame(letters=letters[1:5], numbers=seq(1:5)) levels(df$letters) ## [1] "a" "b" "c" "d" "e" subdf <- subset(df, numbers <= 3) ## letters numbers ## 1 a 1 ## 2 b 2 ## 3 c 3 # all levels are still there! levels(subdf$letters) ## [1] "a" "b" "c" "d" …

543 r dataframe r-factor r-faq

12

リストまたはデータフレームの要素にアクセスするためのブラケット[]とダブルブラケット[[]]の違い

Rリストまたはdata.frameの要素にアクセスするための2つの異なる方法を提供する：[]および[[]]。 2つのの違いは何ですか？

521 r list dataframe extract r-faq

20

リストをデータフレームに変換する

ネストされたデータのリストがあります。その長さは132で、各項目は長さ20のリストです。この構造を、132行と20列のデータを持つデータフレームにすばやく変換する方法はありますか？処理するサンプルデータを次に示します。 l <- replicate( 132, list(sample(letters, 20)), simplify = FALSE )

513 r list dataframe

11

非常に大きなテーブルをデータフレームとしてすばやく読み取る

Rのデータフレームとしてロードしたい非常に大きなテーブル（3000万行）があります。 read.table()便利な機能がたくさんありますが、実装には低速化するロジックがたくさんあるようです。私の場合、列のタイプが事前にわかっており、テーブルに列ヘッダーや行名が含まれておらず、心配する必要のある病理学的文字が含まれていないと想定しています。を使用してリストとしてテーブルを読み取るのはscan()非常に高速である可能性があることを知っています。例： datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))) しかし、これをデータフレームに変換しようとする私の試みの一部は、上記のパフォーマンスを6分の1に低下させるように見えます。 df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))) これを行うより良い方法はありますか？または、問題へのまったく異なるアプローチ？

504 r import dataframe r-faq

9

Pandas GroupBy出力をSeriesからDataFrameに変換する

私はこのような入力データから始めています df1 = pandas.DataFrame( { "Name" : ["Alice", "Bob", "Mallory", "Mallory", "Bob" , "Mallory"] , "City" : ["Seattle", "Seattle", "Portland", "Seattle", "Seattle", "Portland"] } ) 印刷すると次のようになります。 City Name 0 Seattle Alice 1 Seattle Bob 2 Portland Mallory 3 Seattle Mallory 4 Seattle Bob 5 Portland Mallory グループ化は非常に簡単です： g1 = df1.groupby( …

496 python pandas dataframe pandas-groupby multi-index

22

pandas / pythonのデータフレームで2列のテキストを組み合わせる

パンダを使用してPythonに20 x 4000のデータフレームがあります。これらの列のうち2つはYearおよびと名付けられていquarterます。私はと呼ばれる変数を作成したいのですがperiod可能ということYear = 2000とquarter= q2にします2000q2。誰かがそれを手伝ってくれる？

487 python pandas numpy dataframe

21

Pandas DataFrameで値がNaNかどうかを確認する方法

Python Pandasで、DataFrameに1つ（または複数）のNaN値があるかどうかを確認する最良の方法は何ですか？私は関数について知っていますpd.isnanが、これは各要素に対してブール値のDataFrameを返します。この投稿はここでも私の質問に正確に答えるものではありません。

483 python pandas dataframe nan

16

空のdata.frameを作成する

行なしでdata.frameを初期化しようとしています。基本的に、各列のデータ型を指定して名前を付けたいのですが、結果として行は作成されません。私がこれまでにできることは、次のようなものです。 df <- data.frame(Date=as.Date("01/01/2000", format="%m/%d/%Y"), File="", User="", stringsAsFactors=FALSE) df <- df[-1,] これにより、必要なすべてのデータ型と列名を含む単一の行を含むdata.frameが作成されますが、不要な行も作成されるため、削除する必要があります。これを行うより良い方法はありますか？

480 r dataframe r-faq

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」