タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。

20
インデックスを使用して、pandas DataFrameの特定のセルに値を設定します
Pandas DataFrameを作成しました df = DataFrame(index=['A','B','C'], columns=['x','y']) そしてこれを手に入れました xy NaN NaN B NaN NaN C NaN NaN 次に、特定のセル、たとえば行「C」と列「x」に値を割り当てたいと思います。私はそのような結果を得ることを期待していました: xy NaN NaN B NaN NaN C 10 NaN このコードで: df.xs('C')['x'] = 10 の内容はdf変更されていません。これもNaNDataFrameにのみ存在します。 助言がありますか?
478 python  pandas  dataframe 

10
パンダのマップ、applymap、applyメソッドの違い
基本的な例でこれらのベクトル化方法をいつ使用するか教えてもらえますか? 私は見mapているSeries残りの部分であるのに対し、法DataFrame方法。applyとapplymap方法について混乱しました。関数をDataFrameに適用する方法が2つあるのはなぜですか?繰り返しになりますが、使用法を説明する簡単な例はすばらしいでしょう。

15
パンダデータフレームをNumPy配列に変換
パンダのデータフレームをNumPy配列に変換する方法を知りたいです。 データフレーム: import numpy as np import pandas as pd index = [1, 2, 3, 4, 5, 6, 7] a = [np.nan, np.nan, np.nan, 0.1, 0.1, 0.1, 0.1] b = [0.2, np.nan, 0.2, 0.2, 0.2, np.nan, np.nan] c = [np.nan, 0.5, 0.5, np.nan, 0.5, 0.5, np.nan] df = pd.DataFrame({'A': a, …

5
空のPandas DataFrameを作成して、それを埋めますか?
私はここでpandas DataFrameドキュメントから始めています:http ://pandas.pydata.org/pandas-docs/stable/dsintro.html DataFrameに、時系列の計算の値を繰り返し入力します。したがって、基本的には、DataFrameを列A、B、およびタイムスタンプ行ですべて0またはすべてNaNで初期化したいと思います。 次に、初期値を追加し、このデータを調べて、前の行から新しい行を計算します。 row[A][t] = row[A][t-1]+1ます。 私は現在以下のコードを使用していますが、それはちょっと見苦しい感じがします。DataFrameを使用してこれを直接実行する方法、または一般的にはより良い方法が必要です。注:Python 2.7を使用しています。 import datetime as dt import pandas as pd import scipy as s if __name__ == '__main__': base = dt.datetime.today().date() dates = [ base - dt.timedelta(days=x) for x in range(0,10) ] dates.sort() valdict = {} symbols = ['A','B', 'C'] for symb …
461 python  dataframe  pandas 

24
Pandas DataFrameの列のNaN値をカウントする方法
私はの数を見つけたいデータを持っているNaNので、あるしきい値よりも小さい場合は、この列を削除します。私は見ましたが、このための機能を見つけることができませんでした。はありますがvalue_counts、ほとんどの値は別個であり、カウントNaNのみを必要とするため、私には時間がかかります。
461 python  pandas  dataframe 

12
パンダデータフレームの列ですべてのNaN値をゼロに置き換えるにはどうすればよいですか
以下のようなデータフレームがあります itm Date Amount 67 420 2012-09-30 00:00:00 65211 68 421 2012-09-09 00:00:00 29424 69 421 2012-09-16 00:00:00 29877 70 421 2012-09-23 00:00:00 30990 71 421 2012-09-30 00:00:00 61303 72 485 2012-09-09 00:00:00 71781 73 485 2012-09-16 00:00:00 NaN 74 485 2012-09-23 00:00:00 11072 75 485 2012-09-30 00:00:00 113702 76 …
457 python  pandas  dataframe 


11
pandas DataFrameから部分文字列で選択
私にはDataFrame4つの列があり、そのうち2つには文字列値が含まれています。特定の列に対する部分的な文字列の一致に基づいて行を選択する方法があるかどうか疑問に思いましたか? 言い換えると、次のような関数またはラムダ関数 re.search(pattern, cell_in_question) ブール値を返します。私はの構文に精通していますがdf[df['A'] == "hello world"]、部分的な文字列一致sayで同じことを行う方法を見つけることができないようです'hello'。 誰かが私を正しい方向に向けることができるでしょうか?

7
パンダGroupByを使用して各グループ(カウント、平均など)の統計を取得しますか?
データフレームがdfあり、そこからいくつかの列を使用してgroupby: df['col1','col2','col3','col4'].groupby(['col1','col2']).mean() 上記の方法で、必要なテーブル(データフレーム)をほぼ取得します。欠けているのは、各グループの行数を含む追加の列です。言い換えれば、私には意地悪がありますが、これらの手段を得るために使用された数の数も知りたいのです。たとえば、最初のグループには8つの値があり、2番目のグループには10というように続きます。 つまり、データフレームのグループごとの統計情報を取得するにはどうすればよいですか?

9
DataFrame行をシャッフルする
次のDataFrameがあります。 Col1 Col2 Col3 Type 0 1 2 3 1 1 4 5 6 1 ... 20 7 8 9 2 21 10 11 12 2 ... 45 13 14 15 3 46 16 17 18 3 ... DataFrameはcsvファイルから読み取られます。Type1を含むすべての行が一番上にあり、Type2 の行が続き、Type3 の行が続きます。 すべてTypeのが混在するように、DataFrameの行の順序を入れ替えたいのですが。考えられる結果は次のとおりです。 Col1 Col2 Col3 Type 0 7 8 9 …

7
SQLのように「in」と「not in」を使用してPandasデータフレームをフィルタリングする方法
SQL INと同等のものをどのようにして実現できますNOT INか? 必要な値のリストがあります。ここにシナリオがあります: df = pd.DataFrame({'countries':['US','UK','Germany','China']}) countries = ['UK','China'] # pseudo-code: df[df['countries'] not in countries] これを行う私の現在の方法は次のとおりです。 df = pd.DataFrame({'countries':['US','UK','Germany','China']}) countries = pd.DataFrame({'countries':['UK','China'], 'matched':True}) # IN df.merge(countries,how='inner',on='countries') # NOT IN not_in = df.merge(countries,how='left',on='countries') not_in = not_in[pd.isnull(not_in['matched'])] しかし、これは恐ろしいクラッジのようです。誰かがそれを改善できますか?

18
Pythonを使用してパンダでCSVファイルを読み取るときのUnicodeDecodeError
30,000の同様のファイルを処理するプログラムを実行しています。それらのランダムな数が停止し、このエラーが発生しています... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read ret = self._engine.read(nrows) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read data = self._reader.read(nrows) File "parser.pyx", line 706, …

15
複数のcsvファイルをパンダにインポートし、1つのDataFrameに連結する
ディレクトリからパンダにいくつかのcsvファイルを読み取り、それらを1つの大きなDataFrameに連結したいと思います。私はそれを理解することができませんでした。ここに私がこれまでに持っているものがあります: import glob import pandas as pd # get data file names path =r'C:\DRO\DCL_rawdata_files' filenames = glob.glob(path + "/*.csv") dfs = [] for filename in filenames: dfs.append(pd.read_csv(filename)) # Concatenate all data into one DataFrame big_frame = pd.concat(dfs, ignore_index=True) forループ内で助けが必要だと思いますか???

16
データフレームの列名の変更
「newprice」(以下を参照)というデータフレームがあり、Rのプログラムで列名を変更したい。 > newprice Chang. Chang. Chang. 1 100 36 136 2 120 -33 87 3 150 14 164 実際、これは何をしているのですか? names(newprice)[1]<-paste("premium") names(newprice)[2]<-paste("change") names(newprice)[3]<-paste("newprice") ご覧のとおり、各列の名前を変えたいので、これをループに入れていません。 プログラムをRコンソールに貼り付けると、次のような出力が得られます。 > names(newprice)[1]<-paste(“premium”) Error: unexpected input in "names(newprice)[1]<-paste(“" > names(newprice)[2]<-paste(“change”) Error: unexpected input in "names(newprice)[2]<-paste(“" > names(newprice)[3]<-paste(“newpremium”) Error: unexpected input in "names(newprice)[3]<-paste(“" c()関数のc("premium")代わりに関数を使用することも同様に試しましpaste()たが、役に立ちませんでした。 誰かがこれを理解するのを手伝ってくれませんか?
399 r  dataframe  rename 

6
整数インデックスによるパンダシリーズ/データフレームの行の選択
なぜか知りたい df[2]、しばらくはサポートされていないdf.ix[2]とdf[2:3]仕事の両方を。 In [26]: df.ix[2] Out[26]: A 1.027680 B 1.514210 C -1.466963 D -0.162339 Name: 2000-01-03 00:00:00 In [27]: df[2:3] Out[27]: A B C D 2000-01-03 1.02768 1.51421 -1.466963 -0.162339 私はdf[2]同じように働くと期待しますdf[2:3]、Pythonのインデックス付け規則に準拠するのとています。単一の整数による行のインデックス付けをサポートしない設計上の理由はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.