タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。

11
列を2つの列に分割する方法は?
私は1つの列を有するデータフレームを持っていると私は1つの列'としてヘッダと2つの列に分割したいfips'と他の'row' 私のデータフレームdfは次のようになります: row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL df.row.str[:]行セルを分割するという私の目標を達成するために使用する方法がわかりません。を使用df['fips'] = helloして新しい列を追加し、それをで埋めることができhelloます。何か案は? fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour …
196 python  dataframe  pandas 

7
パンダのプロットにxとyのラベルを追加する
パンダを使用して非常に単純なものをプロットする次のコードがあるとします。 import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') 特定のカラーマップを使用する機能を維持しながら、xラベルとyラベルを簡単に設定するにはどうすればよいですか?plot()pandas DataFrames のラッパーは、それに固有のパラメーターを取りません。

4
Python pandas文字列の列のデータ選択からナンをフィルタリングする
使用groupbyせずにデータを除外するにはどうすればよいNaNですか? 顧客が「N / A」、「n / a」またはそのバリエーションのいずれかを入力し、他のユーザーはそれを空白のままにするマトリックスがあるとします。 import pandas as pd import numpy as np df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'], 'rating': [3., 4., 5., np.nan, np.nan, np.nan], 'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]}) nbs = df['name'].str.extract('^(N/A|NA|na|n/a)') nms=df[(df['name'] != nbs) ] 出力: >>> nms movie name rating …
190 python  pandas  dataframe 

4
定数値でデータフレームに列を追加する
すべての行に同じ値が含まれる列を追加する必要がある既存のデータフレームがあります。 既存のdf: Date, Open, High, Low, Close 01-01-2015, 565, 600, 400, 450 新しいdf: Name, Date, Open, High, Low, Close abc, 01-01-2015, 565, 600, 400, 450 既存のシリーズ/データフレーム列を追加する方法を知っています。ただし、これは別の状況です。必要なのは、「名前」列を追加し、すべての行を同じ値(この場合は「abc」)に設定することだけです。
187 python  pandas  dataframe 

8
データフレームのリストを作成するにはどうすればよいですか?
データフレームのリストを作成する方法と、リストからそれらの各データフレームにアクセスする方法を教えてください。 たとえば、これらのデータフレームをリストに配置するにはどうすればよいですか? d1 <- data.frame(y1 = c(1, 2, 3), y2 = c(4, 5, 6)) d2 <- data.frame(y1 = c(3, 2, 1), y2 = c(6, 5, 4))
186 r  list  dataframe  r-faq 



3
パンダのDataFrameの最後のN行を取得するにはどうすればよいですか?
私はパンダのデータフレーム持っているdf1とdf2(DF1はバニラのデータフレーム、DF2が「STK_ID」&「RPT_Date」でインデックス化されているが)。 >>> df1 STK_ID RPT_Date TClose sales discount 0 000568 20060331 3.69 5.975 NaN 1 000568 20060630 9.14 10.143 NaN 2 000568 20060930 9.49 13.854 NaN 3 000568 20061231 15.84 19.262 NaN 4 000568 20070331 17.00 6.803 NaN 5 000568 20070630 26.31 12.940 NaN 6 000568 20070930 39.12 19.977 NaN …
175 python  pandas  dataframe 

3
「OR」を使用してデータフレームをサブセット化するために複数の条件を組み合わせる方法は?
Rにdata.frameがあります。2つの異なる列で2つの異なる条件を試したいのですが、これらの条件を包括的にしたいのです。したがって、条件を組み合わせるために「OR」を使用したいと思います。「AND」条件を使用したいときに、以前は次の構文を使用して多くの成功を収めています。 my.data.frame <- data[(data$V1 > 2) & (data$V2 < 4), ] しかし、上記で「OR」を使用する方法がわかりません。
174 r  conditional  dataframe 

8
Rデータフレームの各行
データフレームがあり、そのデータフレームの各行について、いくつかの複雑なルックアップを実行し、データをファイルに追加する必要があります。 dataFrameには、生物学的研究で使用される96ウェルプレートから選択したウェルの科学的結果が含まれているので、次のようなことをしたいと思います。 for (well in dataFrame) { wellName <- well$name # string like "H1" plateName <- well$plate # string like "plate67" wellID <- getWellID(wellName, plateName) cat(paste(wellID, well$value1, well$value2, sep=","), file=outputFile) } 私の手続きの世界では、私は次のようなことをします: for (row in dataFrame) { #look up stuff using data from the row #write stuff to the file …
173 r  dataframe  rows 

8
インデックスなしでパンダデータフレームを印刷する方法
データフレーム全体を印刷したいが、インデックスを印刷したくない さらに、1つの列は日時タイプです。日付ではなく、時間を出力したいだけです。 データフレームは次のようになります。 User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 印刷したい User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

12
各行からの複数の引数を使用して、データフレームの各行でapply-like関数を呼び出します
複数の列を持つデータフレームがあります。データフレームの各行について、その行で関数を呼び出したいのですが、関数の入力はその行の複数の列を使用しています。たとえば、このデータと、2つの引数を受け入れるこのtestFuncがあるとします。 > df <- data.frame(x=c(1,2), y=c(3,4), z=c(5,6)) > df x y z 1 1 3 5 2 2 4 6 > testFunc <- function(a, b) a + b このtestFuncを列xおよびzに適用するとします。したがって、行1には1 + 5、行2には2 + 6が必要です。forループを記述せずにこれを行う方法はありますか。 私はこれを試しました: > df[,c('x','z')] x z 1 1 5 2 2 6 > lapply(df[,c('x','z')], testFunc) Error in a …
168 r  dataframe 

7
Pandas DataFrameを辞書に変換する
4列のデータフレームがあります。このDataFrameをPython辞書に変換したいと思います。最初の列keysの要素を同じ行の他の列の要素にする必要がありますvalues。 データフレーム: ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 出力は次のようになります。 辞書: {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

7
同じワークブックの複数のワークシートでPandasを使用してpd.read_excel()を実行する
python pandasを使用して処理している大きなスプレッドシートファイル(.xlsx)があります。その大きなファイルの2つのタブのデータが必要になることがあります。タブの1つには大量のデータがあり、もう1つは数個の正方形のセルです。 私が使用している場合pd.read_excelを()上の任意のワークシートファイル全体がロードされるように、それは(私が興味のワークシートだけではなく)私には見えます。したがって、メソッドを2回(シートごとに1回)使用すると、ワークブック全体が2回読み込まれることになります(指定したシートのみを使用している場合でも)。 私はそれを間違って使用していますか、それともこのように制限されていますか? ありがとうございました!

6
Pandas DataFrame Groupby 2列でカウントを取得
次の形式のパンダデータフレームがあります。 df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] df: col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 x/u 2 …
166 python  pandas  dataframe 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.