タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。


9
パンダインデックス列のタイトルまたは名前
Python pandasでインデックス列名を取得するにはどうすればよいですか?次にデータフレームの例を示します。 Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 私がやろうとしているのは、データフレームインデックスのタイトルを取得/設定することです。これが私が試したものです: import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index Title"] print df 誰でもこれを行う方法を知っていますか?

15
データフレーム文字列の列を複数の列に分割する
次の形式のデータを取得したい before = data.frame(attr = c(1,30,4,6), type=c('foo_and_bar','foo_and_bar_2')) attr type 1 1 foo_and_bar 2 30 foo_and_bar_2 3 4 foo_and_bar 4 6 foo_and_bar_2 そして、split()上から列 " type" を使用して、次のようなものを取得します。 attr type_1 type_2 1 1 foo bar 2 30 foo bar_2 3 4 foo bar 4 6 foo bar_2 何らかの形でapply機能するという信じられないほど複雑なことを思いつきましたが、それを誤解してしまいました。最善の方法になるには複雑すぎるように見えました。strsplit以下のように使用できますが、それをデータフレームの2列に戻す方法が不明です。 > strsplit(as.character(before$type),'_and_') [[1]] [1] "foo" …
245 r  string  dataframe  split  r-faq 

6
複数の列を参照する私のパンダの「適用」機能が機能しないのはなぜですか?[閉まっている]
閉まっている。この質問は再現性がないか、タイプミスが原因です。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 昨年休業。 この質問を改善する 次のデータフレームで複数の列を使用すると、パンダの適用機能に問題があります df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) そして次の機能 def my_test(a, b): return a % b 私がこの関数を適用しようとすると: df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) エラーメッセージが表示されます。 NameError: ("global name 'a' is not defined", u'occurred at index 0') このメッセージを理解できません。名前を正しく定義しました。 …


12
パンダは他のデータフレームにない行を取得します
いくつかの行が共通する2つのパンダデータフレームがあります。 dataframe2がdataframe1のサブセットであるとします。 dataframe2にないdataframe1の行を取得するにはどうすればよいですか? df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})
229 python  pandas  dataframe 

19
パンダデータフレームの列を正規化する
各列の値の範囲が異なるパンダのデータフレームがあります。例えば: df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09 各データが0と1の間であるこのデータフレームの列をどのように正規化できるか考えていますか? 私の望ましい出力は: A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18(which is 0.09/0.5)



8
行ごとに繰り返しながらパンダのデータフレームを更新する
私はこのようなパンダデータフレームを持っています(かなり大きなものです) date exer exp ifor mat 1092 2014-03-17 American M 528.205 2014-04-19 1093 2014-03-17 American M 528.205 2014-04-19 1094 2014-03-17 American M 528.205 2014-04-19 1095 2014-03-17 American M 528.205 2014-04-19 1096 2014-03-17 American M 528.205 2014-05-17 次に、行ごとに繰り返し処理を行い、各行を進むと、各行の値がifor いくつかの条件に応じて変化する可能性があるため、別のデータフレームを検索する必要があります。 繰り返しながら、これをどのように更新しますか?それらのどれもうまくいかなかったいくつかのことを試しました。 for i, row in df.iterrows(): if <something>: row['ifor'] = x else: …

7
パンダでの結合とマージの違いは何ですか?
次のような2つのデータフレームがあるとします。 left = pd.DataFrame({'key1': ['foo', 'bar'], 'lval': [1, 2]}) right = pd.DataFrame({'key2': ['foo', 'bar'], 'rval': [4, 5]}) それらをマージしたいので、私は次のようなことを試みます: pd.merge(left, right, left_on='key1', right_on='key2') そして私は幸せです key1 lval key2 rval 0 foo 1 foo 4 1 bar 2 bar 5 しかし、私は結合方法を使用しようとしていますが、これはかなり似ていると信じていました。 left.join(right, on=['key1', 'key2']) そして私はこれを手に入れます: //anaconda/lib/python2.7/site-packages/pandas/tools/merge.pyc in _validate_specification(self) 406 if self.right_index: 407 if …
208 python  pandas  dataframe  join 

7
パンダのグループ別と合計
私はこのデータフレームを使用しています。 Fruit Date Name Number Apples 10/6/2016 Bob 7 Apples 10/6/2016 Bob 8 Apples 10/6/2016 Mike 9 Apples 10/7/2016 Steve 10 Apples 10/7/2016 Bob 1 Oranges 10/7/2016 Bob 2 Oranges 10/6/2016 Tom 15 Oranges 10/6/2016 Mike 57 Oranges 10/6/2016 Bob 65 Oranges 10/7/2016 Tony 1 Grapes 10/7/2016 Bob 1 Grapes …

13
Spark Dataframeで列のコンテンツ全体を表示するにはどうすればよいですか?
Spark-csvを使用してデータをDataFrameにロードしています。簡単なクエリを実行してコンテンツを表示したい: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() colは切り捨てられているようです: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 …

20
パンダのデータフレーム文字列エントリを分割(分解)して行を分離する
pandas dataframeテキスト文字列の1つの列にカンマ区切りの値が含まれているがあります。各CSVフィールドを分割し、エントリごとに新しい行を作成します(CSVはクリーンで、 '、'でのみ分割する必要があると想定しています)。たとえば、次のaようになりbます。 In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 これまでにさまざまな簡単な関数を試しましたが、この.applyメソッドを軸で使用すると、戻り値として1行しか受け入れられないようで.transform、作業できません。どんな提案も大歓迎です! データの例: from pandas import DataFrame import numpy as np a …

17
Pandasデータフレームの外れ値を検出して除外する
列が少ないpandasデータフレームがあります。 これで、特定の行が特定の列値に基づく外れ値であることがわかりました。 例えば 列「Vol」にはすべての値が12xxあり、1つの値は4000(外れ値)です。 次にVol、このような列を持つ行を除外します。 したがって、基本的には、特定の列の値が平均から3標準偏差以内にあるすべての行を選択するように、データフレームにフィルターをかける必要があります。 これを達成するためのエレガントな方法は何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.