タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。


6
Pandasデータフレーム/ Numpy配列の「軸」定義のあいまいさ
Python軸がどのように定義されているか、そしてそれらがDataFrameの行または列を参照しているかどうかについて私は非常に混乱しています。以下のコードを検討してください。 >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 したがって、を呼び出すとdf.mean(axis=1)、行全体の平均が得られます。 >>> df.mean(axis=1) 0 1 1 2 2 3 …

9
CSVファイルをパンダDataFrameとしてインポートします
CSVファイルをパンダのDataFrameに読み込むPythonの方法は何ですか(統計操作に使用したり、異なるタイプの列を使用したりできます)? 私のCSVファイル"value.txt"には次の内容が含まれています。 Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 Rでは、次を使用してこのファイルを読み取ります。 price <- read.csv("value.txt") そしてそれはRdata.frameを返します: > price <- read.csv("value.txt") > price Date price factor_1 factor_2 1 2012-06-11 1600.20 1.255 1.548 2 2012-06-12 1610.02 1.258 1.554 3 2012-06-13 1618.07 1.249 1.552 4 2012-06-14 1624.40 1.253 1.556 5 2012-06-15 1626.15 1.258 1.552 …
91 python  pandas  csv  dataframe 

6
マルチインデックスパンダから選択
列「A」と「B」を持つ多重指数データフレームがあります。 インデックスを単一列のインデックスにリセットせずに、マルチインデックスの1つの列でフィルタリングして行を選択する方法はありますか? 例えば。 # has multi-index (A,B) df #can I do this? I know this doesn't work because the index is multi-index so I need to specify a tuple df.ix[df.A ==1]

5
ネストされた辞書のアイテムからパンダDataFrameを構築します
構造を持つネストされた辞書 'user_dict'があるとします。 レベル1: UserId(長整数) レベル2:カテゴリ(文字列) レベル3:さまざまな属性(float、intなど) たとえば、この辞書のエントリは次のようになります。 user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": "another"}} の各アイテムuser_dictは同じ構造でありuser_dict、パンダのDataFrameにフィードするアイテムが多数含まれており、属性からシリーズを構築します。この場合、階層インデックスがこの目的に役立ちます。 具体的には、私の質問は、シリーズが辞書の「レベル3」の値から構築されるべきであることをDataFrameコンストラクターが理解するのを助ける方法があるかどうかです。 私が次のようなことを試みた場合: df = pandas.DataFrame(users_summary) 「レベル1」(ユーザーID)の項目は列として取得されます。これは、私が達成したいものとは逆です(ユーザーIDをインデックスとして使用します)。 辞書のエントリを繰り返し処理した後でシリーズを作成できることはわかっていますが、もっと直接的な方法があれば、これは非常に便利です。同様の質問は、ファイルにリストされているjsonオブジェクトからパンダDataFrameを構築できるかどうかを尋ねることです。

5
パンダデータフレームの列を1つ上にシフトしますか?
パンダのデータフレームがあります。列の1つを「遅らせ」たい。つまり、たとえば、列全体 'gdp'を1つ上にシフトし、残りの行の下部にある余分なデータをすべて削除して、すべての列が再び同じ長さになるようにします。 df = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4 7 4 6 7 7 df_lag = y gdp cap 0 1 3 5 1 2 7 9 2 8 4 2 3 3 7 7 とにかくこれを行うには?

13
2つのデータフレームを比較し、違いを取得する
2つのデータフレームがあります。例: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 …

5
データフレーム内のすべての特定の値を置き換えます
データフレームがあるので、すべての行と列に沿ってすべての特定の値を置き換えるにはどうすればよいですか。たとえば、すべての空のレコードを次のように置き換えたいとします。NA(位置を入力せずに) 'ます。 df <- data.frame(list(A=c("", "xyz", "jkl"), B=c(12, "", 100))) A B 1 12 2 xyz 3 jkl 100 期待される結果: A B 1 NA 12 2 xyz NA 3 jkl 100
88 r  dataframe  replace 

1
DataFrameの各セルに関数を適用します
次のようなデータフレームがあります。 A B C foo bar foo bar bar foo foo bar 各行のすべての要素(または各列のすべての要素)を調べて、次の関数を適用して後続のDFを取得したいと思います。 def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar wow bar bar wow wow bar 各セルに機能を適用できるシンプルなワンライナーはありますか? これは単純な例であるため、関数を適用する以外にこの特定の例を実行する簡単な方法があるかもしれませんが、私が本当に求めているのは、データフレーム内のすべてのセルに関数を適用する方法です。


5
名前付き文字ベクトルをdata.frameに変換します
xmlAttrsから次のような名前付き文字ベクトルが返されます。 testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) 次のようなデータフレームに変換したいと思います。 testDF <- data.frame("db_version"="11.2.0.3.0","elapsed_time"=12.89,"cpu_time"=12.71) head(testDF) db_version elapsed_time cpu_time 1 11.2.0.3.0 12.89 12.71

7
グループで最初の行を選択します
このようなデータフレームから test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J 各ID /文字列ペアの最初の行で新しいものを作成したいと思います。sqldfがその中のRコードを受け入れた場合、クエリは次のようになります。 …
87 r  dataframe  sqldf 

3
列の共通値に基づいて、大きなデータフレームをデータフレームのリストに分割します
「ユーザー」のアクションを収集する10列のデータフレームがあり、列の1つにID(一意ではなく、ユーザーを識別する)が含まれています(列10)。データフレームの長さは約750000行です。単一のアクターのアクションを分離するために、「ユーザー」識別子を含む列で分割された個々のデータフレームを抽出しようとしています(データフレームのリストまたはベクトルを取得します)。 ID | Data1 | Data2 | ... | UserID 1 | aaa | bbb | ... | u_001 2 | aab | bb2 | ... | u_001 3 | aac | bb3 | ... | u_001 4 | aad | bb4 | ... | u_002 結果として list( ID | …

2
PandasDataFrameオブジェクトのインデックスを再定義する
私はパンダDataFrameオブジェクトのインデックスを再作成しようとしています。 From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 私は以下に示すようにこれについて行っていますが、間違った答えを得ています。これを行う方法についての手がかりはありますか? >>> col = ['a','b','c'] >>> data = DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col) >>> data a b c 0 1 2 3 1 10 …

7
2つのパンダ列の文字列連結
私は以下を持っていますDataFrame: from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) 次のようになります。 bar foo 0 1 a 1 2 b 2 3 c 今、私は次のようなものが欲しいです: bar 0 1 is a 1 2 is b 2 3 is c どうすればこれを達成できますか?私は以下を試しました: df['foo'] = '%s is %s' % (df['bar'], df['foo']) しかし、それは私に間違った結果を与えます: >>>print df.ix[0] bar …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.