プログラミング dataframe

3

Python：パンダデータフレームの2つの列（変数）に基づいて頻度カウントを取得する

こんにちは私は次のデータフレームを持っています。 Group Size Short Small Short Small Moderate Medium Moderate Small Tall Large 同じ行がデータフレームに表示される頻度をカウントしたいと思います。 Group Size Time Short Small 2 Moderate Medium 1 Moderate Small 1 Tall Large 1

92 python pandas group-by dataframe

6

Pandasデータフレーム/ Numpy配列の「軸」定義のあいまいさ

Python軸がどのように定義されているか、そしてそれらがDataFrameの行または列を参照しているかどうかについて私は非常に混乱しています。以下のコードを検討してください。 >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 したがって、を呼び出すとdf.mean(axis=1)、行全体の平均が得られます。 >>> df.mean(axis=1) 0 1 1 2 2 3 …

91 python arrays pandas numpy dataframe

9

CSVファイルをパンダDataFrameとしてインポートします

CSVファイルをパンダのDataFrameに読み込むPythonの方法は何ですか（統計操作に使用したり、異なるタイプの列を使用したりできます）？私のCSVファイル"value.txt"には次の内容が含まれています。 Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 Rでは、次を使用してこのファイルを読み取ります。 price <- read.csv("value.txt") そしてそれはRdata.frameを返します： > price <- read.csv("value.txt") > price Date price factor_1 factor_2 1 2012-06-11 1600.20 1.255 1.548 2 2012-06-12 1610.02 1.258 1.554 3 2012-06-13 1618.07 1.249 1.552 4 2012-06-14 1624.40 1.253 1.556 5 2012-06-15 1626.15 1.258 1.552 …

91 python pandas csv dataframe

6

マルチインデックスパンダから選択

列「A」と「B」を持つ多重指数データフレームがあります。インデックスを単一列のインデックスにリセットせずに、マルチインデックスの1つの列でフィルタリングして行を選択する方法はありますか？例えば。 # has multi-index (A,B) df #can I do this? I know this doesn't work because the index is multi-index so I need to specify a tuple df.ix[df.A ==1]

91 python pandas dataframe multi-index

5

ネストされた辞書のアイテムからパンダDataFrameを構築します

構造を持つネストされた辞書 'user_dict'があるとします。レベル1： UserId（長整数）レベル2：カテゴリ（文字列）レベル3：さまざまな属性（float、intなど）たとえば、この辞書のエントリは次のようになります。 user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": "another"}} の各アイテムuser_dictは同じ構造でありuser_dict、パンダのDataFrameにフィードするアイテムが多数含まれており、属性からシリーズを構築します。この場合、階層インデックスがこの目的に役立ちます。具体的には、私の質問は、シリーズが辞書の「レベル3」の値から構築されるべきであることをDataFrameコンストラクターが理解するのを助ける方法があるかどうかです。私が次のようなことを試みた場合： df = pandas.DataFrame(users_summary) 「レベル1」（ユーザーID）の項目は列として取得されます。これは、私が達成したいものとは逆です（ユーザーIDをインデックスとして使用します）。辞書のエントリを繰り返し処理した後でシリーズを作成できることはわかっていますが、もっと直接的な方法があれば、これは非常に便利です。同様の質問は、ファイルにリストされているjsonオブジェクトからパンダDataFrameを構築できるかどうかを尋ねることです。

90 python pandas dataframe multi-index

5

パンダデータフレームの列を1つ上にシフトしますか？

パンダのデータフレームがあります。列の1つを「遅らせ」たい。つまり、たとえば、列全体 'gdp'を1つ上にシフトし、残りの行の下部にある余分なデータをすべて削除して、すべての列が再び同じ長さになるようにします。 df = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4 7 4 6 7 7 df_lag = y gdp cap 0 1 3 5 1 2 7 9 2 8 4 2 3 3 7 7 とにかくこれを行うには？

90 python pandas dataframe

13

2つのデータフレームを比較し、違いを取得する

2つのデータフレームがあります。例： df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange 8.6 …

89 python pandas dataframe

5

データフレーム内のすべての特定の値を置き換えます

データフレームがあるので、すべての行と列に沿ってすべての特定の値を置き換えるにはどうすればよいですか。たとえば、すべての空のレコードを次のように置き換えたいとします。NA（位置を入力せずに） 'ます。 df <- data.frame(list(A=c("", "xyz", "jkl"), B=c(12, "", 100))) A B 1 12 2 xyz 3 jkl 100 期待される結果： A B 1 NA 12 2 xyz NA 3 jkl 100

88 r dataframe replace

1

DataFrameの各セルに関数を適用します

次のようなデータフレームがあります。 A B C foo bar foo bar bar foo foo bar 各行のすべての要素（または各列のすべての要素）を調べて、次の関数を適用して後続のDFを取得したいと思います。 def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar wow bar bar wow wow bar 各セルに機能を適用できるシンプルなワンライナーはありますか？これは単純な例であるため、関数を適用する以外にこの特定の例を実行する簡単な方法があるかもしれませんが、私が本当に求めているのは、データフレーム内のすべてのセルに関数を適用する方法です。

88 python pandas dataframe apply

17

data.frameの2つの列の間に列を追加（挿入）します

列a、b、およびcを持つデータフレームがあります。bとcの間に新しい列dを追加したいと思います。 cbindを使用して最後にdを追加できることはわかっていますが、2つの列の間に挿入するにはどうすればよいですか？

87 r dataframe insert

5

名前付き文字ベクトルをdata.frameに変換します

xmlAttrsから次のような名前付き文字ベクトルが返されます。 testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) 次のようなデータフレームに変換したいと思います。 testDF <- data.frame("db_version"="11.2.0.3.0","elapsed_time"=12.89,"cpu_time"=12.71) head(testDF) db_version elapsed_time cpu_time 1 11.2.0.3.0 12.89 12.71

87 r dataframe vector type-conversion

7

グループで最初の行を選択します

このようなデータフレームから test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J 各ID /文字列ペアの最初の行で新しいものを作成したいと思います。sqldfがその中のRコードを受け入れた場合、クエリは次のようになります。 …

87 r dataframe sqldf

3

列の共通値に基づいて、大きなデータフレームをデータフレームのリストに分割します

「ユーザー」のアクションを収集する10列のデータフレームがあり、列の1つにID（一意ではなく、ユーザーを識別する）が含まれています（列10）。データフレームの長さは約750000行です。単一のアクターのアクションを分離するために、「ユーザー」識別子を含む列で分割された個々のデータフレームを抽出しようとしています（データフレームのリストまたはベクトルを取得します）。 ID | Data1 | Data2 | ... | UserID 1 | aaa | bbb | ... | u_001 2 | aab | bb2 | ... | u_001 3 | aac | bb3 | ... | u_001 4 | aad | bb4 | ... | u_002 結果として list( ID | …

86 r performance matrix split dataframe

2

PandasDataFrameオブジェクトのインデックスを再定義する

私はパンダDataFrameオブジェクトのインデックスを再作成しようとしています。 From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 私は以下に示すようにこれについて行っていますが、間違った答えを得ています。これを行う方法についての手がかりはありますか？ >>> col = ['a','b','c'] >>> data = DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col) >>> data a b c 0 1 2 3 1 10 …

84 python pandas dataframe

7

2つのパンダ列の文字列連結

私は以下を持っていますDataFrame： from pandas import * df = DataFrame({'foo':['a','b','c'], 'bar':[1, 2, 3]}) 次のようになります。 bar foo 0 1 a 1 2 b 2 3 c 今、私は次のようなものが欲しいです： bar 0 1 is a 1 2 is b 2 3 is c どうすればこれを達成できますか？私は以下を試しました： df['foo'] = '%s is %s' % (df['bar'], df['foo']) しかし、それは私に間違った結果を与えます： >>>print df.ix[0] bar …

84 python string pandas numpy dataframe

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」