プログラミング dataframe

6

大きなcsvファイルを使用していて、最後から2番目の列に、特定の区切り文字で分割するテキストの文字列があります。パンダやパイソンを使ってこれを行う簡単な方法があるかどうか疑問に思っていましたか？ CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 31316 Lennon, John 25 F01 1:13:36:1,12 1:13:37:1,13 300 スペース(' ')で区切っ(':')てからSeatblocks列のコロンで区切りたいのですが、セルごとに異なる列数になります。Seatblocks列がシートの最後になるように列を再配置する機能がありますが、そこから何をするかわかりません。組み込みtext-to-columns関数とクイックマクロを使用してExcelで実行できますが、データセットにExcelで処理するにはレコードが多すぎます。最終的には、John Lennonのようなレコードを取り、複数の行を作成し、座席の各セットからの情報を別々の行に入れたいと思います。

135 python pandas dataframe

8

パンダの一意の値の複数の列

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) 「Col1」と「Col2」の一意の値を返す最良の方法は何ですか？望ましい出力は 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

134 python pandas dataframe unique

4

Pythonパンダ：データフレームを行ごとに埋める

行をpandas.DataFrameオブジェクトに追加するという単純なタスクは、実行するのが難しいようです。これに関連する3つのStackoverflow質問があり、どれも有効な回答を提供しません。これが私がやろうとしていることです。行と列の名前だけでなく形状も知っているDataFrameがあります。 >>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z']) >>> df a b c d x NaN NaN NaN NaN y NaN NaN NaN NaN z NaN NaN NaN NaN これで、行の値を繰り返し計算する関数ができました。行の1つを辞書またはaで埋めるにはどうすればよいpandas.Seriesですか？失敗したさまざまな試みを以下に示します。 >>> y = {'a':1, 'b':5, 'c':2, 'd':3} >>> df['y'] = y AssertionError: Length of values does not match length of index …

133 python dataframe row pandas

5

Pandas DataFrame：条件に基づいて、列のすべての値を置き換えます

次のような単純なDataFrameがあります。「First Season」列からすべての値を選択して、1990年を超える値を1に置き換えます。この例では、Baltimore Ravensのみが1996を1に置き換えます（残りのデータはそのままにします）。私は以下を使用しました： df.loc[(df['First Season'] > 1990)] = 1 ただし、「First Season」列の値だけでなく、その行のすべての値が1に置き換えられます。その列の値だけを置き換えるにはどうすればよいですか？

132 python pandas dataframe

2

グループごとにdata.tableで：=を使用して複数の列を割り当てる

を使用して複数の列に割り当てる最良の方法は何data.tableですか？例えば： f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) 私はこのようなことをしたいと思います（もちろんこの構文は間違っています）： x[ , (col1, col2) := f(), by = "id"] そして、それを拡張するために、変数に名前が格納された列がたくさんある可能性があるので（たとえばcol_names）、次のようにしたいと思います。 x[ , col_names := another_f(), by = "id", with = FALSE] このようなことをする正しい方法は何ですか？

130 r dataframe data.table variable-assignment colon-equals

8

NAの特定の列を含む行を省略

NAデータフレームの値を省略する方法を知りたいのですが、関心があるのは一部の列だけです。例えば、 DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) しかし、私はデータのみを省略したいyされNA、したがって、結果はでなければなりませんが x y z 1 1 0 NA 2 2 10 33 na.omitすべてを含む行を削除しているようNAです。誰かがこの簡単な質問から私を助けることができますか？しかし、今私が質問を次のように変更した場合： DF <- data.frame(x = c(1, 2, 3,NA), y = c(1,0, 10, NA), z=c(43,NA, 33, NA)) x=naor だけを省略したい場合z=naは、|in関数をどこに配置できますか？

129 r dataframe na

5

R-2つのデータフレームを連結しますか？

2つのデータフレームaとb： > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 以下の形式の新しいデータフレームを返すようにこれらを連結する簡単な方法はありますか？ > new a b …

129 r dataframe concatenation

9

列の文字列から不要な部分を削除する

DataFrame列の文字列から不要な部分を削除する効率的な方法を探しています。データは次のようになります。 time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a これらのデータを次のようにトリミングする必要があります。 time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 5 13:00 110 試してみました.str.lstrip('+-')。str.rstrip('aAbBcC')、しかしエラーが発生しました： TypeError: wrapper() takes exactly 1 argument (2 given) どんなポインタでも大歓迎です！

129 python string pandas dataframe

10

Rのデータフレームに行を追加するにはどうすればよいですか？

Rでは、データフレームが既に初期化されている場合、どのように新しい行をデータフレームに追加しますか？これまでのところ私はこれを持っています： df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to the same row as new columns # Unfortunately, I couldn't find an rbind() solution that wouldn't give me an …

129 r dataframe

4

パンダのデータフレームのリストを連結します

1つのPandasデータフレームに結合したいPandasデータフレームのリストがあります。Python 2.7.10とPandas 0.16.2を使用しています私はからデータフレームのリストを作成しました： import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) これはデータフレームのリストを返します type(dfs[0]) Out[6]: pandas.core.frame.DataFrame type(dfs) Out[7]: list len(dfs) Out[8]: 408 ここにいくつかのサンプルデータがあります # sample dataframes d1 = pd.DataFrame({'one' : [1., 2., 3., 4.], 'two' : [4., …

129 python pandas dataframe concat

5

DataFrameのパーティションを定義するにはどうすればよいですか？

Spark 1.4.0でSpark SQLとDataFramesを使い始めました。ScalaのDataFrameでカスタムパーティショナーを定義したいのですが、その方法がわかりません。私が使用しているデータテーブルの1つには、次の例のsilimarのトランザクションのリストがアカウントごとに含まれています。 Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 Purchase 70.00 1001 2014-04-01 Payment -150.00 1002 2014-04-01 Purchase 80.00 1002 2014-04-02 Purchase 22.00 1002 2014-04-04 Payment -120.00 1002 2014-04-04 Purchase 60.00 1003 2014-04-02 Purchase 210.00 1003 2014-04-03 Purchase 15.00 少なくとも最初は、ほとんどの計算はアカウント内のトランザクション間で行われます。したがって、アカウントのすべてのトランザクションが同じSparkパーティションにあるように、データをパーティション化したいと思います。しかし、私はこれを定義する方法を見ていません。DataFrameクラスには …

128 scala apache-spark dataframe apache-spark-sql partitioning

9

（PySparkを使用して）Spark DataFrameに新しい列を追加するにはどうすればよいですか？

Spark DataFrame（PySpark 1.5.1を使用）があり、新しい列を追加したいと思います。私は成功せずに次のことを試しました： type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) これを使用してもエラーが発生しました： my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) では、PySparkを使用して既存のDataFrameに新しい列（Pythonベクターに基づく）を追加するにはどうすればよいですか？

128 python apache-spark dataframe pyspark apache-spark-sql

6

データフレームから多くの変数を含む数式を簡潔に記述する方法は？

（おもちゃの例として）応答変数と3つの共変量を含むデータがあるとします。 y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) 線形回帰をデータに適合させたい： fit = lm(y ~ d$x1 + d$x2 + d$y2) 個々の共変量を書き出す必要がないように、式を書く方法はありますか？たとえば、次のようなもの fit = lm(y ~ d) （データフレームの各変数を共変量にする必要があります。）実際にデータフレームに50個の変数があるので、書き込みを避けたいと思っていx1 + x2 + x3 + etcます。

127 r dataframe glm lm

3

pandas GroupBy.agg（）を使用した同じ列の複数の集計

複数回呼び出す必要なしf1, f2に、2つの異なる集計関数を同じ列に適用するpandas組み込みの方法はありますか？df["returns"]agg() データフレームの例： import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), "dummy" : np.repeat(1, 10) }) 構文的には間違っていますが、直感的には正しい方法は次のとおりです。 # Assume `f1` and `f2` are defined for aggregating. df.groupby("dummy").agg({"returns": f1, "returns": f2}) もちろん、Pythonでは重複するキーは許可されていません。への入力を表現する他の方法はありますagg()か？おそらく、タプルのリストは[(column, …

127 python pandas dataframe aggregate pandas-groupby

5

欠落している日付をパンダデータフレームに追加する

私のデータには、特定の日付に複数のイベントがあるか、日付にイベントがありません。私はこれらのイベントを受け取り、日付ごとにカウントを取得してプロットします。しかし、それらをプロットすると、2つのシリーズが常に一致するとは限りません。 idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() 上記のコードでは、idxはたとえば30日付の範囲になります。2013 年9月1日から2013 年9月30日までただし、特定の日付にイベントが発生しなかったため、Sは25日または26日しかありません。次に、プロットしようとするとサイズが一致しないため、AssertionErrorが発生します。 fig, ax = plt.subplots() ax.bar(idx.to_pydatetime(), s, color='green') これに取り組む適切な方法は何ですか？IDXから値のない日付を削除しますか、それとも（そうしたいのですが）、0のカウントで欠落している日付をシリーズに追加しますか？値が0の30日間の完全なグラフが必要です。このアプローチが正しい場合、開始方法に関する提案はありますか？何らかの動的reindex機能が必要ですか？これがS（df.groupby(['simpleDate']).size() ）のスニペットです。04と05のエントリがないことに注意してください。 09-02-2013 2 09-03-2013 10 09-06-2013 5 09-07-2013 1

126 python date plot pandas dataframe

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」