プログラミング dataframe

6

PythonのPandasライブラリを使用して.xlsxファイルを読み取り、そのデータをpostgreSQLテーブルに移植したいと考えています。私が今までにできることは次のとおりです。 import pandas as pd data = pd.ExcelFile("*File Name*") これで、ステップが正常に実行されたことがわかりましたが、読み込まれたExcelファイルを解析して、Excelのデータが変数データのデータにどのようにマップされるかを理解できるようにしたいと思います。私が間違っていなければ、データはDataframeオブジェクトであることを学びました。では、このデータフレームオブジェクトを解析して、各行を行ごとに抽出する方法を教えてください。

102 python pandas ipython ipython-notebook dataframe

8

Rデータフレームからの `Inf`値のクリーニング

RではInf、データフレームを変換するときにいくつかの値を作成する操作があります。これらのInf価値観をNA価値観に変えていきたい。私が持っているコードは大きなデータに対して遅いですが、これを行うより速い方法はありますか？次のデータフレームがあるとします。 dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) 以下は1つのケースで機能します。 dat[,1][is.infinite(dat[,1])] = NA だから私は次のループでそれを一般化しました cf_DFinf2NA <- function(x) { for (i in 1:ncol(x)){ x[,i][is.infinite(x[,i])] = NA } return(x) } しかし、私はこれが本当にRの力を使用しているとは思いません。

101 r dataframe data.table

2

'DataFrame'オブジェクトには属性 'sort'がありません

私はここでいくつかの問題に直面しています、私のpythonパッケージでnumpyをインストールしましたが、まだこのエラーがあります'DataFrame'オブジェクトには属性 'sort'がありません誰でも私にいくつかのアイデアを与えることができます。これは私のコードです： final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

101 python pandas numpy dataframe

7

Pandas DataFrameで列をシフトする方法

Pandas DataFrameで列をシフトしたいのですが、ドキュメント全体からDF全体を書き換えずにそれを行う方法を見つけることができませんでした。誰でもそれを行う方法を知っていますか？データフレーム： ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 291 望ましい出力： ## x1 x2 ##0 206 nan ##1 226 214 ##2 245 234 ##3 265 253 ##4 283 272 ##5 nan 291

100 python pandas dataframe

1

パンダデータフレームの最初の数行を読み取る方法

行の長さを事前に知らなくても、ファイルのread_csv最初のn行だけを読み取るための組み込みの方法はありますか？読み取るのに長い時間がかかる大きなファイルがあり、たまに最初の20行だけを使用してサンプルを取得したい場合があります（すべてをロードしてその先頭をとらない方がよい）。行の総数がわかっている場合は、次のようにfooter_lines = total_lines - nしてこれをskipfooterキーワードargに渡すことができます。私の現在の解決策はn、PythonとStringIOで最初の行を手動で取得してパンダに渡すことです。 import pandas as pd from StringIO import StringIO n = 20 with open('big_file.csv', 'r') as f: head = ''.join(f.readlines(n)) df = pd.read_csv(StringIO(head)) それはそれほど悪くはありませんが、キーワードや何かでそれを行うためのより簡潔で「パンダシック」（？）な方法はありますか？

100 python pandas csv dataframe

9

パンダから複数の列を返しますapply（）

私はパンダのDataFrameを持っていますdf_test。バイトでサイズを表す「サイズ」列が含まれています。次のコードを使用して、KB、MB、GBを計算しました。 df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB') df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB') df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, grouping=True) …

100 python pandas dataframe apply

2

パンダで最大2つ以上の列を見つける

私は列を持つデータフレームを持っていますA、B。Cすべてのレコード/行に対して次のような列を作成する必要があります。 C = max(A, B)。どうすればこれを行うことができますか？

100 python dataframe pandas

9

パンダのテーブルの前に名前で列を移動します

これが私のdfです： Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 名前（"Mid"）で列をテーブルの先頭のインデックス0に移動するにはどうすればよいですか。結果は次のようになります。 Mid Upper Lower Net Zsore Answer …

100 python pandas move dataframe shift

2

Python Pandasで列をビニング

数値のデータフレーム列があります。 df['percentage'].head() 46.5 44.2 100.0 42.12 列をビン数として表示したい： bins = [0, 1, 5, 10, 25, 50, 100] どのようにしてビンの結果を得ることができvalue countsますか？ [0, 1] bin amount [1, 5] etc [5, 10] etc ......

99 python pandas numpy dataframe binning

5

pysparkでDataframe列をString型からDouble型に変更する方法

文字列として列を持つデータフレームがあります。PySparkで列タイプをDoubleタイプに変更したいと思いました。以下は私がやった方法です： toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 知りたいだけですが、これはロジスティック回帰を実行しているときにエラーが発生するので正しい方法ですか？これが問題の原因です。

99 python apache-spark dataframe pyspark apache-spark-sql

5

pandasデータフレームでNoneをNaNに置き換えます

私はテーブルを持っていますx： website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None pythonNoneをpandasNaNに置き換えたいです。私は試した： x.replace(to_replace=None, value=np.nan) しかし、私は得ました： TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' どうすればいいですか？

99 pandas dataframe replace nan nonetype

10

値がNoneのPysparkデータフレーム列をフィルター処理する

None行の値を持つPySparkデータフレームをフィルタリングしようとしています： df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 文字列値で正しくフィルタリングできます： df[df.dt_mvmt == '2016-03-31'] # some results here しかし、これは失敗します： df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 しかし、各カテゴリーには確かに価値があります。どうしたの？

98 python apache-spark dataframe pyspark apache-spark-sql

17

各グループで最大値の行を選択する方法

各被験者に複数の観測値があるデータセットで、各レコードの最大データ値のみを含むサブセットを取得したいと思います。たとえば、次のデータセットを使用します。 ID <- c(1,1,1,2,2,2,2,3,3) Value <- c(2,3,5,2,5,8,17,3,5) Event <- c(1,1,2,1,2,1,2,2,2) group <- data.frame(Subject=ID, pt=Value, Event=Event) 被験者1、2、および3は、それぞれ5、17、および5の最大のpt値を持っています。最初に各被験者の最大のpt値を見つけてから、この観測値を別のデータフレームに配置するにはどうすればよいですか？結果のデータフレームには、各サブジェクトの最大のpt値のみが含まれている必要があります。

98 r dataframe r-faq

3

pythonpandasデータフレーム列がdictキーと値に変換されます

複数の列を持つパンダデータフレームがあり、2つの列からdictを作成したいと思います。1つはdictのキーとして、もう1つはdictの値として使用します。どうやってやるの？データフレーム： area count co tp DE Lake 10 7 Forest 20 5 FR Lake 30 2 Forest 40 3 エリアをキーとして定義し、dictの値としてカウントする必要があります。前もって感謝します。

98 python pandas dataframe dictionary data-conversion

6

パンダのデータフレームをシリーズに変換する

私はパンダに少し慣れていません。1行23列のパンダデータフレームがあります。これをシリーズに変換したいですか？これを行うための最もPython的な方法は何ですか？私は試しましたpd.Series(myResults)が、文句を言いValueError: cannot copy sequence with size 23 to array axis with dimension 1ます。数学的にはまだ「ベクトル」であることに気付くほど賢くはありません。ありがとう！

97 python pandas dataframe series

タグ付けされた質問 「dataframe」

タグ付けされた質問「dataframe」