タグ付けされた質問 「dataframe」

データフレームは表形式のデータ構造です。通常、これには行が観測で列がさまざまなタイプの変数であるデータが含まれます。「データフレーム」または「データフレーム」は、いくつかの言語(R、Apache Spark、deedle、Maple、Pythonのpandasライブラリ、およびJuliaのDataFramesライブラリ)でこの概念に使用される用語ですが、「テーブル」は、 MATLABおよびSQL。

6
iPythonのパンダライブラリを使用して.xlsxファイルを読み取る方法は?
PythonのPandasライブラリを使用して.xlsxファイルを読み取り、そのデータをpostgreSQLテーブルに移植したいと考えています。 私が今までにできることは次のとおりです。 import pandas as pd data = pd.ExcelFile("*File Name*") これで、ステップが正常に実行されたことがわかりましたが、読み込まれたExcelファイルを解析して、Excelのデータが変数データのデータにどのようにマップされるかを理解できるようにしたいと思います。 私が間違っていなければ、データはDataframeオブジェクトであることを学びました。では、このデータフレームオブジェクトを解析して、各行を行ごとに抽出する方法を教えてください。

8
Rデータフレームからの `Inf`値のクリーニング
RではInf、データフレームを変換するときにいくつかの値を作成する操作があります。 これらのInf価値観をNA価値観に変えていきたい。私が持っているコードは大きなデータに対して遅いですが、これを行うより速い方法はありますか? 次のデータフレームがあるとします。 dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) 以下は1つのケースで機能します。 dat[,1][is.infinite(dat[,1])] = NA だから私は次のループでそれを一般化しました cf_DFinf2NA <- function(x) { for (i in 1:ncol(x)){ x[,i][is.infinite(x[,i])] = NA } return(x) } しかし、私はこれが本当にRの力を使用しているとは思いません。
101 r  dataframe  data.table 

2
'DataFrame'オブジェクトには属性 'sort'がありません
私はここでいくつかの問題に直面しています、私のpythonパッケージでnumpyをインストールしましたが、まだこのエラーがあります'DataFrame'オブジェクトには属性 'sort'がありません 誰でも私にいくつかのアイデアを与えることができます。 これは私のコードです: final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

7
Pandas DataFrameで列をシフトする方法
Pandas DataFrameで列をシフトしたいのですが、ドキュメント全体からDF全体を書き換えずにそれを行う方法を見つけることができませんでした。誰でもそれを行う方法を知っていますか?データフレーム: ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 291 望ましい出力: ## x1 x2 ##0 206 nan ##1 226 214 ##2 245 234 ##3 265 253 ##4 283 272 ##5 nan 291
100 python  pandas  dataframe 

1
パンダデータフレームの最初の数行を読み取る方法
行の長さを事前に知らなくても、ファイルのread_csv最初のn行だけを読み取るための組み込みの方法はありますか?読み取るのに長い時間がかかる大きなファイルがあり、たまに最初の20行だけを使用してサンプルを取得したい場合があります(すべてをロードしてその先頭をとらない方がよい)。 行の総数がわかっている場合は、次のようにfooter_lines = total_lines - nしてこれをskipfooterキーワードargに渡すことができます。私の現在の解決策はn、PythonとStringIOで最初の行を手動で取得してパンダに渡すことです。 import pandas as pd from StringIO import StringIO n = 20 with open('big_file.csv', 'r') as f: head = ''.join(f.readlines(n)) df = pd.read_csv(StringIO(head)) それはそれほど悪くはありませんが、キーワードや何かでそれを行うためのより簡潔で「パンダシック」(?)な方法はありますか?
100 python  pandas  csv  dataframe 

9
パンダから複数の列を返しますapply()
私はパンダのDataFrameを持っていますdf_test。バイトでサイズを表す「サイズ」列が含まれています。次のコードを使用して、KB、MB、GBを計算しました。 df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB') df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 2, grouping=True) + ' MB') df_test['size_gb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0 ** 3, grouping=True) …


9
パンダのテーブルの前に名前で列を移動します
これが私のdfです: Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 名前("Mid")で列をテーブルの先頭のインデックス0に移動するにはどうすればよいですか。結果は次のようになります。 Mid Upper Lower Net Zsore Answer …
100 python  pandas  move  dataframe  shift 

2
Python Pandasで列をビニング
数値のデータフレーム列があります。 df['percentage'].head() 46.5 44.2 100.0 42.12 列をビン数として表示したい: bins = [0, 1, 5, 10, 25, 50, 100] どのようにしてビンの結果を得ることができvalue countsますか? [0, 1] bin amount [1, 5] etc [5, 10] etc ......

5
pysparkでDataframe列をString型からDouble型に変更する方法
文字列として列を持つデータフレームがあります。PySparkで列タイプをDoubleタイプに変更したいと思いました。 以下は私がやった方法です: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 知りたいだけですが、これはロジスティック回帰を実行しているときにエラーが発生するので正しい方法ですか?これが問題の原因です。

5
pandasデータフレームでNoneをNaNに置き換えます
私はテーブルを持っていますx: website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None pythonNoneをpandasNaNに置き換えたいです。私は試した: x.replace(to_replace=None, value=np.nan) しかし、私は得ました: TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' どうすればいいですか?

10
値がNoneのPysparkデータフレーム列をフィルター処理する
None行の値を持つPySparkデータフレームをフィルタリングしようとしています: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 文字列値で正しくフィルタリングできます: df[df.dt_mvmt == '2016-03-31'] # some results here しかし、これは失敗します: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 しかし、各カテゴリーには確かに価値があります。どうしたの?

17
各グループで最大値の行を選択する方法
各被験者に複数の観測値があるデータセットで、各レコードの最大データ値のみを含むサブセットを取得したいと思います。たとえば、次のデータセットを使用します。 ID <- c(1,1,1,2,2,2,2,3,3) Value <- c(2,3,5,2,5,8,17,3,5) Event <- c(1,1,2,1,2,1,2,2,2) group <- data.frame(Subject=ID, pt=Value, Event=Event) 被験者1、2、および3は、それぞれ5、17、および5の最大のpt値を持っています。 最初に各被験者の最大のpt値を見つけてから、この観測値を別のデータフレームに配置するにはどうすればよいですか?結果のデータフレームには、各サブジェクトの最大のpt値のみが含まれている必要があります。
98 r  dataframe  r-faq 

3
pythonpandasデータフレーム列がdictキーと値に変換されます
複数の列を持つパンダデータフレームがあり、2つの列からdictを作成したいと思います。1つはdictのキーとして、もう1つはdictの値として使用します。どうやってやるの? データフレーム: area count co tp DE Lake 10 7 Forest 20 5 FR Lake 30 2 Forest 40 3 エリアをキーとして定義し、dictの値としてカウントする必要があります。前もって感謝します。

6
パンダのデータフレームをシリーズに変換する
私はパンダに少し慣れていません。1行23列のパンダデータフレームがあります。 これをシリーズに変換したいですか?これを行うための最もPython的な方法は何ですか? 私は試しましたpd.Series(myResults)が、文句を言いValueError: cannot copy sequence with size 23 to array axis with dimension 1ます。数学的にはまだ「ベクトル」であることに気付くほど賢くはありません。 ありがとう!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.