タグ付けされた質問 「pandas」

パンダは、パネルデータの操作と分析のためのpythonライブラリです。たとえば、統計、実験科学の結果、計量経済学、または金融で一般的に見られる多次元時系列や断面データセットです。

1
パンダのisna()とisnull()の違い
私はかなり長い間、パンダを使用しています。しかし、パンダisna()とisnull()パンダの違いはわかりません。さらに重要なことは、データフレーム内の欠損値を識別するためにどれを使用するかです。 値がnaまたはとして検出される方法の基本的な違いは何nullですか?

11
なぜ人々はSQLよりもパンダを好むのですか?
1996年からSQLを使用しているので、偏見があるかもしれません。MySQLとSQLite 3を広範囲に使用しましたが、Microsoft SQL ServerとOracleも使用しました。 Pandasで行った操作の大部分は、SQLで簡単に実行できます。これには、データセットのフィルタリング、表示する特定の列の選択、値への関数の適用などが含まれます。 SQLには、オプティマイザーとデータ永続性があるという利点があります。SQLには、明確で理解可能なエラーメッセージもあります。パンダは、時にはそれが単一使用するのに適切なのですここでやや不可解なAPI、持っている[ stuff ]あなたが必要とする、他の回[[ stuff ]]、そして時にはあなたが必要です.loc。パンダの複雑さの一部は、非常に多くの過負荷が進行しているという事実から生じています。 だから、私はパンダがとても人気がある理由を理解しようとしています。
69 pandas  sql 

7
ValueError:入力にNaN、無限大、またはdtype( 'float32')には大きすぎる値が含まれています
RandomForestモデルを使用してテストデータを予測すると、ValueErrorが発生しました。 私のコード: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) エラー: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). テストデータセットで不適切な値を見つけるにはどうすればよいですか?また、これらのレコードを削除したくないのですが、平均値または中央値に置き換えることはできますか? ありがとう。

3
パンダとの相関行列の計算と可視化
いくつかのエントリを持つパンダデータフレームがあり、あるタイプの店舗の収入間の相関関係を計算したいと思います。収入データ、活動エリアの分類(劇場、衣料品店、食品など)およびその他のデータを備えた店舗が多数あります。 新しいデータフレームを作成し、同じカテゴリに属する​​すべての種類の店舗の収入を含む列を挿入しようとしましたが、返されるデータフレームには最初の列のみが入力され、残りはNaNでいっぱいです。私が疲れたコード: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] そうしたいので、.corr()店舗のカテゴリ間の相関行列を与えるために使用できます。 その後、matplolibでマトリックス値(ピアソンの相関を使用するため、-1から1)をプロットする方法を知りたいと思います。

5
パンダで分析するために20GBファイルを開く
現在、機械学習の目的でパンダとpythonを使用してファイルを開こうとしていますが、それらをすべてDataFrameに入れることが理想的です。現在、ファイルのサイズは18 GBで、RAMは32 GBですが、メモリエラーが発生し続けます。 あなたの経験からそれは可能ですか?そうでない場合、これを回避するより良い方法を知っていますか?(ハイブテーブル?RAMのサイズを64に増やしますか?データベースを作成し、Pythonからアクセスします)

5
リストのリストをPandas Dataframeに変換します
私は次のようなリストのリストをPandas Dataframeに変換しようとしています [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] 基本的に、配列内の各アイテムを4列のパンダデータフレームに変換しようとしています。pd.Dataframeは私が探しているものをまったく提供していないので、これに対する最善のアプローチは何でしょうか。
30 pandas 

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
pandas.DataFrame.isinを並行して実行する簡単な方法はありますか?
DataFrame.isinパンダの機能を多用するモデリングおよびスコアリングプログラムを使用して、数千の特定のページごとに個々のユーザーのFacebookの「いいね」のレコードのリストを検索します。これは、1つのコアでのみ実行され、残りは数十個のコアで同時に実行されるため、モデリングやスコアリングの部分よりも、プログラムの最も時間のかかる部分です。 私は手動でデータフレームをチャンクに分割し、操作を並行して実行できることを知っていますが、それを自動的に行う簡単な方法はありますか?言い換えれば、簡単に委任された操作を実行していることを認識し、それを自動的に配布するパッケージがありますか?おそらくそれはあまりにも多くを求めていますが、私は過去にPythonですでに利用可能なものに十分驚いていましたので、尋ねる価値があると思います。 これがどのように達成されるかについてのその他の提案(魔法のユニコーンパッケージによってでなくても!)も歓迎します。主に、ソリューションのコーディングに同量の時間を費やすことなく、実行ごとに15〜20分間削る方法を見つけようとしています。


2
パンダの2つの列でグループ化された値を合計する方法
次のようなPandas DataFrameがあります。 df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 このような新しいDataFrameを生成するにはどうすればよいですか: Date one two 0 2017-1-1 3 …

4
Pandasデータフレームの他の列に基づいて欠損値を埋める方法は?
3番目の列に欠損値が含まれる5 * 3データフレームがあるとします 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN 最初の製品の2番目の列という欠損値ベースのルールの値を生成したいと考えています 1 2 3 4 5 20 <--4*5 7 8 9 3 2 6 <-- 3*2 5 6 30 <-- 5*6 データフレームを使用するにはどうすればよいですか?ありがとう。 このような欠損値を計算する条件を追加するにはどうすればよいですか? if 1st % 2 == 0 then 3rd = …
19 pandas 


2
ワークフローのどこで欠落データを処理する必要がありますか?
私は(Pythonの使用、私の場合には、機械学習モデルを作成するためのワークフローを構築していますpandasし、sklearn非常に大規模なデータベースから引き出されたデータからパッケージ)(ここでは、にVerticaは、SQLとの方法によりpyodbc)、そのプロセスにおける重要なステップが含ま帰行方不明予測子の値。これは、単一の分析プラットフォームまたは統計プラットフォーム(Python、R、Stataなど)内では簡単ですが、マルチプラットフォームワークフローでこのステップを見つけるのに最適な場所が知りたいです。 sklearn.preprocessing.Imputerクラスで、pandas.DataFrame.fillnaメソッドを使用して、または手動で(使用される代入メソッドの複雑さに応じて)Pythonでこれを行うのは十分簡単です。しかし、私はこれを何億ものレコードの数十または数百の列に使用するので、事前にSQLを介して直接これを行うより効率的な方法があるのだろうかと思います。Verticaのような分散プラットフォームでこれを行う潜在的な効率は別として、これはテーブルの「完全な」バージョンを構築するための自動化されたパイプラインを作成できるという追加の利点があるので、新しいセットを記入する必要はありませんモデルを実行するたびに、ゼロから欠損値を取得します。 私はこれについて多くのガイダンスを見つけることができませんでしたが、私たちはできると思います: 不完全な列ごとに代替値の表(全体またはグループごとの平均/中央値/モードなど)を作成します 代替値テーブルを元のテーブルと結合して、各行と不完全な列に代替値を割り当てます 一連のcaseステートメントを使用して、使用可能な場合は元の値を取得し、それ以外の場合は代替値を取得します これはVertica / SQLで行うのが合理的なことですか、それともわずらわずPythonで処理するだけの正当な理由がありますか?後者の場合、スケルンではなくパンダでこれを行うための強力なケースがありますか、その逆ですか?ありがとう!

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.