タグ付けされた質問 「pandas」

パンダは、パネルデータの操作と分析のためのpythonライブラリです。たとえば、統計、実験科学の結果、計量経済学、または金融で一般的に見られる多次元時系列や断面データセットです。

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
Pandasデータフレームからの多値カテゴリ変数をバイナリエンコードする方法
特定の列に複数の値を持つ次のデータフレームがあるとします。 categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] このようなテーブルを取得するにはどうすればよいですか? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 1 1 2 - 0 1 0 1 注:必ずしも新しいデータフレームは必要ありません。そのようなデータフレームを機械学習により適した形式に変換する方法を考えています。
9 python  pandas 

1
パンダのinterpolate()とfillna()の違い
Interpolateとfillnaメソッドはna値を埋めるのと同じ働きをするので。この2つの基本的な違いは何ですか。これらの2つの異なる方法を持つことの重要性は何ですか?誰でも簡単な言葉で私を説明できますか?私はすでに公式ドキュメントを訪問し、違いを知りたいと思っていました

3
Pandasデータフレームのフィルタリング速度を改善する
19列と約25万行のデータセットがあります。私はより大きなデータセットを扱ってきましたが、今度はパンダスが私の神経で遊ぶことにしました。 いくつかの単純なルールに基づいて、元のデータセットを3つのサブデータフレームに分割しようとしました。ただし、コードの実行には時間がかかります。フィルタリングのためだけに約15〜20秒。 コードのパフォーマンスを向上させる代替方法はありますか? import pandas as pd #read dataset df = pd.read_csv('myData.csv') #create a dataframe with col1 10 and col2 <= 15 df1 = df[(df.col1 == 10) & (df.col2 <= 15)] df = df[~df.isin(df1)].dropna() #create a dataframe with col3 7 and col4 >= 4 df2 = df[(df.col3 == 7) & …


2
パンダのインデックスを数える
これは初歩的な質問のように感じますが、私はこれに非常に慣れていないので、それを解読したり、答えを見つけることができませんでした。 最終的に私がここでやろうとしているのは、特定の列の一意の値を数え、それらの一意の値のうち、一致する列に複数の一意の値があるものを特定することです。 したがって、このデータについて、私が判断しようとしているのは、すべての購入に対して「誰が」「複数のレシート」を持っているか、そして各製品カテゴリーに基づいて同じ情報を判断することです。 これまでの私のアプローチ: 次のようなデータセットがあります。 receipt,name,etc,category 1,george,xxx,fish 1,george,xxx,cat 2,george,xxx,fish 3,bill,xxx,fish 3,bill,xxx,dog 4,jill,xxx,cat 5,bill,xxx,cat 5,bill,xxx,cat 5,bill,xxx,dog 6,george,xxx,fish だから私はこれを行うことができます: df.set_index(['name','receipt']) もっと面白くなる etc category name receipt george 1 xxx fish 1 xxx cat 2 xxx fish bill 3 xxx fish 3 xxx dog jill 4 xxx cat bill 5 xxx cat 5 xxx …

4
画像データのNaN値を置き換える方法は?
私のデータセットには合計200列があり、各列はすべての画像の同じピクセルに対応しています。合計で48,500行あります。データのラベルの範囲は0〜9です。 データは次のようになります。 raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 167.0 163.0 185.0 160.0 2 45.0 239.0 66.0 252.0 NaN 3 126.0 239.0 137.0 NaN 120.0 4 226.0 222.0 153.0 235.0 171.0 5 169.0 81.0 100.0 44.0 104.0 6 154.0 145.0 76.0 134.0 175.0 7 …

2
SKLearnの他の機能でのTF-IDFの使用
テキスト分析を他の機能と組み合わせる最良/正しい方法は何ですか?たとえば、一部のテキストだけでなく他の機能/カテゴリも含まれるデータセットがあります。SKlearnのTF-IDFベクトライザーは、テキストデータをスパース行列に変換します。たとえば、これらのスパース行列をNaive Bayes分類器で直接使用できます。しかし、他の機能も考慮に入れる方法は何ですか?テキストのtf-idf表現を分解し、機能とテキストを1つのDataFrameに結合する必要がありますか?または、たとえば、疎行列を別の列として保持できますか?これを行う正しい方法は何ですか?

1
データのログ変換を正しく行っていますか?
一部のデータに対して探索的データ分析を行っており、次のヒストグラムが得られます。 これはデータのログ変換の候補のように見えるため、次のPythonコードを実行してデータを変換します。 df["abv"].apply(np.log).hist() df["ibu"].apply(np.log).hist() plt.show() そして、変換されたヒストグラムのこの新しいプロットを取得します。 この場合、ログ変換で問題がなかったと思いますか。その場合、結果を解釈するための最良の方法は何ですか。

4
パンダ:マルチレベルの列を作成する方法
私は次の列を持つパンダのデータフレームを持っています: n_0 n_1 p_0 p_1 e_0 e_1 列とサブ列を持つように変換したい: 0 n p e 1 n p e 私はドキュメントを検索しましたが、これを実装する方法が完全にわかりません。誰か提案はありますか?
8 pandas 

2
シンプルなKaggleタスクでsklearnとpandasを統合するのに苦労しています
私はsklearn_pandasモジュールを使用してパンダで行う作業を拡張し、機械学習につま先を浸そうとしていますが、修正方法が本当にわからないエラーで苦労しています。 Kaggleで次のデータセットを調べていました。 これは基本的に、浮動小数点値を持つヘッダーのないテーブル(1000行、40の機能)です。 import pandas as pdfrom sklearn import neighbors from sklearn_pandas import DataFrameMapper, cross_val_score path_train ="../kaggle/scikitlearn/train.csv" path_labels ="../kaggle/scikitlearn/trainLabels.csv" path_test = "../kaggle/scikitlearn/test.csv" train = pd.read_csv(path_train, header=None) labels = pd.read_csv(path_labels, header=None) test = pd.read_csv(path_test, header=None) mapper_train = DataFrameMapper([(list(train.columns),neighbors.KNeighborsClassifier(n_neighbors=3))]) mapper_train 出力: DataFrameMapper(features=[([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.