タグ付けされた質問 「scikit-learn」

Scikit-learnは、機械学習、データマイニング、データ分析のためのシンプルで効率的なツールで構成されるPythonモジュールです。NumPy、SciPy、およびmatplotlibに基づいて構築されています。3-Clause BSDライセンスの下で配布されています。

1
sklearn-過剰適合問題
現在の機械学習の問題を解決する最善の方法に関する推奨事項を探しています 問題の概要と私が行ったことは次のとおりです: EEGデータの900回以上の試行があり、各試行は1秒の長さです。それぞれのグラウンドトゥルースは既知であり、状態0と状態1を分類します(40〜60%の分割) 各試行は、特定の周波数帯域のパワーをフィルタリングおよび抽出する前処理を通過し、これらは一連の機能を構成します(機能マトリックス:913x32) 次に、sklearnを使用してモデルをトレーニングします。cross_validationは、テストサイズ0.2を使用する場合に使用されます。分類子はrbfカーネルでSVCに設定されています、C = 1、ガンマ= 1(私はいくつかの異なる値を試しました) ここでコードの短縮版を見つけることができます:http : //pastebin.com/Xu13ciL4 私の問題: 分類子を使用してテストセットのラベルを予測すると、すべての予測が0になる トレイン精度は1ですが、テストセット精度は約0.56です。 私の学習曲線プロットは次のようになります: さて、これはここでオーバーフィットの古典的なケースのようです。ただし、ここでの過剰適合は、サンプルに対する特徴の数が極端に多い(32個の特徴、900個のサンプル)ために発生することはほとんどありません。私はこの問題を軽減するためにいくつかのことを試みました: サンプル数に対して機能が多すぎるために、次元削減(PCA)を使用してみましたが、精度スコアと学習曲線プロットは上記と同じに見えます。コンポーネントの数を10未満に設定しない限り、トレインの精度は低下し始めますが、情報を失い始めていることを考えると、これは多少予想されませんか? データの正規化と標準化を試みました。標準化(SD = 1)は、トレインまたは精度スコアを変更することはありません。(0-1)を正規化すると、トレーニングの精度が0.6に低下します。 SVCに対してさまざまなCおよびガンマ設定を試しましたが、どちらのスコアも変更されません GaussianNBなどの他の推定量を使用して、adaboostなどのアンサンブル法を使用してみました。変化なし linearSVCを使用して正則化メソッドを明示的に設定しようとしましたが、状況は改善されませんでした theanoを使用してニューラルネットで同じ機能を実行してみましたが、列車の精度は約0.6、テストは約0.5です 私は問題について考え続けることができてうれしいですが、この時点で私は正しい方向へのナッジを探しています。私の問題はどこにあり、それを解決するために私は何ができますか? 私の機能のセットが2つのカテゴリーを区別しないだけの可能性は十分にありますが、この結論にジャンプする前に他のいくつかのオプションを試してみたいと思います。さらに、私の機能が区別されない場合、それは低いテストセットスコアを説明しますが、その場合、どのようにして完璧なトレーニングセットスコアを取得できますか?それは可能ですか?

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

2
SKLearnの他の機能でのTF-IDFの使用
テキスト分析を他の機能と組み合わせる最良/正しい方法は何ですか?たとえば、一部のテキストだけでなく他の機能/カテゴリも含まれるデータセットがあります。SKlearnのTF-IDFベクトライザーは、テキストデータをスパース行列に変換します。たとえば、これらのスパース行列をNaive Bayes分類器で直接使用できます。しかし、他の機能も考慮に入れる方法は何ですか?テキストのtf-idf表現を分解し、機能とテキストを1つのDataFrameに結合する必要がありますか?または、たとえば、疎行列を別の列として保持できますか?これを行う正しい方法は何ですか?

2
RからPythonへの移行:特定の質問
私はプロトタイピングとモデル構築にRとRStudioを使用しており、永続的な問題(これは私が使用している環境にのみ該当します)のため、Pythonを使用することにしました。私は知りたいと思っています: 「RStudio Server」のようなpython開発環境はありますか? ディシジョンツリー/勾配ブースティングのためにPythonでマルチスレッド/マルチコア処理を有効にするのはどれほど簡単/難しいですか? Python dev環境サーバーにデータを保持できますか?意味:コードとデータフレームを使用して開発環境を保存し、翌日に戻ってアクセスした場所にアクセスしたり、そこからピックアップしたりできますか? PythonからOracleデータベースに接続できますか? .RDataをPython開発環境にインポートする方法はありますか? なぜこれらの質問をここで行うのですか? 検索エンジンを調べている間、私は主に信頼できない結果、トレーニング機関のプロモーション、時代遅れのブログ、業界大手からのホワイトペーパーを取得しています。信頼できる答えが必要です。

1
メールスレッドから個別のメールを抽出する
ほとんどのオープンソースデータセットは適切にフォーマットされています。つまり、各電子メールメッセージは、エンロンの電子メールデータセットのようによく分離されています。しかし、現実の世界では、上位の電子メールメッセージを一連の電子メールから分離することは非常に困難です。 たとえば、次のメッセージについて考えてみます。 Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. ---- On Wed, 10 May 2017 04:05:16 -0700 someone@somewhere.com wrote ------ Hello Mr.X, Does the below work out. Do let us know your thoughts. Thanks, Mr.Y Sales Manager. メールを分割したいのは、感情分析を行いたいからです。メールの分割に失敗すると、結果は正しくありません。 私は周りを検索し、この非常に包括的な研究論文を見つけました。メールガンtalonと呼ばれるメールガンによる実装も見つかりました。しかし、残念ながら、特定の種類のパターンではうまく機能しません。 たとえば、メールスレッドの2番目のメッセージが次のように中断した場合 ---------- Forwarded message ---------- 上記の代わりに …

1
素朴なベイズは欠けている機能を想定して予測を生成する必要があります(scikit学習)
Naive Bayesが確率を使用して予測を行い、特徴を互いに条件付きで独立しているものとして扱うことを考えると、テストデータにいくつかの特徴が欠落している場合、モデルは依然として予測を行うことができます。 欠落しているデータを補完することは一般的な慣行であることは知っていますが、いくつかの欠落している機能があると仮定して、ナイーブベイズが予測を行うことができるはずなのに、なぜこれを行うのですか? これはsci-kit学習に実装できますか?機能の少ないテストセットを試しましたが、形状が整列していないためValueErrorが発生しました。 理論的にはこれは可能ですが、scikit学習では可能ですか?

2
シンプルなKaggleタスクでsklearnとpandasを統合するのに苦労しています
私はsklearn_pandasモジュールを使用してパンダで行う作業を拡張し、機械学習につま先を浸そうとしていますが、修正方法が本当にわからないエラーで苦労しています。 Kaggleで次のデータセットを調べていました。 これは基本的に、浮動小数点値を持つヘッダーのないテーブル(1000行、40の機能)です。 import pandas as pdfrom sklearn import neighbors from sklearn_pandas import DataFrameMapper, cross_val_score path_train ="../kaggle/scikitlearn/train.csv" path_labels ="../kaggle/scikitlearn/trainLabels.csv" path_test = "../kaggle/scikitlearn/test.csv" train = pd.read_csv(path_train, header=None) labels = pd.read_csv(path_labels, header=None) test = pd.read_csv(path_test, header=None) mapper_train = DataFrameMapper([(list(train.columns),neighbors.KNeighborsClassifier(n_neighbors=3))]) mapper_train 出力: DataFrameMapper(features=[([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.