タグ付けされた質問 「predictive-modeling」

結果を予測するために使用される統計的手法。

1
トレーニングの精度とテストの精度と混同行列
ランダムフォレストを使用して予測モデルを開発した後、次のメトリックを取得します。 Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] これは、このコードの結果です。 training_features, test_features, training_target, test_target, = train_test_split(df.drop(['bad_loans'], axis=1), df['target'], test_size = .3, random_state=12) clf = RandomForestClassifier() trained_model = clf.fit(training_features, training_target) trained_model.fit(training_features, training_target) predictions = trained_model.predict(test_features) Train Accuracy: accuracy_score(training_target, trained_model.predict(training_features)) Test Accuracy: accuracy_score(test_target, predictions) Confusion …

3
機械学習のコンテキストで「ベースライン」とはどういう意味ですか?
機械学習とデータサイエンスのコンテキストで「ベースライン」とはどういう意味ですか? 誰かが私に書いた: ヒント:適切なベースラインでは、約200のRMSEが得られます。 わかりません。彼は、トレーニングデータの私の予測モデルが500未満のRMSEを持っている場合、それは良いことを意味しますか? 「ベースラインアプローチ」とは何でしょうか。

1
機械学習を使用したサーバーログ分析
例外ログ、データベースログ、イベントログなどを含むアプリケーションのサーバーログを分析するためにこのタスクが割り当てられました。機械学習は初めてで、Sparkをエラスティック検索とSparks MLlib(またはPredictionIO)で使用しています。結果は、収集された例外ログに基づいて予測できるようになり、次の例外を発生させる可能性が高いユーザーと機能(および追跡してアプリケーションの最適化を改善する他の要素)を予測できるようになります。 ElasticSearchからSparkにデータを取り込み、DataFrameを作成して必要なデータをマッピングすることに成功しました。私が知りたいのは、実装の機械学習の側面にどのように取り組むかです。私は、データの前処理、データモデルのトレーニング、ラベルの作成、そして予測の生成について説明する記事や論文を読みました。 私が持っている質問は 既存のログデータを、トレーニングするデータセットに使用できる数値ベクトルに変換する方法を教えてください。 データセットをトレーニングするためにどのアルゴリズムを使用しますか? この問題へのアプローチ方法に関する提案を探しています。 ありがとうございました。

2
多数の機能を備えたロジスティック回帰を実行するにはどうすればよいですか?
330のサンプルと各サンプルに27の特徴を持つデータセットがあり、ロジスティック回帰のバイナリクラスの問題があります。 「10の場合のルール」によると、各機能を含めるには少なくとも10のイベントが必要です。しかし、私は20%の陽性クラスと80%の陰​​性クラスの不均衡なデータセットを持っています。 その結果、イベントは70件になり、ロジスティックモデルに含めることができる機能は約7/8だけになります。 すべての機能を予測変数として評価したいのですが、機能を手動で選択したくありません。 それであなたは何を提案しますか?7つの機能をすべて組み合わせる必要がありますか?アソシエーションモデルで各機能を単独で評価し、最終的なモデルに最適な機能のみを選択する必要がありますか? カテゴリカルな機能と継続的な機能の扱いについても知りたいのですが、混在させることはできますか?カテゴリー[0-1]と連続[0-100]がある場合、正規化する必要がありますか? 私は現在Pythonを使用しています。 あなたの助けをありがとう!

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3
機能の選択は必要ですか?
データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。 モデルフィッティングの前に特徴選択を実行する必要がありますか?すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか?

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

3
機械学習アルゴリズムが説明可能性と予測の間の適切なトレードオフとして受け入れられている場合、それはどれですか。
グラディエントブースティングマシンやニューラルネットワークなどのアルゴリズムを説明する機械学習テキストでは、これらのモデルは予測に優れているとコメントすることがよくありますが、これは説明可能性または解釈可能性の損失を伴います。逆に、単一の決定木と古典的な回帰モデルは説明が得意であるというラベルが付けられていますが、ランダムフォレストやSVMなどのより洗練されたモデルと比較して、予測精度が(比較的)低くなっています。2つの間の適切なトレードオフを表すものとして一般に受け入れられている機械学習モデルはありますか?説明可能なアルゴリズムの特性を列挙した文献はありますか?(この質問は以前に相互検証で尋ねられました)

3
Scikit-LearnのRandom Forest Regressorから重み(式)をエクスポートする
Scikit Learn in Python(ランダムフォレストリグレッサー)を使用して予測モデルをトレーニングし、手動で予測するためのExcelツールを作成するために、各機能の重みを何らかの方法で抽出したいと考えています。 私が見つけた唯一のものはですがmodel.feature_importances_、それは助けにはなりません。 それを達成する方法はありますか? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - expected )** …

2
多次元時系列から30分前のイベントを予測するモデルをトレーニングする方法
私の分野の専門家は、イベント(黄色のバイナリスパイク)が発生する 30分前に、その可能性を予測できます。ここでの頻度は1秒です。このビューは数時間分のデータを表します。「悪意のある」パターンがあるはずの箇所を黒く囲んでいます。次元間に相互作用が存在するため、次元を個別に調査することはできません(またはそれらを検討できますか?) 私はScikit Learn を使用して監視された MLモデルを構築しようとしています。これは、通常のリズムを学習し、症状がスパイクにつながる可能性がある場合を検出します。私はどちらの方向を取るか迷っています。私は異常検出を試しましたが、それはその場検出でのみ機能し、以前は機能しませんでした。 それらのイベントの前に「悪意のある」パターンを検出するにはどうすればよいですか(ターゲット変数としてそれらを取得します)? どのアルゴリズムまたはデータ処理パイプラインが役立つかについてのアドバイスを歓迎します。ありがとうございました:)

2
ビッグデータセットの機械学習のベストプラクティス
私はマスターを卒業しようとしており、機械学習について学び、それを使って研究プロジェクトを実行していました。ビッグデータセット(100 GBまたはTBなど)で機械学習タスクを実行するときの業界のベストプラクティスについて知りたいです。仲間のデータサイエンティストが彼らの経験を共有できるかどうか感謝します。ここに私の質問があります: 明らかに、非常に大きなデータセットはトレーニングに長い時間がかかります(数日または数週間になる場合があります)。多くの場合、さまざまなモデル(SVM、ニューラルネットワークなど)をトレーニングして、より良いパフォーマンスモデルを比較して見つける必要があります。業界のプロジェクトでは、できるだけ早く結果を出したいのですが、最高のパフォーマンスが得られると思います。トレーニングとテストの時間を短縮するためのヒントはありますか?データセットをサブセット化することをお勧めする場合は、データセットをサブセット化して、データセットのシナリオのすべてまたは大部分をカバーするのに最適な方法を知りたいと思います。 交差適合を実行すると、過剰適合が減少する可能性があるため、より良いことはわかっています。ただし、相互検証はトレーニングにも時間がかかり、相互検証でトレーニングされたモデルは直接実装されない可能性があります(Python sklearnエクスペリエンスから言えば、実装するクロス検証テストの後に、モデルをデータセットで再度トレーニングする必要があります)。通常、ビッグデータプロジェクトで相互検証を行っていますか、それともトレーニングテストの分割で問題を解決していますか? フィードバックに感謝します。

2
機械学習のステップ
予測モデルを作成する場合、以下の一連のステップオプションのうち正しいものはどれですか。 オプション1: 最初に最も明らかに悪い予測子を排除し、必要に応じて残りを前処理します。次に、相互検証を使用してさまざまなモデルをトレーニングし、いくつかの最良のものを選択し、それぞれが使用した上位予測子を特定し、それらのモデルのみを使用してそれらのモデルを再トレーニングし、精度を評価します。再度交差検証を使用して、最適なものを選択し、主要な予測子を使用して完全なトレーニングセットでトレーニングし、それを使用してテストセットを予測します。 オプション2: まず、最も明らかに悪い予測子を排除し、必要に応じて残りを前処理してから、再検証機能選択(例:rfを使用したRFE)などの特徴選択手法を使用して、交差検証を行い、主要な予測子の理想的な数とこれらの予測子を特定します。次に、交差検証を使用してさまざまなモデルタイプをトレーニングし、以前に特定された上位予測子でどのモデルが最高の精度を提供するかを確認します。次に、完全なトレーニングセットの予測子を使用して、これらのモデルの最適なモデルを再度トレーニングし、それを使用してテストセットを予測します。

2
Scikit LearnのGridSearchCVの評価指標としてコーエンのカッパを使用する方法は?
私は1:15の比率、つまり非常に低いイベント率でクラスの不均衡を抱えています。したがって、scikitでGBMのチューニングパラメータを選択するには、F1スコアの代わりにカッパを使用することを学びます。カッパは、クラスの不均衡のF1スコアよりも優れた指標です。 しかし、私はここでsklearn.metricsをscikit learnのEvaluation_metricとしてkappaを見つけることができません でした。 ご質問 gridsearchcvにカッパを含めるための回避策はありますか? scikit learnでカッパの代わりに使用できる他のより良いメトリックはありますか?

1
R-ニューラルネットワークプロットの解釈
stats.SEにも同様の質問があることは知っていますが、私の要求を満たす質問は見つかりませんでした。質問を重複としてマークする前に、コメントでpingしてください。 neuralnetSP500インデックスの時系列を予測するために基づいてニューラルネットワークを実行していて、以下に掲載されているプロットをどのように解釈できるかを理解したいと思います。 特に、隠れ層の重みと入力の重みの解釈が何であるかを理解することに興味があります。誰かがその数を解釈する方法を教えてもらえますか? 任意のヒントをいただければ幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.