タグ付けされた質問 「predictive-models」

予測モデルは、特定の仮説をテストしたり、現象を機構的に説明したりするモデルとは対照的に、システムの他の観測を最適に予測することを主な目的とする統計モデルです。そのため、予測モデルでは、解釈可能性は重視されず、パフォーマンスが重視されます。

2
これは最先端の回帰方法論ですか?
私は長い間Kaggleのコンペティションをフォローしてきましたが、多くの勝利戦略には、「ビッグスリー」の少なくとも1つ、つまりバギング、ブースティング、スタックの使用が含まれることに気付きました。 回帰については、可能な限り最良の回帰モデルの構築に焦点を当てるのではなく、(一般化)線形回帰、ランダムフォレスト、KNN、NN、SVM回帰モデルなどの複数の回帰モデルを構築し、合理的な方法で結果を1つにブレンドします-個々のメソッドを何回も実行します。 もちろん、各方法をしっかり理解することが重要であり、線形回帰モデルに基づいて直感的なストーリーを伝えることができますが、これが最良の結果を達成するための最先端の方法論になっているのではないかと思っています。

1
ブースティングの相対的な変数の重要性
Gradient Boosted Treesで相対的な変数の重要度がどのように計算されるかについての説明を探しています。 メジャーは、変数が分割用に選択された回数に基づいており、各分割の結果としてモデルに対する2乗改善によって重み付けされ、すべてのツリーで平均されます。[ Elith et al。2008年、回帰ツリーをブーストするためのワーキングガイド ] そして、それは以下よりも抽象的ではありません: I2j^(T)=∑t=1J−1i2t^1(vt=j)Ij2^(T)=∑t=1J−1it2^1(vt=j)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 合計がJ末端ノードツリーTの非末端ノードに対するものであり、v tはノードtに関連付けられた分割変数であり、^ i 2 tは、定義された分割の結果としての二乗誤差の対応する経験的改善ですas i 2(R l、R r)= w l w rtttJJJTTTvtvtv_{t}ttti2t^it2^\hat{i_{t}^2}、 ¯ のY L、 ¯ Y Rはそれぞれ左右娘応答手段であり、WL、WR重みの対応する和です。i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2yl¯,yr¯yl¯,yr¯\bar{y_{l}}, \bar{y_{r}}wl,wrwl,wrw_{l}, w_{r}[フリードマン2001、グリーディ関数近似:勾配ブースティングマシン] 最後に、関連するセクション(10.13.1ページ367)が上記の2番目のリファレンス(説明される可能性がある)と非常に似ているため、統計学習の要素(Hastie et al。2008)がここで非常に役立つとは思いませんでした。フリードマンが本の共著者であるという事実によって)。 PS:相対変数の重要度の測定値は、gbm Rパッケージのsummary.gbmによって提供されることを知っています。ソースコードを調べようとしましたが、実際の計算がどこで行われているのか見つけることができないようです。 ブラウニーポイント:これらのプロットをRで取得する方法を知りたい

6
節約は本当にゴールドスタンダードである必要がありますか?
ちょっとした考え: 控えめなモデルは常にモデル選択のデフォルトの対象でしたが、このアプローチはどの程度古くなっていますか?私たちのpar約傾向が、アバチとスライドのルール(または、もっと真剣に、非近代的なコンピューター)の時代の遺物であることに興味があります。今日の計算能力により、予測能力がさらに向上し、ますます複雑化するモデルを構築できます。この計算能力の上限の増加の結果として、私たちは本当に単純さに引き寄せられる必要があるのでしょうか? 確かに、より単純なモデルは理解と解釈が容易ですが、変数の数が増え、予測機能に重点が置かれるようになりつつあるデータセットが増え続ける時代には、これはもはや達成できず、必要もありません。 考え?

3
クラスの不均衡の問題の根本的な原因は何ですか?
私は最近、機械学習/統計学習の「クラスの不均衡問題」について多くのことを考えてきましたが、何が起こっているのか分からないという感覚をさらに深めています。 まず、用語を定義(または試行)します。 クラス不均衡問題マシン/統計的学習では1クラスに0のクラスの割合が非常に偏っているとき、いくつかのバイナリ分類(*)アルゴリズムはうまく機能しないという観察です。 したがって、たとえば、上記の例では、すべての1クラスごとに100個の000クラスがある場合、クラスの不均衡は1から100または1 %です。1111111001001001%1%1\% 私が見た問題の声明のほとんどは、十分な資格と考えるもの(どのモデルが苦労しているのか、不均衡が問題であるか)を欠いており、これが私の混乱の原因の1つです。 機械学習/統計学習の標準テキストの調査では、ほとんど何もわかりません。 統計斜の要素と統計的学習の概要は、インデックス内の「クラスの不均衡」を含んでいません。 予測データ分析の機械学習では、インデックスに「クラスの不均衡」も含まれていません。 マーフィーの機械学習:確率的観点に は、インデックスに「クラスの不均衡*」が含まれています。SVMのセクションを参照しますが、次の興味深いコメントが見つかりました。 SVMは確率を使用して不確実性をモデル化しないため、これらの困難、およびそれらを修正するために提案された多数のヒューリスティックが根本的に発生するため、出力スコアはクラス間で比較できないことに注意してください。 このコメントは私の直観と経験を思い起こさせます:私の以前の仕事では、ロジスティック回帰と勾配ブーストツリーモデルを(二項対数尤度を最小化するために)不均衡なデータ(1%1%1\%クラスの不均衡の程度)に、パフォーマンスの明らかな問題。 私は(どこかで)分類木ベースのモデル(木自体とランダムフォレスト)もクラスの不均衡の問題に苦しんでいると読みました。これにより、水が少し濁り、ツリーは何らかの意味で確率を返します。つまり、ツリーの各終端ノードのターゲットクラスの投票レコードです。 まとめると、私が本当に望んでいるのは、クラスの不均衡問題(存在する場合)を引き起こす力の概念的な理解です。 不適切に選択されたアルゴリズムと怠algorithmsなデフォルトの分類しきい値を使用して自分自身で行うことですか? 適切なスコアリング基準を最適化する確率モデルを常に当てはめると消えますか?別の言い方をすれば、原因は単に損失関数の不適切な選択、つまり、厳密な分類ルールと全体的な精度に基づいてモデルの予測力を評価することですか? その場合、適切なスコアリングルールを最適化しないモデルは役に立たない(または少なくとも有用性が低い)か? (*)分類とは、バイナリ応答データに適合する統計モデルを意味します。私はない、それはかもしれないが、私の目標は、一つのクラスにハード譲渡またはその他であると仮定します。

3
LASSOのインジケータ/バイナリ/ダミー予測子を再スケールするかどうか
LASSO(およびその他のモデル選択手順)の場合、予測変数を再スケーリングすることが重要です。一般的な 推奨 私が従うは 0平均、連続変数の1つの標準偏差正規化を使用するだけです。しかし、ダミーとどう関係があるのでしょうか? 例えば、私がリンクした同じ(優秀な)サマースクールのいくつかの応用例は、連続変数を0から1の間にスケールし直します(ただし、外れ値にはあまり適していません)。しかし、それでも係数が同じ桁であることを保証するものではなく、したがって同様にペナルティを課されることを保証しません。

2
段階的な選択を実行した後にp値が誤解を招くのはなぜですか?
たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
因果関係なしで相関が役立つのはいつですか?
多くの統計学者の言うペットは「相関は因果関係を意味しない」です。これは確かに真実ですが、ここで暗示されていると思われることの1つは、相関にはほとんどまたはまったく価値がないことです。これは本当ですか?2つの変数が相関していることを知ることは無意味ですか? それが想像できない。私は予測分析に恐ろしくは慣れていませんXが、の予測子である場合、因果関係に関係なく、YにY基づいての将来の値を予測するのに役立つようですX。 相関の値を見るのは間違っていますか?そうでない場合、統計学者またはデータ科学者はどのような状況で因果関係なく相関を使用できますか?

4
連続機能とカテゴリ機能の両方を使用した予測
予測モデリング手法の中には、連続予測変数を処理するように設計されているものもあれば、カテゴリ変数または離散変数を処理する方が優れているものもあります。もちろん、1つの型を別の型に変換する手法(離散化、ダミー変数など)があります。ただし、単純にフィーチャのタイプを変換せずに、両方のタイプの入力を同時に処理するように設計された予測モデリング手法はありますか?そうである場合、これらのモデリング手法は、より自然に適合するデータに対してよりうまく機能する傾向がありますか? 私が知っている最も近いものは、通常、決定木がうまく離散データを処理し、それらが必要とせず、連続的なデータを扱うことになりますアップフロント離散化を。ただし、これは私が探していたものとはまったく異なります。効果的に連続フィーチャ上の分割は、動的な離散化の一種にすぎません。 参考のために、関連する重複しない質問を次に示します。 連続変数を予測するとき、決定木分割はどのように実装する必要がありますか? カテゴリー予測因子と連続予測因子が混在している場合、重回帰を使用できますか? カテゴリデータを連続として扱うのは理にかなっていますか? 連続およびカテゴリー変数データ分析

1
分類と回帰を組み合わせたアルゴリズムはありますか?
分類と回帰を同時に行うことができるアルゴリズムがあるかどうか疑問に思っています。たとえば、アルゴリズムに分類子を学習させたいと同時に、各ラベル内で連続ターゲットも学習させます。したがって、トレーニングの例ごとに、カテゴリラベルと連続値があります。 最初に分類器をトレーニングし、次に各ラベル内のリグレッサーをトレーニングできますが、両方を実行できるアルゴリズムがあれば素晴らしいと思います。

2
混合モデルは予測モデルとして有用ですか?
予測モデリングに関する混合モデルの利点について少し混乱しています。予測モデルは通常、以前は未知の観測値を予測するためのものであるため、混合モデルが有用な唯一の方法は、母集団レベルの予測を提供できることです(つまり、ランダム効果を追加することはありません)。ただし、これまでの私の経験では、混合モデルに基づく人口レベルの予測は、固定効果のみの標準回帰モデルに基づく予測よりも著しく悪いという問題があります。 では、予測問題に関して混合モデルのポイントは何ですか? 編集。問題は次のとおりです。混合モデル(固定効果とランダム効果の両方)と、固定効果のみの標準線形モデルを適合させました。クロスバリデーションを行うと、予測精度の次の階層が得られます:1)固定効果とランダム効果を使用して予測するときの混合モデル(ただし、これはもちろん、既知のレベルのランダム効果変数を持つ観測に対してのみ機能するため、この予測アプローチはそうではありません実際の予測アプリケーションに適している!); 2)標準線形モデル; 3)母集団レベルの予測を使用する場合の混合モデル(ランダム効果がスローされるため)。したがって、標準線形モデルと混合モデルの唯一の違いは、推定方法が異なるため、係数の値が多少異なることです(つまり、両方のモデルに同じ効果/予測子がありますが、関連する係数が異なります)。 混合モデルを使用して人口レベルの予測を生成することは、標準の線形モデルと比較して劣った戦略であるように見えるので、私の混乱は結局のところ、なぜ予測モデルとして混合モデルを使用するのでしょうか?

3
分類性能を評価するための相互検証またはブートストラップ?
特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか?クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。 フォローアップとして:パフォーマンスメトリックの選択は回答に影響しますか(精度ではなくAUCを使用する場合)? 私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。

3
Sklearn混同マトリックスをどのように解釈できますか
私が使用してい混同行列を私の分類器のパフォーマンスをチェックします。 私はScikit-Learnを使用していますが、少し混乱しています。どのようにして結果を解釈できますか from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) この予測値が良好であるかどうかを判断するにはどうすればよいですか。

2
Scikit-learnの平均絶対パーセントエラー(MAPE)[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 2年前に閉店。 Pythonとscikit-learnを使用して予測の平均絶対パーセント誤差(MAPE)を計算するにはどうすればよいですか? docsから、回帰のこれらの4つのメトリック関数のみがあります。 metrics.explained_variance_score(y_true、y_pred) metrics.mean_absolute_error(y_true、y_pred) metrics.mean_squared_error(y_true、y_pred) metrics.r2_score(y_true、y_pred)

4
オーバーサンプリング、アンダーサンプリング、SMOTEはどのような問題を解決しますか?
最近の好評の質問で、Timは、機械学習で不均衡なデータが本当に問題になるのはいつかを尋ねます。質問の前提は、クラスバランスと不均衡クラスの問題について議論する多くの機械学習文献があるということです。考え方は、ポジティブクラスとネガティブクラスの間に不均衡があるデータセットは、一部の機械学習分類(ここでは確率モデルを含む)アルゴリズムに問題を引き起こし、完全な50/50を復元するために、データセットを「バランス」する方法を探さなければならないということです。正と負のクラスに分割します。 賛成の回答の一般的な意味は、「少なくともモデリングに思慮深い場合はそうではない」ということです。M.ヘンリーL.は、受け入れられた答えに対する上向きのコメントで、次のように述べています。 [...]不均衡なデータの使用には、低レベルの問題はありません。私の経験では、「不均衡なデータを回避する」というアドバイスは、アルゴリズム固有のものか、継承された知恵です。私は、一般に、不均衡なデータは明確に指定されたモデルに概念的な問題をもたらさないというAdamOに同意します。 AdamOは、クラスバランスの「問題」は本当にクラス希少性の 1つだと主張 したがって、少なくとも回帰では(ただし、すべての状況で疑わしい)、不均衡なデータの唯一の問題は、サンプルサイズが事実上小さいことです。まれなクラスの人数に適した方法がある場合、そのメンバーシップの割合が不均衡であれば問題はありません。 これが目前の真の問題である場合、データセットのバランスを取ることを目的としたすべてのリサンプリング方法の目的は何ですか:オーバーサンプリング、アンダーサンプリング、SMOTEなど、未解決の問題が残ります。 明らかに、サンプルサイズが暗黙的に小さいという問題に対処していないため、何もないところから情報を作成することはできません!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.