統計とビッグデータ predictive-models

15

2016年の米国選挙結果：予測モデルで何が問題になったのですか？

最初はBrexitで、現在は米国の選挙です。多くのモデル予測は大きく外れていましたが、ここで学ぶべき教訓はありますか？昨日午後4時（PST）になっても、ベッティングマーケットはヒラリー4対1を好んでいました。私は、実際のお金が出回っている賭け市場は、利用可能なすべての予測モデルのアンサンブルとして機能するはずだと考えています。そのため、これらのモデルが非常に良い仕事をしなかったと言うのは決して大げさではありません。 1つの説明は、有権者が自分自身をトランプ支持者として特定したがらないということでした。モデルにそのような効果をどのように組み込むことができますか？私が読んだマクロの説明の1つはポピュリズムの上昇です。問題は、統計モデルがそのようなマクロトレンドをどのようにキャプチャできるかということです。これらの予測モデルは世論調査や感情からのデータを重視しすぎており、100年の展望で国が立っている場所からは十分ではありませんか？友達のコメントを引用しています。

108 predictive-models ensemble confounding

5

予測エラーを推定するためのクロス検証とブートストラップの違い

クロスバリデーションとブートストラップの違いについて、予測エラーを推定するためにあなたの考えをお願いします。データセットのサイズが小さい場合や大きなデータセットの場合はうまく機能しますか？

102 cross-validation predictive-models bootstrap

6

信頼区間と予測区間の違い

線形回帰での予測区間について、あなたはまだ使用E [ Yを| X ] = ^ β 0 + β 1 xが間隔を生成します。また、これを使用してE [ Y | x 0 ]。2つの違いは何ですか？E^[ Y| x]= β0^+ β^1バツE^[Y|バツ]=β0^+β^1バツ\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}xE[ Y| バツ0]E[Y|バツ0]E[Y|x_0]

80 regression confidence-interval predictive-models prediction-interval

8

既存の変数と定義された相関関係を持つランダム変数を生成します

シミュレーション研究のために、既存の変数に対する事前定義された（母集団）相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。アイデアや既存の機能へのリンクを歓迎します！結論：さまざまなソリューションで、2つの有効な答えが出ました。カラカルによるR スクリプト。事前定義された変数との正確な（サンプル）相関を持つランダム変数を計算します事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加：質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

15

説明的モデリングと予測的モデリングに関する実際的な考え

4月に戻って、私はUMD数学部門統計グループセミナーシリーズ「説明するか予測するか？」に参加しました。この講演は、UMDのスミスビジネススクールで教えているGalit Shmueli教授によって行われました。彼女の講演は、「IS Researchでの予測と説明のモデリング」というタイトルの論文と、「説明するか予測するか」というタイトルのフォローアップワーキングペーパーで行った研究に基づいています。。シュムエリ博士の議論は、統計モデリングの文脈における予測と説明の用語が混同されており、統計文献には違いの徹底的な議論が欠けているということです。論文では、彼女は両方を対比し、それらの実際的な意味について話しています。論文を読むことをお勧めします。開業医コミュニティに提起したい質問は次のとおりです。予測エクササイズと説明/記述エクササイズをどのように定義しますか？特定のアプリケーションについて話すことができれば便利です。他を使用する意味があるときに、一方を使用するというtrapに陥ったことはありますか？確かにあります。どちらを使用するかをどのように知っていますか？

70 predictive-models

8

テストデータがトレーニングデータに漏れないようにする方法を教えてください。

予測モデルを構築している人がいると仮定しますが、その人は必ずしも適切な統計的または機械学習の原則に精通しているとは限りません。たぶん私たちは学習中のその人を助けているかもしれませんし、あるいはその人は使用するのに最低限の知識しか必要としない何らかのソフトウェアパッケージを使っているかもしれません。この人は、実際のテストがサンプル外の精度（またはその他のメトリック）に由来することを非常によく認識するかもしれませんデータの。しかし、私の懸念は、心配する微妙な点があることです。単純な場合、彼らはモデルを構築し、トレーニングデータで評価し、保留されているテストデータで評価します。残念ながら、その時点で戻ってモデル化パラメーターを微調整し、同じ「テスト」データで結果を確認するのは非常に簡単な場合があります。この時点で、データはもはやサンプル外のデータではなく、オーバーフィッティングが問題になる可能性があります。この問題を解決する1つの潜在的な方法は、多くのサンプル外のデータセットを作成して、各テストデータセットを使用後に破棄し、まったく再利用しないようにすることです。ただし、これには多くのデータ管理が必要です。特に、分析の前に分割を行う必要があります（したがって、事前に分割数を知る必要があります）。おそらく、従来のアプローチはk倍交差検証です。しかし、ある意味では、特にまだ学習している人にとって有用だと思う「トレーニング」と「テスト」のデータセットの区別を失います。また、これはすべてのタイプの予測モデルに意味があるとは確信していません。経験の浅いユーザーにはまだある程度明確でありながら、オーバーフィットと漏れのテストの問題を克服するために見落としている方法はありますか？

60 machine-learning classification predictive-models cross-validation out-of-sample

3

多くの場合、変数はモデルを作成する前に調整（標準化など）されます。これはいつ良いアイデアで、いつ悪いものですか？

どのような状況で、モデルのフィッティングの前に変数をスケーリングまたは標準化したい、またはしたくないですか？また、変数のスケーリングの利点/欠点は何ですか？

56 modeling predictive-models feature-selection theory standardization

6

Rのロジスティック回帰の代替

ロジスティック回帰と同じタスクを実行する多くのアルゴリズムが欲しいです。それは、説明変数（X）を使用してバイナリ応答（Y）に予測を与えることができるアルゴリズム/モデルです。アルゴリズムに名前を付けた後、Rでそれを実装する方法も示すことができれば嬉しいです。他のモデルで更新できるコードは次のとおりです。 set.seed(55) n <- 100 x <- c(rnorm(n), 1+rnorm(n)) y <- c(rep(0,n), rep(1,n)) r <- glm(y~x, family=binomial) plot(y~x) abline(lm(y~x), col='red', lty=2) xx <- seq(min(x), max(x), length=100) yy <- predict(r, data.frame(x=xx), type='response') lines(xx, yy, col='blue', lwd=5, lty=2) title(main='Logistic regression with the "glm" function')

55 r regression logistic classification predictive-models

5

多重比較のために重回帰のp値を調整するのは良い考えですか？

あなたがサービスの需要の関連する予測因子を見つけようとしている社会科学研究者/計量経済学者であると仮定しましょう。需要を説明する2つの結果/従属変数があります（サービスのyes / noおよび機会の数を使用）。需要を理論的に説明できる予測変数/独立変数が10個あります（年齢、性別、収入、価格、人種など）。2つの別々の重回帰を実行すると、20の係数推定とそのp値が得られます。回帰に十分な独立変数があると、遅かれ早かれ、従属変数と独立変数の間に統計的に有意な相関を持つ少なくとも1つの変数が見つかります。私の質問：回帰にすべての独立変数を含めたい場合、複数のテストのp値を修正するのは良い考えですか？先行研究への言及は大歓迎です。

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

5

機械学習で不均衡なデータが本当に問題になるのはいつですか？

ロジスティック回帰、SVM、決定木、バギング、およびその他の類似の質問を使用する際に、不均衡なデータについて複数の質問がありました。これが非常に人気のあるトピックです。残念ながら、各質問はアルゴリズム固有であるようで、不均衡なデータを扱うための一般的なガイドラインは見つかりませんでした。不均衡なデータを扱うMarc Claesenの回答の1つを引用（...）学習方法に大きく依存します。ほとんどの汎用アプローチには、これに対処する1つ（または複数の）方法があります。しかし、データの不均衡について正確に心配する必要があるのはいつですか？主に影響を受けるのはどのアルゴリズムで、どのアルゴリズムを処理できますか？データのバランスを取るためにどのアルゴリズムが必要ですか？このようなQ＆Aサイトでは、各アルゴリズムについて議論することは不可能であることを認識しています。むしろ、いつ問題になるかについての一般的なガイドラインを探しています。

53 machine-learning classification predictive-models unbalanced-classes

3

対数変換された予測子および/または応答の解釈

従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのかと思います。の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ？

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

1

手動で計算された

これはかなり具体的なR質問であることはわかっていますが、説明する割合の分散について考えているかもしれません。について間違っている。ここに行きます。R2R2R^2 私は使用しようとしています RパッケージますrandomForest。トレーニングデータとテストデータがあります。ランダムフォレストモデルを当てはめると、このrandomForest関数を使用して、テストする新しいテストデータを入力できます。次に、この新しいデータで説明された分散の割合を示します。これを見ると、1つの数字が得られます。 predict()関数を使用して、トレーニングデータからのモデルフィットに基づいてテストデータの結果値を予測し、これらの値とテストデータの実際の結果値の異なる数値が得られます。これらの値は一致しません。 R問題を示すためのコードを次に示します。 # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a model to the training set …

38 r correlation predictive-models random-forest r-squared

3

分割交差検証推定値のとしての分散：「安定性」の役割は何ですか？

TL、DR：それは、反対しばしば反復するアドバイス、リーブワンアウトクロスバリデーション（LOO-CV）が表示さ-であり、でCVを倍（折り目の数）に等しい（数トレーニング観測値）-モデル/アルゴリズム、データセット、またはその両方の特定の安定性条件を仮定して、最大変数ではなく、最小変数である一般化誤差の推定値を生成します（どちらがわからない私はこの安定条件を本当に理解していないので正しいです）。K N KKKKKKKNNNKKK 誰かがこの安定条件が何であるかを正確に説明できますか？線形回帰はそのような「安定した」アルゴリズムの1つであり、その文脈では、LOO-CVが一般化誤差の推定値のバイアスと分散に関する限り、厳密にCVの最良の選択であることを意味しますか？従来の知恵は、選択することであるにおける倍CVはバイアス分散トレードオフを、以下のような低い値高い値つつ、より悲観的なバイアスを有する汎化誤差の推定につながるが、より低い分散、（2に近づきます）（接近）以下バイアスされたが、より大きな分散を有するされる推定値をもたらします。とともに増加するこの分散現象の従来の説明は、おそらく「統計的学習の要素（セクション7.10.1）」で最も顕著に示されています。K K K N KKKKKKKKKKKKKNNNKKK K = Nの場合、クロス検証推定器は真の（予想される）予測誤差に対してほぼバイアスをかけられませんが、N個の「トレーニングセット」は互いに非常に類似しているため、分散が大きくなります。意味は、検証エラーはより高度に相関しているため、それらの合計はより可変的です。推論のこのラインは（例えば、このサイトで多くの回答で繰り返されているここで、ここでは、ここでは、ここでは、ここでは、ここでは、とここではその代わり、）などなど、様々なブログにし、しかし、詳細な分析が事実上与えれることはありません分析がどのように見えるかについての直感または簡単なスケッチのみ。NNN ただし、通常、私が実際に理解していない特定の「安定性」条件を引用して、矛盾するステートメントを見つけることができます。たとえば、この矛盾する答えは、「低不安定性のモデル/モデリング手順では、LOOの変動性が最小であることが多い」という2015年の論文のいくつかの段落を引用しています（強調を追加）。このペーパー（セクション5.2）は、モデル/アルゴリズムが「安定」である限り、LOOが最小変数選択を表すことに同意するようです。この問題に対する別のスタンスをとると、この論文（結果2）もあります。これは、「倍交差検証の分散[...]は依存しないk kKKKkkkkkk、」再び特定の「安定性」条件を引用しています。 LOOが最も可変的な折り畳みCVである理由についての説明は十分に直感的ですが、反直感があります。平均二乗誤差（MSE）の最終的なCV推定値は、各フォールドのMSE推定値の平均です。したがって、がまで増加すると、CV推定値は増加するランダム変数の平均になります。そして、平均の分散は変数の数が平均化されるにつれて減少することを知っています。そのため、LOOが最も可変のフォールドCVになるためには、MSE推定値間の相関の増加による分散の増加が、平均化されるフォールドの数が多いことによる分散の減少を上回ることを確認する必要があります。K N KKKKKKKNNNKKK。そして、これが真実であることはまったく明らかではありません。これらすべてについて完全に混乱して考えるようになったので、線形回帰の場合について少しシミュレーションを実行することにしました。 = 50および3つの無相関予測子を使用して10,000個のデータセットをシミュレートし、そのたびに = 2、5、10 、または50 =フォールドCVを使用して一般化誤差を推定しました。Rコードはこちらです。10,000個のすべてのデータセット（MSE単位）でのCV推定の結果の平均と分散は次のとおりです。K K NNNNKKKKKKNNN k = 2 k = 5 k = 10 k = n = 50 mean 1.187 1.108 1.094 1.087 variance 0.094 0.058 …

37 regression machine-learning variance cross-validation predictive-models

2

線形回帰で標準化された説明変数を使用するタイミングと方法

線形回帰について2つの簡単な質問があります。説明変数を標準化することが推奨されるのはいつですか？標準化された値で推定が実行されたら、新しい値でどのように予測できますか（新しい値を標準化する方法）。いくつかの参考文献が役立ちます。

37 regression predictive-models references standardization predictor

5

「自己敗北」予測モデルの処理方法

私は大手小売業者のMLスペシャリストによるプレゼンテーションを見ていました。そこでは、在庫切れイベントを予測するモデルを開発していました。しばらくの間、彼らのモデルが非常に正確になったと仮定しましょう。それはどういうわけか「自己敗北」ではないでしょうか？つまり、モデルが本当にうまく機能していれば、在庫切れイベントを予測して回避することができ、最終的に在庫切れイベントがほとんどまたはまったくない状態になります。しかし、その場合、モデルを実行するのに十分な履歴データがないか、モデルが脱線します。これは、在庫切れイベントを示すために使用されていたのと同じ要因がもはや実行されないためです。そのようなシナリオに対処するための戦略は何ですか？さらに、反対の状況を想定することもできます。たとえば、2つのアイテムが実際にはそうでなくても、リコメンダーシステムは、リコメンダーシステムの出力によって駆動されるアイテムペアの売上の増加とともに「自己実現予言」になる場合があります関連。どちらも、予測子の出力とそれに基づいて実行されるアクションの間で発生する一種のフィードバックループの結果であるように思えます。このような状況にどのように対処できますか？

36 machine-learning predictive-models

タグ付けされた質問 「predictive-models」

タグ付けされた質問「predictive-models」