統計とビッグデータ modeling

11

AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか？

222 modeling aic cross-validation bic model-selection

3

機械学習の問題が絶望的であることを知る方法は？

標準的な機械学習シナリオを想像してください：大規模な多変量データセットに直面しており、それについてかなり曖昧な理解を持っています。あなたがする必要があるのは、あなたが持っているものに基づいていくつかの変数について予測することです。いつものように、データを消去し、記述統計を調べ、いくつかのモデルを実行し、それらを相互検証しますが、何度か試行した後、前後に行って複数のモデルを試しても何も機能しないようで、結果は悲惨です。このような問題に数時間、数日、または数週間費やすことができます... 問題は、いつ停止するかです。データが実際に絶望的であり、すべての派手なモデルがすべてのケースまたは他の些細な解決策の平均結果を予測するよりも良いことをしないことをどのように知っていますか？もちろん、これは予測可能性の問題ですが、私が知る限り、多変量データの予測可能性を評価するのは困難です。それとも私は間違っていますか？免責事項：この質問はこの質問に触発されました。いつモデルを探すのをやめなければなりませんか？それはあまり注目されませんでした。このような質問に対する詳細な回答を参考にしていただければ幸いです。

207 machine-learning forecasting modeling model-selection forecastability

24

「最新の」統計の経験則

フィリップ・アイ・グッドとジェームズ・W・ハーディンのG van BelleのThumbs of Statistics Rulesに関する本と、それほどではないが統計の一般的なエラー（およびそれらを回避する方法）が好きです。彼らは、実験的および観察的研究からの結果を解釈する際の一般的な落とし穴に対処し、統計的推論または探索的データ分析のための実用的な推奨事項を提供します。しかし、特にさまざまな分野での計算とロバストな統計の使用の増加や、臨床生物統計学や遺伝疫学などの機械学習コミュニティからの技術の導入により、「現代の」ガイドラインはやや欠けていると感じています。他の場所で対処できるデータの視覚化における計算上のトリックや一般的な落とし穴は別として、私は尋ねたいと思います：効率的なデータ分析のために推奨する経験則は何ですか？（回答ごとに1つのルールをお願いします）。私は、あなたが同僚、統計モデリングの強力なバックグラウンドを持たない研究者、または中級から上級コースの学生にあなたが提供するかもしれないガイドラインを考えています。これは、サンプリング戦略、特徴選択またはモデル構築、モデル比較、事後推定などのデータ分析のさまざまな段階に関係する場合があります。

85 modeling eda rule-of-thumb

17

モデル内の主な効果ではなく相互作用を含める

主効果を含めずにモデルに双方向の相互作用を含めることは有効ですか？仮説が相互作用のみに関するものである場合、主効果を含める必要がありますか？

85 regression modeling interaction regression-coefficients

7

連続予測変数を分割することの利点は何ですか？

モデルで使用する前に、連続予測変数を取得してそれを分割（たとえば、五分位数に分割）することの価値は何かと思っています。変数をビニングすると情報が失われるように思えます。これは、非線形効果をモデル化できるからですか？変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか？

78 regression modeling continuous-data binning regression-strategies

14

「すべてのモデルは間違っていますが、一部のモデルは便利です」の意味は何ですか

「本質的に、すべてのモデルは間違っていますが、一部は有用です。」 ---ボックス、ジョージEP; ノーマンR.ドレイパー（1987）。経験的モデル構築と応答曲面、p。424、ワイリー。ISBN 0471810339。上記のフレーズの意味は何ですか？

76 modeling

6

江南スタイルのYoutubeビュー数を予測するモデル

PSYのミュージックビデオ「江南スタイル」は人気があり、2か月強で約5億4,000万人の視聴者がいます。私は先週の夕食でプレティーンの子供たちからこれを学び、すぐに議論は10-12日で何人の視聴者がいるのか、歌がいつ（/ if） 8億人の視聴者または10億人の視聴者を通過させます。以下は、投稿されてからの多くの視聴者の写真です。これは、No1「Justin Biever-Baby」とNo2「Eminem-Love the way you ly」のミュージックビデオの視聴者数からの写真です。このモデルについて最初に考えたのは、Sカーブであるべきだということでしたが、これはNo1とNo2の曲には合わないようで、ミュージックビデオの再生回数に制限がないということにも合いません。成長は遅くなります。私の質問は次のとおりです。ミュージックビデオの視聴者数を予測するには、どのようなモデルを使用すればよいですか。

73 modeling web

5

時系列モデルの選択にk分割交差検証を使用する

質問：何かを確認したいのですが、時系列でk分割交差検証を使用するのは簡単ですか、それとも使用する前に特別な注意を払う必要がありますか？背景： 5年ごとにデータサンプルを使用して、6年の時系列（セミマルコフチェーン）をモデリングしています。複数のモデルを比較するために、6年でデータを分離することにより6倍の交差検証を使用しているため、（パラメーターを計算するための）トレーニングセットの長さは5年、テストセットの長さは1です年。私は時間の順序を考慮していないので、私の異なるセットは次のとおりです。フォールド1：トレーニング[1 2 3 4 5]、テスト[6] フォールド2：トレーニング[1 2 3 4 6]、テスト[5] フォールド3：トレーニング[1 2 3 5 6]、テスト[4] フォールド4：トレーニング[1 2 4 5 6]、テスト[3] フォールド5：トレーニング[1 3 4 5 6]、テスト[2] フォールド6：トレーニング[2 3 4 5 6]、テスト[1]。毎年独立しているという仮説を立てています。どうすればそれを確認できますか？時系列とのk分割交差検証の適用性を示す参考文献はありますか。

70 time-series modeling cross-validation

7

すべての相互作用の用語は、回帰モデルの個々の用語を必要としますか？

著者が5〜6個のロジット回帰モデルをAICと比較している原稿を実際にレビューしています。ただし、一部のモデルには、個々の共変量項を含まない相互作用項があります。これを行うのは理にかなっていますか？例（ロジットモデルに固有ではない）： M1: Y = X1 + X2 + X1*X2 M2: Y = X1 + X2 M3: Y = X1 + X1*X2 (missing X2) M4: Y = X2 + X1*X2 (missing X1) M5: Y = X1*X2 (missing X1 & X2) 相互作用用語X1 * X2がある場合、X1 + X2も必要であるという印象を受けていました。したがって、モデル1と2は問題ありませんが、モデル3〜5には問題があります（AICが低い場合でも）。これは正しいです？それはルールですか、それともガイドラインですか？この背後にある理由を説明する良い参考資料はありますか？レビューで重要なことを誤解しないようにしたいだけです。考えをありがとう、ダン

68 regression modeling interaction aic

11

モデルが間違っているのに、なぜベイジアンである必要があるのですか？

編集：簡単な例を追加しました：平均の推論。また、信頼区間と一致しない信頼区間が悪い理由を少し明らかにしました。XiXiX_i かなり敬devなベイジアンの私は、ある種の信仰の危機の真っただ中にいます。私の問題は次のとおりです。IIDデータを分析したいとします。私がやることは：XiXiX_i 最初に、条件付きモデルを提案します： p(X|θ)p(X|θ) p(X|\theta) 次に、上の前を選択し： P （θ ）θθ\thetap(θ)p(θ) p(\theta) 最後に、ベイズの規則を適用し、事後を計算します：（または計算できない場合は近似）、についてのすべての質問に答えますθp(θ|X1…Xn)p(θ|X1…Xn)p(\theta | X_1 \dots X_n )θθ\theta これは賢明なアプローチです。データ真のモデルが条件付きの「内部」にある場合（値対応する場合）、統計的決定理論を呼び出して、メソッドが許容可能であると言うことができます（Robert詳細については「ベイジアン選択」、「統計のすべて」も関連する章で明確に説明しています）。θ 0をXiXiX_iθ0θ0\theta_0 しかし、誰もが知っているように、私のモデルが正しいと仮定することはかなり慢です。なぜ私が検討したモデルの箱の中に自然がきちんと収まるのでしょうか？これは、データの実際のモデルと仮定することははるかに現実的である異なりのすべての値に対して。これは通常、「誤って指定された」モデルと呼ばれます。p （X | θ ）θptrue(X)ptrue(X)p_{true}(X)p(X|θ)p(X|θ)p(X|\theta)θθ\theta 私の問題は、このより現実的な誤って指定されたケースでは、単純に最尤推定量（MLE）を計算するのと比べて、ベイジアンであること（つまり、事後分布の計算）についての良い議論がないことです： θ^ML=argmaxθ[p(X1…Xn|θ)]θ^ML=arg⁡maxθ[p(X1…Xn|θ)] \hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ] 実際、Kleijn、vd Vaart（2012）によると、誤って指定された場合、事後分布は次のとおりです。として、を中心とするディラック分布に収束しθ M Ln→∞n→∞n\rightarrow \infty θ^MLθ^ML\hat \theta_{ML} 事後の信頼できる区間が信頼区間に一致することを保証するために、正しい分散がありません（2つの値が偶然同じでない限り）。（信頼区間は明らかにベイジアンが過度に気にしないものですが、これは定性的には、事後分布が本質的に間違っていることを意味します。これは、信頼区間が正しいカバレッジを持たないことを意味します）θθ\theta したがって、追加のプロパティがない場合、計算プレミアム（一般にベイジアン推論はMLEよりも高価です）を支払います。したがって、最後に、私の質問：モデルが誤って指定されている場合に、より単純なMLEの代替案に対してベイジアン推論を使用するための理論的または経験的な議論はありますか？（私の質問はしばしば不明瞭であることを知っているので、あなたが何かを理解しないならば、私に知らせてください：私はそれを言い換えようとします）編集：簡単な例を考えてみましょう：ガウスモデルの下での平均を推測します（さらに単純化するために既知の分散を使用）。ガウス事前分布を考えます。事前平均、事前の逆分散でます。してみましょうの経験的な平均こと。最後に注意してください：。 …

68 bayesian modeling philosophical misspecification

6

2016年に本当に必要な予測モデリングの変数選択？

この質問はCVで数年前に尋ねられました。1）より優れたコンピューティングテクノロジー（例：並列コンピューティング、HPCなど）と2）新しいテクニック、たとえば[3]を考慮すると、再投稿する価値があるようです。まず、いくつかのコンテキスト。目標が仮説のテストではなく、効果の推定ではなく、見えないテストセットの予測であると仮定しましょう。したがって、解釈可能な利益に重みは与えられません。第二に、主題の検討における予測子の関連性を排除できないとしましょう。それらはすべて個別に、または他の予測因子と組み合わせてもっともらしいようです。第三に、数百（数百）の予測子に直面しています。第4に、AWSに無制限の予算でアクセスできるため、計算能力が制約にならないとします。変数選択の通常の理由は、1）効率です。より小さなモデルをより速く適合させ、より少ない予測変数をより安価に収集する、2）解釈; 「重要な」変数を知ることで、基礎となるプロセスの洞察が得られます[1]。現在、多くの変数選択方法が効果的でなく、しばしば完全に危険であることが広く知られています（例えば、前方段階的回帰）[2]。次に、選択したモデルが適切であれば、予測子のリストをまったく削減する必要はありません。モデルはあなたのためにそれを行う必要があります。良い例は、すべての無関係な変数にゼロ係数を割り当てるなげなわです。一部の人々は「象」モデルの使用を支持していることを知っています。考えられるすべての予測変数を適合に投げ込み、それで実行します[2]。目標が予測精度である場合、変数選択を行う根本的な理由はありますか？ [1] Reunanen、J.（2003）。変数選択方法を比較する際の過剰適合。Journal of Machine Learning Research、3、1371-1382。 [2] Harrell、F.（2015）。回帰モデリング戦略：線形モデル、ロジスティックおよび順序回帰、および生存分析への応用。スプリンガー。 [3] Taylor、J。、およびTibshirani、RJ（2015）。統計的学習と選択的推論。国立科学アカデミー論文集、112（25）、7629-7634。 [4] Zhou、J.、Foster、D.、Stine、R.、＆Ungar、L.（2005、August）。アルファ投資を使用したストリーミング機能の選択。データマイニングにおける知識の発見に関する第11回ACM SIGKDD国際会議の議事録（pp。384-393）。ACM。

67 machine-learning modeling feature-selection model-selection prediction

4

なぜ空間自己相関のGAMアカウントに緯度と経度を含めるのですか？

森林破壊のための一般化された加算モデルを作成しました。空間的自己相関を説明するために、緯度と経度を平滑化された相互作用項（つまりs（x、y））として含めました。著者は「空間的自己相関を考慮して、ポイントの座標は平滑化された用語として含まれている」と言う多くの論文を読んでこれを基にしましたが、これらが実際にそれを説明する理由を説明したことはありません。とてもイライラします。私は答えを見つけることを期待してGAMで見つけることができるすべての本を読みましたが、ほとんど（たとえば、一般化された加算モデル、Rの紹介、SN Wood）は説明なしで主題に触れています。誰かが空間自己相関の緯度と経度の説明を含める理由を説明できれば、本当に感謝していますs（x、y）inとなしのモデル？また、この用語で説明される逸脱は、空間的自己相関の程度を示していますか？

60 r modeling spatial autocorrelation gam

6

「飽和」モデルとは何ですか？

飽和モデルがあると言うときはどういう意味ですか？

59 modeling regression

3

多くの場合、変数はモデルを作成する前に調整（標準化など）されます。これはいつ良いアイデアで、いつ悪いものですか？

どのような状況で、モデルのフィッティングの前に変数をスケーリングまたは標準化したい、またはしたくないですか？また、変数のスケーリングの利点/欠点は何ですか？

56 modeling predictive-models feature-selection theory standardization

3

デ・フィネッティの表現定理の何がそんなにクールなのですか？

Mark J. Schervishによる統計理論から（12ページ）： DeFinettiの表現定理1.49は、パラメトリックモデルの動機付けの中心ですが、実際の実装では使用されていません。定理はどのようにパラメトリックモデルの中心にありますか？

55 probability modeling mathematical-statistics parametric

タグ付けされた質問 「modeling」

タグ付けされた質問「modeling」