タグ付けされた質問 「model-selection」

モデルの選択は、あるセットのどのモデルが最もよく機能するかを判断する際の問題です。一般的な方法は次のとおりですR2、AICおよびBICの基準、テストセット、および相互検証。ある程度、特徴選択はモデル選択の副問題です。

1
線形回帰における変数バイアスの省略
変数バイアスの省略について、哲学的な質問があります。 我々は、一般的な回帰モデル(母集団モデル)は サンプルが由来である(Y 、X 1、。。。、X N)、次いで、及びOLS推定値は非常にうまく挙動する条件の束。Y=β0+β1X1+...+βnXn+υ,Y=β0+β1X1+...+βnXn+υ, Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon, (Y,X1,...,Xn)(Y,X1,...,Xn)(Y,X_1,...,X_n) 私たちは主な変数の1を省略した場合、我々は、それを知って、、このかもしれないバイアスの推定値β 0、β 1、。。。、β K - 1、β 、K + 1、。。。、β nは。これは、少なくとも、推定上の変数の残りの効果影響を与えるY、そしてまたについて仮説検定β 1、β 2、。。。、予測値は信頼できないため。XkXkX_kβ0,β1,...,βk−1,βk+1,...,βnβ0,β1,...,βk−1,βk+1,...,βn\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_nYYYβ1,β2,...β1,β2,...\beta_1, \beta_2, ... 実は、どの変数が真の母集団モデルにあるのかわかりません。代わりに、候補者が多数あり、そこから分析して最も適切なサブセットを見つける必要があります。この変数選択のプロセスでは、OLS推定と仮説検定を再度使用します。これに基づいて、さまざまな変数を拒否または含めます。しかし、各候補モデルは関連する変数を省略しているため(真のモデルを見つけることはできません)、これらの決定は偏った結果に基づいているのではないでしょうか。では、なぜ彼らを信頼すべきなのでしょうか。 (たとえば、1つの変数を選択してから残りを追加するフォワードステップワイズ法を考えています。推論を行うモデルを比較し、省略された変数がすべてを妨害している可能性があると考えています。) 私はそれを考え始めるまでこのトピックについて心配しすぎたことは一度もありませんでしたし、どこか間違っていると確信しています。

3
特徴選択の相互検証を使用した徹底的な検索を実行できますか?
機能の選択と相互検証に関するいくつかの投稿を読んでいますが、正しい手順についてまだ質問があります。 10個の特徴を持つデータセットがあり、最良の特徴を選択したいとします。また、最近傍分類器を使用しているとします。交差検証を使用して徹底的な検索を実行し、最良の機能を選択するためのガイドとしてエラー率を推定できますか?次の疑似コードのようなもの for i=1:( 2^10 -1) error(i)= crossval(1-nn, selected_fetures(i)) end i=find(erro(i)==min(error(i)); selected_fetures= selected_features(i); この疑似コードで説明しようとしているのは、機能のすべての可能な組み合わせに対して相互検証を実行し、エラーが最小になる組み合わせを選択することです。 全数探索を行っているので、この手順は正しいと思います。機能の選択は、データセット全体ではなく、各パーティションの平均誤差に基づいていました。そのような特徴選択でモデルを過剰適合させていますか?

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

2
二項回帰とモデリング戦略の議論
今日、私は二項/ロジスティック回帰について質問を受けました。これは、私の部門のグループが行ってコメントを求めている分析に基づいています。匿名性を保護するために以下の例を作成しましたが、彼らはその反応に熱心でした。 まず、分析は単純な1または0の二項応答(たとえば、ある繁殖シーズンから次の繁殖シーズンまでの生存率)で始まり、目標はこの応答をいくつかの共変量の関数としてモデル化することでした。 ただし、一部の共変量の複数の測定値は、一部の個人では利用可能でしたが、他の個人では利用できませんでした。たとえば、変数xが分娩中の代謝率の測定値であり、個体の子孫の数が異なると想像してください(変数xは、個体Aでは3回、個体Bでは1回だけ測定されました)。この不均衡は、研究者自身のサンプリング戦略によるものではなく、彼らがサンプリングしていた母集団の特徴を反映しています。一部の個体は他の個体より多くの子孫を持っています。 これらのイベントの間隔が非常に短いため、労働イベント間の2項の0 \ 1応答を測定することは不可能であったことも指摘しておきます。繰り返しになりますが、問題の種は繁殖期が短いが、シーズン中に複数の子孫を産むことができると想像してください。 研究者たちは、変数xの平均を1つの共変量として使用し、個人が出産した子孫の数を別の共変量として使用するモデルを実行することを選択しました。 今、私はいくつかの理由でこのアプローチに熱心ではありませんでした 1)xの平均を取ることは、xの個体内変動の情報を失うことを意味します。 2)平均はそれ自体が統計であるため、モデルに入れることにより、統計に関する統計を実行することになります。 3)モデルには個体の子孫の数が含まれますが、変数xの平均の計算にも使用されます。これは問題を引き起こす可能性があると思います。 それで、私の質問は、人々がこのタイプのデータをどのようにモデル化しようとするのでしょうか? 現時点では、おそらく、子孫が1人の個体と、子孫が2人の個体に対して別々のモデルを実行します。また、変数xの平均を使用せず、各出生の生データのみを使用しますが、これもはるかに良いと確信していません。 お時間をいただきありがとうございます (PS:長い質問であることをお詫びします。例が明確であることを願っています)

1
この動的なサンプルサイズ選択戦略をどのように呼びますか?
大きなドキュメントの圧縮率を非常に高速に評価したいとします。サブシーケンスをランダムに選択して、圧縮してみることができます。これは、ドキュメントの全体的な圧縮率の予測として役立ちます。しかし、あなたのサンプルはどのくらいの大きさにすべきですか? 私たちは次の戦略を考え出しました: 任意の(小さい)サンプルサイズを選択します。圧縮率を測定します。 次に、サンプルサイズを2倍にして、圧縮率を再度測定します。変更がほとんどない(たとえば10%未満)場合は、ドキュメントの圧縮率が確実に決定されていると結論付けます。そうでない場合は、サンプルサイズを再度2倍にします。 これは新しい戦略ではないことは明らかであり、統計学者が使用している有名な戦略に関連しているかどうか疑問に思っています。 (ここでの「圧縮」は単なる例です。基本的に、適切なサンプルサイズが何であるかを分析的に決定することができないように、既知の優れた数学的特性がないメトリックに関心があります。そのようなヒューリスティックに戻ってください。)

1
ベイジアンモデルの選択で擬似優先順位を適切に使用する
ベイジアンフレームワークでのモデル比較の1つのアプローチは、ベルヌーイインジケーター変数を使用して、2つのモデルのどちらが「真のモデル」である可能性が高いかを決定します。このようなモデルをフィッティングするためにMCMCベースのツールを適用する場合、チェーン内の混合を改善するために疑似優先順位を使用するのが一般的です。疑似優先順位が役立つ理由についての非常にアクセスしやすい扱いについては、こちらを参照してください。 このトピックに関する独創的な論文で、Carlin&Chib(p。475)は「[疑似優先]の形式は無関係である」と述べています。これは、モデルに基づく事後推論に影響を与えるべきではないことを意味します(ただし、モデルフィッティング中のMCMCミキシングに影響する可能性があります)。ただし、私の考えでは、疑似優先順位の形式は重要です。私は以前、この質問でこれについて尋ねました。@ Xi'anはコメントしました(4番目のコメント):「どのモデルが正しいかについての推論は、疑似優先度に依存しません」。 最近、Martyn Plummerから、Carlin&Chibに対する私の理解と矛盾するコメントを読みました。マーティンは言う:「Carlin-Chibメソッドが機能するためには、モデルがtrueの場合、疑似優先順位が事後と一致する必要があります。」 (私は、プラマーがカーリン&チブと矛盾することを言っているのではなく、カーリン&チブの主張に対する私の理解と矛盾しているということだけです)。 これらすべてから、次の5つの質問が残ります。 ここで何が起こっているのですか?モデルが収束し、事後から有効なサンプルサイズが得られる場合、モデルに含める変数に関する推論は、疑似優先度に依存しますか? そうでない場合、どのように私はこれを私の直感とプラマーのコメントで二乗するのですか?もしそうなら、これをカーリン&チブの論文と西安のコメント(4番目のコメント)でどう平方するか? プラマーのコメントに対する私の理解が正しく、変数が含まれている場合に疑似優先度が事後に対応している必要がある場合...これは、真の事前値に正確に対応する疑似優先度が許可されないことを意味しますか?これは、疑似優先順位が、MCMCでの混合を改善するための便利な手法よりもはるかに優れていることを意味します。 インジケーター変数がいくつかのパラメーター(たとえば、総平均、分散、nグループ効果のある変量効果)を使用してモデルの一部をオンまたはオフにするとどうなりますか?次のうちどれが許容されますか(このアプローチが許容されるという確信度の順に)?記載していないより良いアプローチはありますか? 私。 すべてのパラメーターの完全同時事後分布を近似する疑似優先順位を使用します。 ii。混合が残虐に許容されない場合は、疑似優先度をまったく使用しないでください(つまり、真の事前値と同等の疑似優先度を使用します)。 iii。各パラメーターの1変量事後分布に基づく疑似優先順位を使用しますが、それらがどのように一緒に分布されるかについては心配しないでください。 iv。カーリンとチブの明らかに平易な言葉に従い、MCMCチェーン内で計算上効率的なミキシングを提供する任意の疑似優先順位を使用します。「[疑似優先順位]の形式は無関係です」。 西安@上の最初のコメントに何を意味する私の質問を言っにおける「疑似事前確率は、補正の重要性サンプリングタイプの補正を必要としています。」

1
2パーツモデル(Craggなど)とTobitタイプ2モデル(Heckmanなど)の正確な違い
DVがスタートアップによって得られた資金の額(米ドル)である回帰を実行したいと思います。当然、DVには多くのゼロ(〜55%)が含まれ、y> 0の連続分布があります。 一般に、私の理解では、Tobitモデル(またはそのバリエーション)はこのDVをモデル化するのに適しています。 今月も読んで議論しているが、標準のTobit(1958)モデル、Cragg(1971)によって提案された2部の拡張と、たとえばHeckmannで表されるTobit Type 2モデルの正確な違いに頭を悩ませている。 (1974、1976、1979)。私の現在の理解は、すべてのモデルが理論的にはさまざまな長所と短所に適用可能であり、それらをまったく使用しない理由の可能性があることです(データセットの正確な特性によって異なります)。 標準のTobitモデルを除外した理由 私のアプリケーションでは、標準のTobitモデルを除外しました。これは、両方のプロセスが同じ変数によってのみ制御され、1つの係数のみが報告されるためです。したがって、特定の変数の効果は、選択と結果の方程式に異なる符号を付けることはできません(場合によってはそうなります)。 Tobit Type 2(またはHeckmann選択モデル)と2パーツモデル(Cragg) これまでの私の理解は、2つのモデルの主な違いは、2つの部分のモデルが真のゼロのみを仮定するという事実であるのに対し、Tobit Type 2は、観測されていないゼロ(たとえば、一般に喫煙をしない人は、 a 0で、一般的に喫煙するが、ある時点で喫煙する余裕がない人も0です) ただし、Cragg(1971)がもともと2つのハードルモデルを提案していたため、yの正の値が観測される前に2つのハードルを克服する必要があるため、これは完全に真実ではありません。喫煙者であるかどうかはありません。]]次に、肯定的な願望が実行されるためには好ましい状況が発生する必要があります(つまり、私は喫煙者であり、喫煙するのに十分な資金を持っています)]。 これは、Tobit Type IIが最初の選択式で両方のタイプのゼロ(または観測されていないだけですか?)を説明し、結果の式がy> 0で切り捨てられることを意味すると思います。単一ハードルCraggモデルは選択の真のゼロのみを説明します方程式とダブルハードルクラッグモデルは、選択中に「観測されていない」ゼロを、結果方程式中に「真の」ゼロを考慮します。 ご質問 3つのモデルに関する私の説明は正しいですか?そして、これは正確にはどういう意味ですか?ゼロのソースが唯一の/主要な決定基準ですか?もしそうなら、これは私のデータに関して私にとって意味があります:スタートアップは資金を申請するかどうかを決定します(ゼロの最初のソース->観察されません)、その後、市場は資金を供給するかどうかを決定します(ゼロの2番目のソース->観察されます)肯定的な場合、どのくらい(y> 0)->クラッグの二重ハードルモデル(単一のハードルモデルと間違われることが多い実際の「二重」ハードルモデル) 私の(潜在的に間違っている)結論に関係なく:使用するモデルのタイプ(Tobit Type 2(Heckmann)モデルまたは2つの部分のモデル(単一ハードル(すべてゼロ)真のゼロ)またはダブルハードル(選択と消費時にゼロが発生する可能性があります))?ゼロのソースだけではありませんか? 追加情報 この論文(素晴らしい読み物です!Brad R. Humphreys、2013年https://sites.ualberta.ca/~bhumphre/class/zeros_v1.pdf)と特に重要なグラフィックの1つは、観測されていないゼロ(つまり、データが不足している、企業が資金調達を求めていない)、ゼロ(すなわち、投資家が資金提供を行っているかどうか)を非常によく観察した。また、使用するモデルに関するガイダンスも提供しますが、残念ながら、両方のタイプのゼロが同時に存在するデータのソリューションは提供しません。 可能な解決策 さらに掘り下げた後、私が探しているものを正確に統計的に解決する2つの論文を見つけました。 Blundell、Richard and Meghir、Costas、(1987)、Bivariate Alternatives to the Tobit model、Journal of Econometrics、34、issue 1-2、p。179-200。(http://sites.psu.edu/scottcolby/wp-content/uploads/sites/13885/2014/07/Blundell1987_Bivariate-alternatives-to-the-tobit-model.pdf)は、依存関係を想定した二重ハードルモデルについて説明しています。アプリケーションについては、Blundell、Richard、Ham、JohnおよびMeghir、Costas(1987)、Unemployment and Female Labour Supply、Economic Journal、97、issue …

1
エラスティックネット回帰の交差検証:テストセットでの二乗誤差対相関
弾性ネット回帰を考慮glmnet損失関数の様パラメータ化n \ ll p (それぞれ44と3000)のデータセットがあり、繰り返し11分割交差検証を使用して、最適な正則化パラメーター\ alphaおよび\ lambdaを選択しています。通常、私はテストセットのパフォーマンスメトリックとして二乗誤差を使用します。たとえば、このR二乗のようなメトリック:L_ \ text {test} = 1- \ frac {\ lVert y_ \ text {test}-\ hat \ beta_0- X_ \ text {test} \ hat \ beta \ rVert ^ 2} {\ lVert y_ \ text {test}-\ hat \ beta_0 \ rVert ^ 2}、L =12 n∥∥y−β0− …

2
テストモデルの仮定は、pハッキング/フィッシングと見なされますか?
こことここで説明されている「Pハッキング」、「フィッシング」、および「分岐パスの庭」は、偏った推定値を生成する調査を行う探索的データ分析のようなスタイルを示しています。 モデルの適合に使用されるのと同じデータセットで統計的検定を使用してモデルの仮定(たとえば、正規性、回帰のホモスケダスティシティ)をテストすることは、「p-ハッキング」または「分岐パスのガーデン」の問題と見なされますか? これらのテストの結果は、研究者が最終的にどのモデルに適合するかを決定するのに確かに影響します。

1
完全(グローバル)回帰モデルに基づく推論は適切ですか?
完全なモデルに基づく推論は適切であり、適切な場合はどのような状況ですか? 応答変数といくつかの候補予測子変数の間の潜在的な関係に関心があり、何らかの形の回帰(たとえば、一般化線形モデル)を使用してそれに答えるとします。どの予測因子が「重要」であるか、または応答と明らかに真の関係にあるかを推測する1つのアプローチは、情報理論的基準(たとえばAIC)に基づくモデル比較です。最終モデルで保持されない変数は応答とある程度の関係があるかもしれませんが、モデルに保持されている他の予測子を考えると、それらは本質的に追加の実質的な情報を提供しません。 完全な(グローバル)モデル(すべての候補予測子を含む)を単純に当てはめて、そこで停止し、t統計(または他の統計)とp値のみに基づいて個々の予測子に基づいて推論する方が適切な場合はありますかこの完全なモデルでは、さらにモデルを選択する必要はありませんか? 私は、潜在的な欠点はあるものの、これを行うのが賢明なことかもしれないという提案に遭遇しました(例:Whittingham et al。「なぜなぜ生態学と行動に段階的モデリングを使用するのですか?」(2006)。偏りはありませんが、モデルの他の(「重要でない」)変数がそれらに影響を与える可能性があるため、他のソースはこれらの推定値とp値は信頼できないと述べています。 潜在的な生物学的関係を理解することを目的とする場合、どの方法がより適切でしょうか?

2
加法モデルと乗法モデルのどちらを選択しますか?
現在分析しているデータのセットがあります。 データを予測するために加法モデルを使用する必要があるかどうか、または乗法モデルを使用する必要があるかどうかを判断するのが困難です。 2つの違いを知っているので、生データが線形のときに正しいモデルを適用できますが、この場合、データは非線形です。 データの時系列を添付しました。2つのモデルのどちらを使用する必要がありますか。その理由は何ですか。 (私の本能は、季節変動の大きさ(またはトレンドサイクルの変動)が時系列のレベルによって変化しないように見えることに基づいて、加法モデルを使用することです。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.