タグ付けされた質問 「predictor」

応答を予測するためにモデルで使用される変数を参照します。このタグは、予測モデリングだけでなく、説明および記述モデリングの変数にも使用できます。この同じ構造は、独立変数、説明変数、リグレッサ変数、共変量など、さまざまなコンテキストで多くの名前で使用されます。このタグは、これらの同義語のいずれにも使用できます。 バツ

6
推定と予測の違いは何ですか?
たとえば、過去の損失データがあり、極端な変位値(Value-at-RiskまたはProbable Maximum Loss)を計算しています。得られた結果は、損失を推定するか、損失を予測するためのものですか?どこで線を引くことができますか?私は混乱しています。

4
モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか?
モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか? この質問は現象について説明していますが、私の質問には答えていません 。ANCOVAの共変量の有意でない影響をどのように解釈するか しかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値(共変量には当てはまらないと思われる有意性しきい値)を超える量を必ずしも説明することなく、分散の一部を説明できます(したがって、モデルを支援します)。 CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。(私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。) それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか?(とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。) 複雑さを追加するために、データの一部のサブセット(個別に処理する必要のあるサブセット)の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。

2
線形回帰で標準化された説明変数を使用するタイミングと方法
線形回帰について2つの簡単な質問があります。 説明変数を標準化することが推奨されるのはいつですか? 標準化された値で推定が実行されたら、新しい値でどのように予測できますか(新しい値を標準化する方法)。 いくつかの参考文献が役立ちます。

3
他の予測変数を含めた後に符号を反転させる回帰係数
想像してみて 4つの数値予測子(IV1、...、IV4)で線形回帰を実行します IV1のみが予測子として含まれる場合、標準化されたベータは +.20 IV2からIV4も含めると、IV1の標準化回帰係数の符号が反転します-.25(つまり、負になります)。 これにより、いくつかの質問が生じます。 用語に関しては、これを「抑制効果」と呼んでいますか? この効果の説明と理解にどの戦略を使用しますか? 実際にそのような効果の例はありますか?また、これらの効果をどのように説明し、理解しましたか?



4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
治療の影響を受ける共変量で必要な良いデータの例
私は多くのRデータセット、DASLでの投稿、および他の場所を見てきましたが、実験データの共分散分析を説明する興味深いデータセットの良い例をあまり見つけていません。統計の教科書には、不自然なデータを含む「おもちゃ」のデータセットが多数あります。 例があります: データは本物であり、興味深いストーリーがあります 少なくとも1つの治療因子と2つの共変量があります 少なくとも1つの共変量は1つ以上の治療因子の影響を受け、1つは治療の影響を受けません。 観察的ではなく実験的、できれば バックグラウンド 私の本当の目標は、Rパッケージのビネットに入れる良い例を見つけることです。しかし、より大きな目標は、共分散分析におけるいくつかの重要な懸念を示すために、人々が良い例を見る必要があるということです。次の構成シナリオを検討してください(そして、農業に関する私の知識はせいぜい表面的なものであると理解してください)。 肥料を区画にランダム化して、作物を植える実験を行います。適切な生育期間の後、作物を収穫し、品質特性を測定します-それが応答変数です。しかし、栽培期間中の総降雨量、収穫時の土壌酸性度、そしてもちろんどの肥料が使用されたかを記録しています。したがって、2つの共変量と1つの処理があります。 結果データを分析する通常の方法は、因子としての処理と共変量の相加効果をもつ線形モデルを適合させることです。次に、結果を要約するために、平均降水量と平均土壌酸性度3での各肥料のモデルからの予測である「調整済み平均」(別名最小二乗平均)を計算します。これにより、すべてが平等になります。これらの結果を比較すると、降雨量と酸性度が一定に保たれるためです。 しかし、これはおそらく間違ったことです。肥料はおそらく土壌の酸性度と反応に影響を与えるからです。治療効果には酸性度への影響が含まれるため、調整された手段は誤解を招く可能性があります。これを処理する1つの方法は、モデルから酸性度を取り除くことです。その後、降雨量を調整した手段で公平な比較を行います。しかし、酸性度が重要な場合、この公平性は、残留変動の増加という大きな犠牲を伴います。 モデルの元の値の代わりに調整されたバージョンの酸性度を使用することにより、この問題を回避する方法があります。私のRパッケージlsmeansの今後の更新により、これは非常に簡単になります。しかし、私はそれを説明する良い例が欲しいです。いくつかの優れた実例となるデータセットを教えてくれた人に感謝し、正当に認めます。


2
ポアソンモデルでは、時間を共変量またはオフセットとして使用することの違いは何ですか?
最近、時間のログをポアソン回帰のオフセットとして使用して、時間の経過に伴う露出をモデル化する方法を発見しました。 オフセットは、係数1と共変量として時間を持つことに対応することを理解しました。 時間をオフセットとして使用するか、通常の共変量として使用するか(そのため係数を推定する)の違いをよりよく理解したいと思います。どの状況で、どちらの方法を使用する必要がありますか? アップグレード:面白いかどうかわかりませんが、ランダムに分割されたデータを500回繰り返して使用して2つの方法の検証を実行し、オフセット方法を使用するとテストエラーが大きくなることに気付きました。

3
順序カテゴリ変数を独立変数として処理する方法
ロジットモデルを使用しています。私の従属変数はバイナリです。ただし、カテゴリ変数であり、応答を含む独立変数があります1.very good, 2.good, 3.average, 4.poor and 5.very poor。したがって、それは序数です(「定量的カテゴリ」)。モデルでこれを処理する方法がわかりません。を使用していgretlます。 [@ttnphnsからの注記:モデルはロジットであるとの質問がありますが(依存関係はカテゴリカルであるため)、重要な問題-順序独立変数-は基本的に類似しており、依存カテゴリカルまたは定量的です。したがって、この問題は、たとえばロジスティック回帰または他のロジットモデルと同様に、線形回帰にも同様に関連しています。]


3
「関連するすべての予測変数」を含める必要が本当にありますか?
推論に回帰モデルを使用する基本的な前提は、「すべての関連する予測子」が予測式に含まれていることです。理論的根拠は、重要な現実世界の要因を含めないと、係数に偏りが生じ、そのため不正確な推論(つまり、変数バイアスの省略)につながるということです。 しかし、研究の実践では、「関連するすべての予測子」に似たものを含む人を見たことはありません。多くの現象には無数の重要な原因があり、それらすべてを含めることは不可能ではないにしても非常に困難です。すぐに使える例は、結果としてうつ病をモデル化することです:「関連するすべての変数」を含むモデルに近いものは誰も作成していません:例えば、親の歴史、性格特性、ソーシャルサポート、収入、それらの相互作用など。等... さらに、そのような複雑なモデルのフィッティングは、非常に大きなサンプルサイズがない限り、非常に不安定な推定値につながります。 私の質問は非常に簡単です。「関連するすべての予測変数を含める」という仮定/アドバイスは、単に「言う」が、実際には決して意味のないものですか。そうでない場合、なぜ実際のモデリングのアドバイスとしてそれを与えるのですか? そして、これはほとんどの係数がおそらく誤解を招くことを意味しますか?(たとえば、いくつかの予測因子のみを使用する人格要因とうつ病に関する研究)。言い換えれば、これは私たちの科学の結論にとってどれほど大きな問題なのでしょうか?

4
予測変数の異なるセットの重要性の比較
私は特定の問題を抱えている研究生にアドバイスをしていましたが、このサイトで他の人の意見を聞きたいと思いました。 環境: 研究者には3種類の予測変数がありました。各タイプには、異なる数の予測変数が含まれていました。各予測変数は連続変数でした: ソーシャル:S1、S2、S3、S4(4つの予測子) 認知:C1、C2(つまり、2つの予測子) 行動:B1、B2、B3(つまり、3つの予測子) 結果変数も連続的でした。サンプルには約60人の参加者が含まれていました。 研究者は、結果変数を説明する上でどのタイプの予測因子がより重要であるかについてコメントしたかった。これは、これらのタイプの予測因子の相対的な重要性に関するより広範な理論的懸念に関連していました。 ご質問 1つの予測変数セットと別の予測変数セットの相対的な重要性を評価する良い方法は何ですか? 各セットに異なる数の予測変数があるという事実に対処するための良い戦略は何ですか? 解釈の際に注意すべき点は何ですか? 例への参照や技術の議論も大歓迎です。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.