この質問がどこに属しているのかわかりません:Cross Validated、またはThe Workplace。しかし、私の質問は漠然と統計に関連しています。
「データサイエンスインターン」として働いている間に、この質問(または私は質問だと思います)が生じました。この線形回帰モデルを構築し、残差プロットを調べていました。異分散性の明確な兆候が見られました。不均一分散性は、信頼区間やt検定などの多くの検定統計量を歪めることを覚えています。そこで、大学で学んだことに従って、重み付き最小二乗法を使用しました。私のマネージャーはそれを見て、「私は物事を複雑にしていた」ので、それをしないように忠告しました。
別の例は、「p値が重要でないため、説明変数を削除する」です。つまり、このアドバイスは論理的な観点からは意味がありません。私が学んだことによると、取るに足りないp値はさまざまな理由による可能性があります:偶然、間違ったモデルの使用、仮定への違反など。
さらに別の例として、k-fold cross validationを使用してモデルを評価しました。結果によると、はよりも優れています。ただし、モデル1のは低く、その理由は切片と関係があります。しかし、私のスーパーバイザーは、モデル2の方がが高いため、モデル2を好むようです。彼の理由(が堅牢である、または相互検証が統計的アプローチではなく機械学習アプローチであるなど)は、私の考えを変えるほど説得力がないようです。 R 2R 2
大学を卒業したばかりの人として、私は非常に混乱しています。私は正しい統計を適用して現実世界の問題を解決することに非常に情熱を注いでいますが、次のどれが当てはまるのかわかりません。
- 自分で学んだ統計は間違っているので、間違いを犯しています。
- 企業の理論統計とモデルの構築には大きな違いがあります。そして統計理論は正しいが、人々はそれに従わない。
- マネージャーは統計を正しく使用していません。
2017年4月17日に更新:博士号を取得することにしました。統計で。お返事ありがとうございます。