高次元の相関データと上位の特徴/共変量が発見されました。複数の仮説検定?


9

約5,000の相関関係のある特徴/共変量とバイナリ応答のデータセットがあります。データは私に与えられました、私はそれを集めませんでした。ラッソとグラディエントブースティングを使用してモデルを構築しています。私は反復されたネストされた相互検証を使用しています。Lassoの最大(絶対)40係数と、勾配ブーストツリーの40の最も重要な機能を報告します(40について特別なことは何もありませんでした。これは、妥当な量の情報であるように思われました)。また、CVのフォールドと反復におけるこれらの量の分散についても報告します。

私は「重要な」機能について少し考え、p値や因果関係などについては何も述べていませんが、代わりにこのプロセスをある種の---不完全でランダムなものである-何らかの現象への洞察と見なしています。

私がこれをすべて正しく行ったと仮定すると(たとえば、相互検証を正しく実行し、投げ縄用にスケーリングした)、このアプローチは妥当ですか?たとえば、複数の仮説検定、事後分析、誤った発見などの問題はありますか?または他の問題?

目的

有害事象の確率を予測する

  • まず、正確に確率を推定する
  • よりマイナー-健全性チェックとしてだけでなく、さらに調査できるいくつかの新しい予測子を明らかにするために、上記のように係数と重要性を検査します。

消費者

  • このイベントの予測に関心のある研究者、およびイベントが発生した場合にイベントを修正する必要のある人々

彼らがそれから抜け出してほしいもの

  • 説明されているように、独自のデータを使用してモデリングプロセスを繰り返したい場合は、イベントを予測する機能を提供します。

  • 予想外の予測因子に光を当てる。たとえば、完全に予期しないことが最良の予測因子であることが判明する場合があります。したがって、他の場所のモデラーは、この予測子をより真剣に検討するかもしれません。


ここに意図が何であるかを知っておくと役に立ちます。あなたはこれらのことをしました、なぜですか?消費者は誰ですか?また、分析から何を取得してもらいたいですか?
Matthew Drury

回答:


2

予測の精度に問題はありません。予測の不確実性は、交差検証によって十分に推定されます。多くのパラメーター設定をテストすると精度が過大になるため、検証セットを使用して最終的なモデルの精度を推定する必要があることに注意してください。また、データは、予測を行うデータの代表である必要があります。

予測因子は効果の原因ではなく、優れた予測を行い、経験的にうまく機能する予測因子にすぎないことは、読者には明らかであり、読者にも明らかであるべきです。私はあなたの注意に完全に同意しますが、いずれの場合でも、観測データから因果関係を推測することには問題があります。有意性などは、適切に設計された管理された研究における「有効な」概念であり、それ以外は、あなたや他の人が慎重かつ慎重に解釈すべきツールにすぎません。一般的な原因、偽の効果、マスキング、および報告された信頼区間を使用した通常の線形回帰、およびLassoモデル、ならびに勾配ブーストツリーモデルで発生している可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.