説明的モデリングと予測的モデリングに関する実際的な考え


70

4月に戻って、私はUMD数学部門統計グループセミナーシリーズ「説明するか予測するか?」に参加しました。この講演は、UMDのスミスビジネススクールで教えているGalit Shmueli教授によって行われました。彼女の講演は、「IS Researchでの予測と説明のモデリング」というタイトルの論文と、「説明するか予測するか」というタイトルのフォローアップワーキングペーパーで行った研究に基づいています。

シュムエリ博士の議論は、統計モデリングの文脈における予測と説明の用語が混同されており、統計文献には違いの徹底的な議論が欠けているということです。論文では、彼女は両方を対比し、それらの実際的な意味について話しています。論文を読むことをお勧めします。

開業医コミュニティに提起したい質問は次のとおりです。

  • 予測エクササイズと説明/記述エクササイズをどのように定義しますか?特定のアプリケーションについて話すことができれば便利です。
  • 他を使用する意味があるときに、一方を使用するというtrapに陥ったことはありますか?確かにあります。どちらを使用するかをどのように知っていますか?

2
この質問は終了することが提案されています。参照:meta.stats.stackexchange.com/questions/213/…投票数は2票です。投票者やOPは、質問をメタスレッドで開いたままにしておきたい理由についてコメントできますか?

9
「これは閉じられるべきです。誰かがそれを守るべきです」と言うのではなく、なぜ閉じたいのかを説明することから始めましょう。あいまいすぎる?次に、説明を求めます。これは理にかなっている質問のようです。質問者は論文を提示し、予測統計と説明統計の違いについて尋ねます。私が質問に対して行う唯一の変更は、質問を正確に明確にし、投票を容易にすることです。
JDロング

2
私はすでにメタスレッドで理由を提示しました。質問についての「メタディスカッション」がこの特定のページを混乱させると思います。

2
@Srikant @JD質問を強化します。フィードバックをお寄せいただきありがとうございます。これは議論に値するトピックだと思います。
-wahalulu

4
上記の講演/論文に適切なリンクを追加できますか?
chl

回答:


39

一文で

予測モデリングはすべて「起こりそうなこと」に関するものですが、説明モデリングはすべて「それについて何ができるのか」に関するものです。

多くの文章で

主な違いは、分析で行われることです。説明は予測よりも介入にとってはるかに重要であることをお勧めします。あなたが結果を変えるために何かをしたいなら、あなたはそれがそうである理由を説明しようとするのが最善でした。説明的モデリングがうまく行けば、介入する方法(どの入力を調整する必要があるか)がわかります。ただし、介入する意図(または能力)がなく、将来がどうなるかを単に理解したい場合は、予測モデリングが適切である可能性が高くなります。

「がんデータ」を使用した非常に緩やかな例として。

さまざまな病院のがん病棟に資金を提供している場合、「がんデータ」を使用した予測モデリングは適切(または少なくとも有用)です。なぜ人々ががんになるのかを説明する必要はありません。むしろ、必要なサービスの正確な見積もりの​​みが必要です。ここでは説明的なモデリングはあまり役に立たないでしょう。たとえば、喫煙が癌のリスクを高めることを知っているからといって、A病棟またはB病棟により多くの資金を提供すべきかどうかはわかりません。

「がんデータ」の説明的なモデリングは、全国的ながんの発生率を減らしたい場合に適しています。予測モデリングはここではかなり時代遅れです。がんの発生率を正確に予測する能力は、がんを減らす方法を決定するのに役立ちそうにありません。しかし、喫煙が癌のリスクを高めることを知ることは価値のある情報です-喫煙率を下げると(例えば、タバコをより高価にすることによって)、これはより少ないリスクでより多くの人々につながり、(願わくば)予想される癌の減少につながりますレート。

このように問題を見ると、説明的モデリングは主に、ユーザーを直接または間接的に制御している変数に焦点を当てると思います。他の変数を収集する必要があるかもしれませんが、分析で変数を変更できない場合、それらの変数を制御したり影響を与えたいという場合を除いて、説明的なモデリングが役立つとは思いませんそれは重要です。大まかに言うと、予測モデリングは、ユーザーによって制御されているかどうかに関係なく、変数間の関連を探します。予測を行うには、入力/機能/独立変数などを知っている必要がありますが、結果に介入して変更するには、入力/機能/独立変数などを変更または影響を与えることができる必要があります。


9
+1、うまくできました!私はちょっとしたことは嫌いですが、予測は未来に関するものである必要はないことに注意してください。たとえば、考古学者は、残っている痕跡(すなわち、降雨の影響)の知識によって、過去のある時点での地域の降雨のレベルを決定(つまり、予測)したい場合があります。
GUNG -モニカ元に戻し

@gung-これが起こらないように、自分の回答を言葉にしたと思った。明らかに、私はスポットを見逃しました:-)
確率

素敵な答え。多くの場合、私たちは未来がどのように見えるか、そしてその理由を知る必要があると思います。顧客の解約を検討するときに、来月Nか月に解約した顧客(および正確にどの顧客)を解き、その後、顧客が解約するためにマーケティングが介入できるように解約する理由を知りたいとします。次に、予測(将来の数と顧客を学習するため)と説明の両方が必要であるため、原因を減らすことができます。それで、両方または1つの十分なハイブリッドモデルを持っていますか?Vartyは、「既知の関係は説明的/記述的分析またはその他の手法から
明らかになる

@gung私はひとつまみするのが大好きです。考古学者は彼女の将来の経験を予測することを望みます(つまり、将来のある時点で過去の高雨の痕跡を見つける場所を予測する)。
アレクシス

@アレクシス、それは確かに可能ですが、それが考古学者の主な研究関心ではなく、それらのデータがすでに他の研究者(古気候学者)によって収集されており、考古学者は単にそれらのデータを使用して理論をテストしたい可能性もあります彼らの主要な理論的関心(ギル、200)。
グン-モニカの復職

30

私の見解では、違いは次のとおりです。

説明/説明

説明的/説明的な答えを求めるとき、私たちが持っているデータに主眼を置いており、ノイズを考慮した後、データ間の潜在的な関係を発見しようとします。

例:定期的な運動(1日あたり30分など)が血圧の低下につながるというのは本当ですか?この質問に答えるために、私たちは患者から運動レジメンと血圧値についてのデータを収集します。目標は、運動レジメンの変動によって血圧の変動を説明できるかどうかを確認することです。

血圧は、人が食べるナトリウムの量など、さまざまな他の要因による運動だけでなく、これらのその他の要因は、運動レジメンと血圧。

予測

予測演習を行うとき、手元にあるデータ間の既知の関係を使用して、未知のものに外挿します。既知の関係は、説明/記述分析またはその他の手法から明らかになる場合があります。

例:1日1時間運動すると、血圧はどの程度低下する可能性がありますか?この質問に答えるために、血圧と運動療法の間に以前に明らかにされた関係を使用して、予測を実行することができます。

上記のコンテキストでは、説明モデルは予測プロセスを支援できますが、説明に焦点はありません。また、変数間の基礎となる関係の性質に関する知識を必ずしも追加することなく、未知の予測に優れた説明のつかないアプローチ(ニューラルネットなど)もあります。


6
+1この返信は、説明、説明、および関係の言語を使用することにより、因果関係との混同を回避します。これにより、望ましい程度の明瞭さが得られます。
whuberの

4
「説明」の下で、「主な焦点は私たちが持っているデータにあります」と書きました-あなたは、タスクが遡及的であると言っているのではないかと思います。説明(「因果説明」を参照)では、実際には理論と領域の知識に大きな焦点があり、これらの仮定/理論をテストするためにデータが使用されます。対照的に、予測では、データ駆動型であり、因果関係を検索するのではなく、相関関係を検索するため、関係についてよりオープンマインドです。
ガリットシュムエリ

@GalitShmueli Reg理論/ドメイン知識-はい、その点に同意します。私は、変数の値を外挿することと変数間の関係を明らかにすることの重要な区別と思われるものに焦点を当てることで、予測と説明を対比しようとしました。その過程で、私はもちろん、2つのパラダイム間の微妙なニュアンスを無視する罪を犯しています。
varty

1
@varty私はあなたのポイントに同意する:説明/説明で、あなたが(必ずしも外挿)の予測では、個々の値を予測することに興味があるのに対し、全体的な/平均関係/効果に興味がある
Galit Shmueli

19

ここで生じる実際的な問題の1つは、モデリングにおける変数の選択です。変数は重要な説明変数(たとえば、統計的に有意)である場合がありますが、予測目的には役立たない場合があります(つまり、モデルに含めると予測精度が低下します)。出版された論文では、この間違いをほぼ毎日見ています。

別の違いは、主成分分析と因子分析の違いです。PCAは予測でよく使用されますが、説明にはあまり役立ちません。FAには、解釈(および説明)を改善するために行われる追加の回転ステップが含まれます。今日、これについてGalit Shmueliのブログに素敵な投稿があります。

更新:3番目のケースは、変数が重要な説明変数である可能性があるが、将来は使用できない場合の時系列で発生します。たとえば、住宅ローンはGDPに強く関連している可能性がありますが、GDPの適切な予測がない限り、これは将来の住宅ローンの予測にはあまり役立ちません。


3
重要な説明変数が予測精度を低下させる理由/方法

3
@スリカント。これは、説明変数が応答変数と弱いが重要な関係がある場合に発生する可能性があります。その場合、係数は統計的に有意ですが、推定が困難になる可能性があります。結果として、予測のMSEは、変数が含まれている場合、省略されている場合と比較して増加する可能性があります。(含めるとバイアスは減少しますが、分散は増加します。)
ロブハインドマン

最初の段落は非常に良い点です。それでも、さらに悪いこともあります。ここPMID:18052912は、真のモデルよりもセットのノイズ部分でより良いモデルを作成できる素晴らしい例です-ランダムデータで良いモデルを作成できることは明らかですが、これは少し衝撃的です。

1
私の過失を許しますが、通常、回転はPCAおよびFAの一部ではありませんか?
-richiemorrisroe

3
統計学的な署名。ただし、弱い予測子は、予測または説明のいずれにも効果的ではありません。たとえば、線形回帰ソリューションの予測値X1を含まない.40のRSQがあり、X1を含めるとそのRSQに.01が追加される場合、X1は予測にも説明にも「重要」ではありません。
rolando2

17

使用するモデル/アルゴリズムの観点から区別を考えるのが最も簡単な人もいますが(たとえば、ニューラルネット=予測)、それは説明/予測の区別の特定の側面にすぎません。これは、両方の角度から線形回帰を教えるためにデータマイニングコースで使用するスライドのデッキです。線形回帰だけでも、この小さな例でも、さまざまな問題が発生し、説明的な目標と予測的な目標(変数の選択、変数の選択、パフォーマンス測定など)の異なるモデルにつながります。

ガリット


5
好奇心から、それは予測のための回帰のあなたの議論で(Pを開始。33)は意図的であるあなたの選択した予測因子(ステップ1)の前に訓練および検証データセット(ステップ3)に分割しますか?最も客観的で正直な手順は、散布図を見る前であっても、最初にパーティション分割することだと考えました(ステップ2)。データセット全体に基づいてリグレッサーが選択された場合、その後検証データに適用された場合でも、多くのテストで見かけの有意水準が膨らまないでしょうか?
whuberの

より一般的な質問は、ホールドアウトを維持する前にデータの視覚化を実行するかどうかだと思います。データセットが大きい場合、それは実際には重要ではありません。少量のサンプルでは、​​視覚化を使用して予測変数を選択することは確かに危険です。私のスライドでは、変数の選択に視覚化を使用するつもりはありません。「予測子の選択」は、より一般的には「妥当な利用可能な予測子の潜在的なセットを選択する」です。それは、合理的なセットを選択するためのドメイン知識を組み込むことに関するものです。
ガリットシュムエリ

「説明または予測する」というトピックを続けると、関連する質問がここにあります。質問はほとんどあなたの論文に基づいているので、ご覧になっていただければ幸いです。
リチャードハーディ

シュムエリ教授は、このトピックに関する論文の291ページで、1993年にガイザーによって定義された「非確率的予測」のみを検討していると言います。非確率的予測の完全な定義はどこにありますか?同様に新しい投稿を開始できてうれしいですが、私は最初にここで尋ねると思いました。
user0

11

例:私が見た古典的な例は、人間のパフォーマンスを予測することです。自己効力感(つまり、人がタスクをうまく実行できると思う程度)は、多くの場合、タスクパフォ​​ーマンスの強力な予測因子です。したがって、知能や過去の経験の程度などの他の変数とともに自己効力感を重回帰に入れた場合、しばしば自己効力感が強力な予測因子であることがわかります。

これにより、一部の研究者は、自己効力感がタスクのパフォーマンスを引き起こすことを示唆しています。そして、その効果的な介入とは、人の自己効力感を高めることに焦点を当てたものです。

ただし、代替の理論モデルでは、自己効力感は主にタスクのパフォーマンスの結果として見られます。すなわち、あなたが良いなら、あなたはそれを知っているでしょう。このフレームワークでは、介入は、知覚能力ではなく実際の能力の向上に焦点を当てる必要があります。

したがって、自己効力感のような変数を含めると予測が向上する可能性がありますが、結果としての自己効力感モデルを採用すると仮定すると、モデルの目的がパフォーマンスに影響する因果プロセスを解明することである場合、予測因子として含めるべきではありません。

もちろん、これは因果理論モデルの開発と検証の方法の問題を提起します。これは明らかに、理想的にはいくつかの実験的操作を伴う複数の研究と、動的プロセスに関する一貫した議論に依存しています。

近位対遠位:研究者が遠位および近位の原因の影響に興味がある場合、私は同様の問題を見てきました。近位の原因は、遠位の原因よりも予測する傾向があります。ただし、理論上の関心は、遠位および近位の原因がどのように作用するかを理解することにあるかもしれません。

変数選択の問題:最後に、社会科学研究の大きな問題は変数選択の問題です。どの研究でも、測定できたが測定されなかった変数の数は無限です。したがって、モデルの解釈では、理論的な解釈を行う際にこの意味を考慮する必要があります。


また、社会科学には「弱い仮説」という問題もあります(例:効果は正対負)。そして、その「自己効力感」の例では、各人が築いたパフォーマンスの内部予測因子としてそれを見ることができます。したがって、おそらく「ブラックボックス」予測を説明変数として使用することに似ています。
確率論的

9

統計モデリング: L.ブライマンによる2つの文化(2001年)は、おそらく、この点に関する最高の論文です。彼の主な結論(この文書の最後にある他の著名な統計学者の回答も参照)は次のとおりです。

  • 「予測精度が高いほど、基礎となるデータメカニズムに関する信頼性の高い情報に関連付けられます。予測精度が弱いと、疑わしい結論につながる可能性があります。」
  • 「アルゴリズムモデルは、データモデルよりも優れた予測精度を提供し、基礎となるメカニズムに関するより良い情報を提供できます。」


3
アルゴリズムモデルの問題は、理解しにくいことです。これにより、発生する可能性のある問題の診断と修正が困難になります。各コンポーネントの外観がわかっているため、構造モデルの評価ははるかに簡単です。
確率論的

8

リンクされた論文の要約を超えて彼女の作品を読んだことはありませんが、私の感覚では、「説明」と「予測」の区別は捨てられ、開業医の目的の区別に置き換えられるべきです。 「因果」または「予測」。一般に、「説明」はあまり意味のない曖昧な言葉だと思います。たとえば、フックの法則は説明的または予測的ですか?スペクトルのもう一方の端では、予測的に正確な推奨システムは、明示的なアイテム評価の因果モデルに適していますか?私たちは皆、科学の目標は説明であり、技術の目標は予測であるという直感を共有していると思います。そして、この直観は、教師付き学習アルゴリズムなど、使用するツールを考慮するとどういうわけか失われます。

以上のことをすべて言いましたが、モデルに適用できる唯一の言葉は解釈可能です。通常、回帰は解釈可能です。多くの層を持つニューラルネットはそうではありません。解釈できないモデルは予測情報のみを提供するのに対し、人々は時々、解釈可能なモデルが因果情報を提供していると単純に仮定していると思います。この態度は私には単に混乱しているようです。


7

質問が何であるかについて、私はまだ少し不明です。そうは言っても、予測モデルと説明モデルの根本的な違いは、焦点の違いです。

説明モデル

xyβ

予測モデル

予測モデルの目標は、何かを予測することです。したがって、彼らは節約や単純さではなく、従属変数を予測する能力に集中する傾向があります。

ただし、説明モデルは予測に使用でき、予測モデルが何かを説明できる場合があるため、上記はやや人為的な区別です。


+1は、上位の回答では直接言及されていなかった複雑さを言及するためのものです。ただし、説明モデルを介入に使用すると、課題が生じます。推定された係数が偏っていないことをどのように確認するのですか?これは、節約から生じる一般的な問題です?
トーマスシュパイデル

5

他の人がすでに言っているように、研究者の目的に関する限りを除いて、区別はいくらか無意味です。

The Two Cultures論文のコメンテーターの1人であるBrad Efron は、次の見解を述べました以前の質問で説明たとおり)。

予測だけで十分な場合があります。郵便局は、手書きの走り書きから正しい住所を予測する方法に満足しています。ピーター・グレゴリーは、予測の目的で研究を行いましたが、肝炎の医学的根拠をよりよく理解することも目的としました。ほとんどの統計調査では、最終的な目標として因果要因を特定しています。

特定の分野(医学など)では、データを生成する基礎となるプロセスを理解するための手段として、説明プロセス(分布など)としてモデルフィッティングを重視しています。他のフィールドはこれにあまり関心がなく、非常に高い予測成功を収める「ブラックボックス」モデルに満足します。これは、モデル構築プロセスにも適用できます。


5

敬意を表して、この質問はより焦点を絞ることができます。他の用語がより適切なときに、ある用語を使用したことがありますか?はい、もちろん。コンテキストから十分に明確な場合もあれば、意欲的になりたくない場合もあります。時々、人々は彼らの用語で単にずさんなまたは怠け者です。これは多くの人々に当てはまり、私は確かに良くありません。

ここで潜在的な価値があるのは(CVの説明と予測の議論)、2つのアプローチの違いを明確にすることです。要するに、区別は因果関係の役割に集中している。世界のある種のダイナミクスを理解し、なぜそれが起こるのかを説明したい場合、関連する変数間の因果関係を特定する必要があります。予測するには、因果関係を無視できます。たとえば、原因に関する知識から効果を予測できます。効果が発生したという知識から原因の存在を予測できます。また、同じ原因によって引き起こされる別の効果の知識によって、1つの効果のおおよそのレベルを予測できます。なぜ誰かがこれをできるようにしたいのですか?彼らがそれに応じて計画できるように、将来起こるかもしれないことの彼らの知識を増やすため。たとえば、仮釈放委員会は、仮釈放された場合に囚人が再犯する確率を予測できるようにしたい場合があります。ただし、これは説明には不十分です。もちろん、2つの変数間の真の因果関係を推定することは非常に困難です。さらに、実際の因果関係を(と考えられるものを)キャプチャするモデルは、予測を行うためにしばしば悪化します。では、なぜそれを行うのでしょうか?第一に、これのほとんどは科学で行われ、そこでは理解が追求されます。第二に、真の原因を確実に選択し、それらに影響を与える能力を開発できれば、その影響に何らかの影響を与えることができます。

統計モデリング戦略に関しては、大きな違いはありません。主に違いは、研究の実施方法にあります。目標を予測できるようにする場合は、予測を行う必要があるときにモデルのユーザーが利用できる情報を見つけます。彼らがアクセスできない情報は価値がありません。予測子の特定のレベル(または狭い範囲内)で予測できるようにしたい場合は、予測子のサンプリング範囲をそのレベルに集中させ、そこでオーバーサンプリングしてみてください。たとえば、仮釈放委員会が主に2つの有罪判決を受けた犯罪者について知りたい場合、1、2、および3の有罪判決を受けた犯罪者に関する情報を収集できます。一方、変数の原因ステータスを評価するには、基本的に実験が必要です。あれは、実験単位は、説明変数の事前に指定されたレベルにランダムに割り当てる必要があります。因果効果の性質が他の変数に依存するかどうかについて懸念がある場合、その変数を実験に含める必要があります。真の実験を行うことが不可能な場合は、はるかに困難な状況に直面します。この状況に入るには複雑すぎます。


1
(x,y,z,v)z(x,y,v)分析の。最後の段落で、このサイトには戦略の急激な違いを証明する多くのアカウントがあります。
whuber

1
これは研究の目的次第です。私はそれを明示的にしなかったと思います(あなたが達成したいことについてだけ話しました)。また、説明が因果関係に正確に関係している必要はないことも事実です-因果関係にも似ています(たとえば、次元-ボリュームの場合は論理的/数学的な意味合いの1つです)。ただし、ほとんどの説明的モデリングは因果関係に集中しています。単純にするために、そのようなことはスキップできると思ったのではないでしょうか。最後に、研究の設計およびデータ収集中に戦略は異なりますが、xのyの回帰はほぼ同じです。
GUNG -モニカ元に戻し

返信してくれてありがとう。このサイトの他のやり取りから、私は「因果関係に関する最も説明的なモデリングセンター」のような普遍的な声明を理解し、作家のバックグラウンドと経験を文字通り真実ではなく反映することを学びました。物理科学と「ハード」科学ではこの記述は正しいかもしれませんが、社会科学と「ソフト」科学では、開業医がそのような強力な主張をすることを疑います。実際、多くの場合、研究中の関係には共通の隠れた原因があると考えられていますが、回帰変数と回帰変数の間の直接的な因果関係は反映されていません。
whuber

@whuber確かに、私のアイデアは私のバックグラウンドと経験に影響されます。この回答が役に立たない場合(投票していないことに気付いた場合)、削除できます。他の多くの人が、私が伝えたいアイデアをカバーする答えを提供してくれました。
グン-モニカの復職

@whuber-柔らかい因果関係の良い例は「喫煙が癌を引き起こす」です-しかし、癌のないチェーン喫煙者を見つけることができると確信しています。因果関係の概念は、イベントのタイミングと相互に関連しています。原因は結果の前に発生する必要があります。これは、キューブの例が意味をなさない理由を説明しています。
確率の

4

回答のほとんどは、説明のためのモデリングと予測のためのモデリングが何であり、なぜ異なるのかを明確にするのに役立ちました。これまでのところ明確ではないのはそれらがどのように異なるです。それで、私は役に立つかもしれない例を提供すると思いました。

大学のGPAを学業準備の機能としてモデル化することに興味があるとします。アカデミック準備の尺度として、次のものがあります。

  1. 適性検査スコア;
  2. HS GPA; そして
  3. 合格したAPテストの数。

予測戦略

目標が予測である場合、これらの変数をすべて線形モデルで同時に使用する可能性があり、主な関心事は予測精度です。College GPAを予測するのに最も有用であると判明した変数は、最終モデルに含まれます。

説明のための戦略

目標が説明である場合、データ削減についてより懸念し、独立変数間の相関について慎重に考えるかもしれません。私の主な関心事は係数の解釈です。

相関予測子を使用した一般的な多変量問題では、「予期しない」回帰係数を観察することは珍しくありません。独立変数間の相互関係を考えると、これらの変数の一部について、それらのゼロ次関係と同じ方向ではなく、直感に反して説明するのが難しいと思われる部分係数を見ることは驚くことではありません。

たとえば、モデルが(適性テストのスコアとAPテストの成功数を考慮に入れて)高い高校のGPAが低い大学のGPAに関連付けられていることを示唆しているとします。 これは予測の問題ではありませんが、このような関係を解釈するのが難しい説明モデルの問題を引き起こします。このモデルは、最高のサンプル予測を提供する可能性がありますが、アカデミック準備とカレッジGPAの関係を理解する助けにはなりません。

代わりに、説明的戦略では、主成分分析、因子分析、SEMなど、何らかの形での変数削減を求めて、次のことを行います。

  1. 「学業成績」の最良の尺度である変数に注目し、その1つの変数にカレッジGPAをモデル化する。または
  2. 元の変数ではなく、アカデミック準備の3つの測定値の組み合わせから派生した因子スコア/潜在変数を使用します。

これらの戦略は、モデルの予測力を低下させる可能性がありますが、アカデミック準備が大学GPAとどのように関連しているかについての理解を深める可能性があります。


直感に反する兆候については、私たちの直感が間違った共変量を解釈しているためだろうか-ネスト効果または相互作用効果のような主効果のように。
確率論的

3

この問題についてモデル中心の視点を提供したいと思います。

予測モデリングは、ほとんどの分析で行われます。たとえば、研究者が一連の予測変数を使用して回帰モデルを設定します。回帰係数は、グループ間の予測比較を表します。予測の側面は確率モデルから得られます。推論は、観測された母集団または標本を生成した可能性がある超母集団モデルに関して行われます。このモデルの目的は、このスーパーポピュレーションから出現するユニットの新しい結果を予測することです。多くの場合、特に社会の世界では物事が常に変化しているため、これは無駄な目的です。または、モデルが国などのまれなユニットに関するものであり、新しいサンプルを描画できないためです。この場合のモデルの有用性は、アナリストの評価に任されています。

結果を他のグループまたは将来のユニットに一般化しようとすると、これは予測ですが、種類が異なります。たとえば、予測と呼ぶことがあります。重要な点は、推定モデルの予測力は、デフォルトでは記述的性質であることです。グループ間で結果を比較し、これらの比較の確率モデルを仮定しますが、これらの比較が因果効果を構成すると結論付けることはできません。

理由は、これらのグループが選択バイアスに苦しむかもしれないからです。つまり、治療(仮説的因果介入)に関係なく、関心の結果で自然にスコアが高くなる可能性があります。または、他のグループとは異なる治療効果のサイズの対象となる場合があります。これが、特に観測データの場合、推定モデルが一般に予測比較に関するものであり、説明ではない理由です。説明は因果効果の識別と推定に関するものであり、適切に設計された実験または機器変数の思慮深い使用が必要です。この場合、予測比較は選択バイアスから切り取られ、因果効果を表します。したがって、モデルは説明的なものと見なされる場合があります。

これらの用語で考えることで、いくつかのデータのモデルを設定するときに実際に何をしていたかが明確になることがよくありました。


+1、ここには良い情報があります。ただし、「予測モデリングはほとんどの分析で何が起こるか」というステートメントについては注意が必要です。予測モデリングがより一般的であるかどうかは、分野などによって異なります。私の推測では、学界でのほとんどのモデリングは説明的であり、民間部門で行われる多くのモデリング/データマイニング(たとえば、潜在的な繰り返し顧客の特定)予測的です。私は簡単に間違っている可能性がありますが、ほとんどの場合、先験的に言うのは難しいでしょう。
GUNG -モニカ元に戻し

1
私の見解では、目的が説明的であっても、観測データのほとんどのモデリングは予測的です。治療の属性をランダム化せず、実験設定で実際に変化を誘発する場合、回帰係数は説明的な値のみを持ちます。つまり、予測比較の手段のみを提供します。たとえば、人口統計学的特性に基づいて学校での成功を予測できますが、それはこれらの人口統計学が説明的な因果効果であることを意味するものではありません。その理由は、比較予測が選択バイアスにさらされているためです。
ライオネルヘンリー

1

ブラックボックスの「予測」モデルから考えるよりも多くを学ぶことができます。重要なのは、さまざまなタイプの感度分析とシミュレーションを実行して、モデルOUTPUTがINPUTスペースの変更によってどのように影響を受けるかを実際に理解することです。この意味で、純粋に予測的なモデルでさえ、説明的な洞察を提供できます。これは、研究コミュニティによって見過ごされたり誤解されたりすることが多いポイントです。アルゴリズムが機能している理由がわからないからといって、アルゴリズムに説明力がないというわけではありません...

全体的に主流の観点から、確率論的論理の簡潔な応答は絶対に正しい...


このフレーズで因果関係を暗示している場合、この方法でどの「説明的洞察」を収集できるかは不明です。
GUNG -モニカ元に戻し

1

彼女が統計で説明するアプリケーションと予測アプリケーションと呼ぶものには区別があります。彼女は、使用するたびに正確に使用されているものを知る必要があると言います。彼女は、私たちはしばしば、したがって、それらをミックス言う混同

私は、社会科学の応用では区別が賢明であることに同意しますが、自然科学でも同じです。また、私はそれらを推論予測と呼び、社会科学ではそれらを混同すべきではないことに同意します。

私は自然科学から始めます。物理学では、説明に焦点を当てており、世界がどのように機能し、何が何を引き起こすのかを理解しようとしています。したがって、焦点は因果関係、推論などにあります。一方、予測的な側面も科学的プロセスの一部です。実際、観測をすでに十分に説明している理論(サンプル内のことを考える)を証明する方法は、新しい観測を予測し、予測がどのように機能したかを確認することです。予測能力に欠ける理論は、物理学で受け入れられるのに大きな困難を伴います。それが、マイケルソン・モーリーのような実験がとても重要な理由です。

社会科学では、残念ながら、根底にある現象は不安定で、再現性がなく、再現性がありません。核の崩壊を見ると、それらを観察するたびに同じ結果が得られ、私や100年前の男と同じ結果が得られます。経済学や金融ではありません。また、実験を実施する能力は非常に限られており、すべての実用的な目的にはほとんど存在せず、ランダムなサンプルのみを観察して実施観測の。私は続けることができますが、私たちが扱う現象は非常に不安定であり、したがって私たちの理論は物理学と同じ品質ではないという考えです。したがって、状況に対処する方法の1つは、推論(何が何を引き起こし、何に影響を与えるかを理解しようとするとき)または予測(これに何が起こるか、または構造を無視すると思うかを言う)に焦点を当てることです。


0

構造モデルは説明を提供し、予測モデルは予測を提供します。構造モデルには潜在変数があります。構造モデルは、回帰分析と因子分析の同時頂点です

潜在変数は、予測モデルの多重共線性の形で現れます(回帰)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.