予測と推論の違いは何ですか?


37

私は " 統計学入門 "を読んでいます。第2章では、関数を推定する理由について説明します。f

2.1.1なぜ推定?f

我々が推定することを望むかもしれない2つの主な理由がありますfは予測推論。それぞれについて順に説明します。

何度か読みましたが、予測と推論の違いについてはまだ部分的に不明確です。誰かが違いの(実用的な)例を提供できますか?


5
An Introduction to Statistics Learningの著者は、ここで私たちを傷つけました。原因と結果を理解するために推論を行うように、予測を行うために推論を行います。Merriam-webster.comは、「推論」を主に「事実または前提から結論として導き出す」と定義しています。それは因果推論と予測推論の両方をカバーしています。「推論」の定義を絞り込んで因果関係の問題のみを含めることは、誤解を招き、混乱を招き、長期的な標準的な使用法に反します。それでは、予測推論と因果推論を比較しましょう。
rolando2

2
@ rolando2:次に、記述的推論、つまり、記述的(非因果的)モデルのパラメーターに関する推論も必要だと思います。
kjetil bハルヴォルセン

回答:


29

推論:一連のデータが与えられた場合、出力がデータの関数としてどのように生成されるかを推測します。

予測:新しい測定値が与えられた場合、既存のデータセットを使用して、一連の結果から正しい識別子を確実に選択するモデルを構築します。


推論:年齢、乗客クラス、および性別がタイタニック災害の生存にどのような影響を与えるかを調べたいと思います。ロジスティック回帰を行って各乗客の特性が生存率に与える影響を推測できます。

予測:タイタニック号の乗客に関する情報が与えられた場合、セットから選択し、できるだけ頻繁に修正する必要があります。(可能な限り頻繁に修正する方法が必要な場合は、予測のバイアス分散トレードオフをご覧ください。){lives,dies}


予測は、入力と出力の間の最も正確な関係を確立することを中心に行われません。正確な予測は、新しい観測を可能な限り頻繁に適切なクラスに入れることを考慮します。

そのため、「実用例」は大まかに次の違いに要約されます。1人の乗客の乗客データのセットが与えられると、推論アプローチは生き残りの可能性を与え、分類子は命または死の選択を与えます。

分類子の調整は、p値と信頼区間を正しく解釈するのと同じように、非常に興味深い重要なトピックです。


1
いい答えだ。しかし、「推論」という言葉を聞く人は、「因果推論」と考えます。ISLRがそれに焦点を当てていない場合でも(または、おそらく特にそうである場合でも)、それについて何か言いたいことがあります。
generic_user

1
ディープラーニングの世界では、推論は予測とほとんど同じです。blogs.nvidia.com/blog/2016/08/22/...
user1893354

1
これは私にとって完全に良い答えのようです。
gung-モニカの復職

3
この答えは間違っていると思います。具体的には、「推論アプローチは生き残りの可能性を与え、分類子は命と死の選択肢を与えます」、さらに具体的には最初の部分です。乗客が生き残る確率を計算することは予測であり、特に確率的な予測です。継続的なケースでは、密度予測になります。次に、この予測確率のしきい値を設定して、はい、ハード分類を取得できます。...
S. Kolassa-モニカを

3
...予測は結果を予測することですが、推論は結果入力の関係を理解することです。どの入力がそのような関係を持ち、どのようにして「真の」関係をランダム共変量(p値お入りください)?誰かが私に間違っている場所を説明できますか?
S. Kolassa-モニカの復職

11

一般に、データ分析を行う場合、データを生成する何らかの「データ生成プロセス」があり、推論とは、このプロセスの構造について学習することを指し、予測とは、そこから来るデータを実際に予測できることを意味します。多くの場合、2つは一緒になりますが、常にではありません。

2つが手をつないでいる例は、単純な線形回帰モデルです。

Yi=β0+β1xi+ϵi.

β0β1


3
「しかし、モデルは必ずしも舞台裏で何が起こっているかについて有意義な洞察につながるとは限りません。」「ブラックボックス」という用語が思い浮かびます。:)
アレクシス

または多層ニューラルネット
シハブシャーリャンカーン

「しかし、賢明な予測を行うことができる他のタイプのモデルがありますが、モデルは必ずしも舞台裏で何が起こっているかについて有意義な洞察につながるわけではありません。」推論問題は、定義したとおり、モデルのパラメーターを決定する問題です。推論と予測の定義に関して、なぜこの文を「しかし」で始め、なぜこの文を書いたのか理解できません。
nbro

1
「しかし」の使用は、前のモデルと次のモデルの両方の記述が正しいためです。ただし、次のモデルは、予測推論の違いを理解するまで予期しなかった方法で前者の性質とは異なります。それが示されています。私はすでにこの区別を知っていますが、この例は洞察に富み、役立つと思います。+1
グング-モニカの復職

10

本の20ページで、著者はその違いを理解させてくれる美しい例を提供しています。

本からの段落はここにある:統計学習への紹介

"についての例、不動産の設定で、1は、このような等々犯罪率、ゾーニング、川からの距離、空気の質、学校、地域社会の所得水準、家の大きさ、などの入力に家の値を関連付けるために求めることができます。この場合、個々の入力変数が価格にどのように影響するか、つまり、川の景色を眺めることができれば家はどれだけの価値があるのでしょうか?これは推論の問題です。その特性を考慮して家の価値を予測する際に:この家は過小評価されているか過大評価されていますか?これは予測問題です。


5

ytx1,tx2,t

yt=f(x1,t1,x2,t1)+εt

ここで、BEAから個人の可処分所得シリーズなどの収入に関するデータを取得し、年間変数を構築する場合、関数fを推定し、人口収入と年間の時間の最新値をこれにプラグインできます。関数。これにより、店舗の収益の次の四半期の予測が得られます。

f/x2tβ2x2,t1

x予測子の影響を他の予測子の影響から分離することはより困難です。予測のためにこれは重要ではありません、あなたが気にするのは予測の品質です。


3

想像してみてください、あなたは集中治療室の医師です。強い発熱と血液細胞数、体重、100種類のデータがあり、生存するかどうかを予測したい患者がいます。はいの場合、彼は彼の他の子供についてのその話を彼の妻に隠そうとしています。

医師は、自分のユニットにいた元患者のデータに基づいてこの予測を行うことができます。ソフトウェアの知識に基づいて、彼は一般化線形回帰(glm)またはニューラルネット(nn)を使用して予測できます。

1.一般化線形モデル

glmには多くの相関するパラメーターがあるため、結果を得るには、医師は仮定(線形性など)と、どのパラメーターが影響を与える可能性が高いかについて判断する必要があります。glmは、性別と発熱が重要な影響を持っているという強力な証拠を収集できるように、各パラメーターの有意性のt検定で彼に報酬を与えます。体重は必ずしもそうではありません。

2.ニューラルネット

ニューラルネットは、以前の患者のサンプルにあるすべての情報を飲み込み、消化します。予測因子が相関しているかどうかは気にせず、体重の影響が手元のサンプルまたは一般的にのみ重要であると思われるかどうかに関する情報を明らかにしません(少なくとも医師の専門知識のレベルでは提供する必要があります)。結果を計算するだけです。

何が良い

どの方法を選択するかは、問題を見る角度に依存します:患者として、私は、線形性のような強くて明らかに間違った仮定なしに私に何が起こるかについて最良の推測のために利用可能なすべてのデータを使用するニューラルネットを好むでしょう。ジャーナルにデータを提示したい医者として、p値が必要です。医学は非常に保守的です。彼らはp値を求めます。そのため、医師は、このような状況では性別が重要な影響力を持っていると報告したいと考えています。患者にとっては、それは問題ではありません。サンプルが最も可能性が高いと示唆する影響を使用してください。

この例では、患者は予測を望んでおり、医師の科学者側は推論を望んでいます。ほとんどの場合、システムを理解したい場合、推論は適切です。システムを理解できない場合に判断を下す必要がある場合は、予測で十分です。


1
「患者として、私はニューラルネットを好むだろう...」あなたは、臨床科学では大量のデータを手に入れるのが非常に難しいという事実を無視しているようです。セキュリティ、プライバシー、倫理上の懸念から、グループごとにいくつかの観察結果のデータセットは珍しくありません。データ生成プロセスについて正当な前提を立てることができれば、データをはるかに効率的に使用できます。
フランスロデンブルク

これは、一見同じ問題が推論の質問と予測問題を促すことができる理由と、それらが同じではない理由とを容易に関連付けることができる仮想シナリオであると想定されていました。私は実際に患者の生存の可能性を予測する方法を提案していませんでした。はい、顕著なサイズの信頼できる臨床データを取得することがどれほど難しいかを非常によく知っています。IMHOの良い仮定/データ生成プロセスの知識は、予測だけでなく推論にも役立ちます。したがって、両方を区別するのにはあまり役立ちません。
ベルンハルト

1

あなたはここだけではありません。答えを読んだ後、私はもう混乱していません-違いを理解しているからではなく、それが見る人の目にあり、口頭で誘発されていることを理解しているからです。現在、これらの2つの用語は科学的な定義ではなく政治的な定義であると確信しています。大学が良いものとして使用しようとした本からの説明を例に取りましょう:「川の景色が見られるなら、家はどれだけの価値があるでしょうか?これは推論の問題です」。私の観点から、これは絶対に予測の問題です。あなたは土木建設会社のオーナーであり、次の家を建てるのに最適な場所を選択したいと考えています。同じ町の2つの場所から選択する必要があります。1つは川の近く、もう1つは駅の近くです。予測したい両方の場所の価格。または、推測したい。統計の正確な方法を適用しますが、プロセスに名前を付けます。:)


川の眺めには一定の価格が必要になるという考えは、因果的な解釈です。予測は因果関係にとらわれません:原因からの効果、効果からの原因、または類似の原因を持つ別の効果からの1つの効果を予測できます。5'10 "で、かつて出会ったことのない双子のボビーがいる友人のビリーを考えてみましょう。ビリーも同じように背が高くなるとは限りません。
gung-モニカの復職

あなたが引用する例は単に貧弱な例であり、それが混乱を招く理由です。推論と偏見の違いには、「政治」以上のものがあることは間違いありません。
リチャードハーディ

1

借り手がローンを返済するかどうかの強力な予測因子は、フェルトを使用して家具の足に傷が付かないように床を保護するかどうかを示す良い研究があります。この「感じられた」変数は、結果が返済対デフォルトである予測モデルに対する明確な助けになります。ただし、貸し手がこの結果に対してより大きなレバレッジを獲得したい場合は、フェルトをできるだけ広く配布することでそれができると考えることを怠るでしょう。

「この借り手はどのくらい返済する可能性がありますか?」予測の問題です。「結果にどのように影響を与えることができますか?」因果推論の問題です。


-1

y = f(x)その後

予測(与えられたxの値を持つYの値は何ですか:xの特定の値がYの値になる可能性がある場合

推論(xの変化に伴うyの変化):xが変化した場合のYへの影響

予測の例:yが個人の給与を表し、入力変数として経験年数、学位などの入力を提供すると、関数は従業員の給与を予測します。

推論の例:生活費が変わると仮定すると、給与の変化はいくらですか


この回答が2つのダウン票に値する理由はわかりません。
gung-モニカの復職
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.