私は " 統計学入門 "を読んでいます。第2章では、関数を推定する理由について説明します。
2.1.1なぜ推定?
我々が推定することを望むかもしれない2つの主な理由がありますfは:予測と推論。それぞれについて順に説明します。
何度か読みましたが、予測と推論の違いについてはまだ部分的に不明確です。誰かが違いの(実用的な)例を提供できますか?
私は " 統計学入門 "を読んでいます。第2章では、関数を推定する理由について説明します。
2.1.1なぜ推定?
我々が推定することを望むかもしれない2つの主な理由がありますfは:予測と推論。それぞれについて順に説明します。
何度か読みましたが、予測と推論の違いについてはまだ部分的に不明確です。誰かが違いの(実用的な)例を提供できますか?
回答:
推論:一連のデータが与えられた場合、出力がデータの関数としてどのように生成されるかを推測します。
予測:新しい測定値が与えられた場合、既存のデータセットを使用して、一連の結果から正しい識別子を確実に選択するモデルを構築します。
推論:年齢、乗客クラス、および性別がタイタニック災害の生存にどのような影響を与えるかを調べたいと思います。ロジスティック回帰を行って、各乗客の特性が生存率に与える影響を推測できます。
予測:タイタニック号の乗客に関する情報が与えられた場合、セットから選択し、できるだけ頻繁に修正する必要があります。(可能な限り頻繁に修正する方法が必要な場合は、予測のバイアス分散トレードオフをご覧ください。)
予測は、入力と出力の間の最も正確な関係を確立することを中心に行われません。正確な予測は、新しい観測を可能な限り頻繁に適切なクラスに入れることを考慮します。
そのため、「実用例」は大まかに次の違いに要約されます。1人の乗客の乗客データのセットが与えられると、推論アプローチは生き残りの可能性を与え、分類子は命または死の選択を与えます。
分類子の調整は、p値と信頼区間を正しく解釈するのと同じように、非常に興味深い重要なトピックです。
一般に、データ分析を行う場合、データを生成する何らかの「データ生成プロセス」があり、推論とは、このプロセスの構造について学習することを指し、予測とは、そこから来るデータを実際に予測できることを意味します。多くの場合、2つは一緒になりますが、常にではありません。
2つが手をつないでいる例は、単純な線形回帰モデルです。
想像してみてください、あなたは集中治療室の医師です。強い発熱と血液細胞数、体重、100種類のデータがあり、生存するかどうかを予測したい患者がいます。はいの場合、彼は彼の他の子供についてのその話を彼の妻に隠そうとしています。
医師は、自分のユニットにいた元患者のデータに基づいてこの予測を行うことができます。ソフトウェアの知識に基づいて、彼は一般化線形回帰(glm)またはニューラルネット(nn)を使用して予測できます。
glmには多くの相関するパラメーターがあるため、結果を得るには、医師は仮定(線形性など)と、どのパラメーターが影響を与える可能性が高いかについて判断する必要があります。glmは、性別と発熱が重要な影響を持っているという強力な証拠を収集できるように、各パラメーターの有意性のt検定で彼に報酬を与えます。体重は必ずしもそうではありません。
ニューラルネットは、以前の患者のサンプルにあるすべての情報を飲み込み、消化します。予測因子が相関しているかどうかは気にせず、体重の影響が手元のサンプルまたは一般的にのみ重要であると思われるかどうかに関する情報を明らかにしません(少なくとも医師の専門知識のレベルでは提供する必要があります)。結果を計算するだけです。
どの方法を選択するかは、問題を見る角度に依存します:患者として、私は、線形性のような強くて明らかに間違った仮定なしに私に何が起こるかについて最良の推測のために利用可能なすべてのデータを使用するニューラルネットを好むでしょう。ジャーナルにデータを提示したい医者として、p値が必要です。医学は非常に保守的です。彼らはp値を求めます。そのため、医師は、このような状況では性別が重要な影響力を持っていると報告したいと考えています。患者にとっては、それは問題ではありません。サンプルが最も可能性が高いと示唆する影響を使用してください。
この例では、患者は予測を望んでおり、医師の科学者側は推論を望んでいます。ほとんどの場合、システムを理解したい場合、推論は適切です。システムを理解できない場合に判断を下す必要がある場合は、予測で十分です。
あなたはここだけではありません。答えを読んだ後、私はもう混乱していません-違いを理解しているからではなく、それが見る人の目にあり、口頭で誘発されていることを理解しているからです。現在、これらの2つの用語は科学的な定義ではなく政治的な定義であると確信しています。大学が良いものとして使用しようとした本からの説明を例に取りましょう:「川の景色が見られるなら、家はどれだけの価値があるでしょうか?これは推論の問題です」。私の観点から、これは絶対に予測の問題です。あなたは土木建設会社のオーナーであり、次の家を建てるのに最適な場所を選択したいと考えています。同じ町の2つの場所から選択する必要があります。1つは川の近く、もう1つは駅の近くです。予測したい両方の場所の価格。または、推測したい。統計の正確な方法を適用しますが、プロセスに名前を付けます。:)
y = f(x)その後
予測(与えられたxの値を持つYの値は何ですか:xの特定の値がYの値になる可能性がある場合
推論(xの変化に伴うyの変化):xが変化した場合のYへの影響
予測の例:yが個人の給与を表し、入力変数として経験年数、学位などの入力を提供すると、関数は従業員の給与を予測します。
推論の例:生活費が変わると仮定すると、給与の変化はいくらですか