機械学習のコンテキストでの「推論」と「推定」の違いは何ですか?
初心者として、私はランダム変数を推測し、モデルのパラメーターを推定すると感じています。私のこの理解は正しいですか?
そうでない場合、違いは正確に何であり、どれをいつ使用する必要がありますか?
また、「学習」の同義語はどれですか?
機械学習のコンテキストでの「推論」と「推定」の違いは何ですか?
初心者として、私はランダム変数を推測し、モデルのパラメーターを推定すると感じています。私のこの理解は正しいですか?
そうでない場合、違いは正確に何であり、どれをいつ使用する必要がありますか?
また、「学習」の同義語はどれですか?
回答:
統計的推論は、与えられたデータセットと関連する仮説モデルから導き出すことができる結論のコレクション全体から成り、そのモデルの適合を含みます。ウィキペディアから引用するには、
推論とは、知られている、または真実であると想定されている前提から論理的な結論を導き出す行為またはプロセスです。
そして、
統計的推論では、数学を使用して、不確実性がある場合に結論を導きます。
推定は、データ(および場合によってはそれらのパラメーターに関する事前情報)に基づく最適なソリューションで(データを生成した仮想モデルに関連付けられた)未知のパラメーターを置き換える推論の1つの側面です。それは、報告された推定値の不確実性の評価、推論の不可欠な部分である評価に常に関連付けられるべきです。
最尤法は推定の一例ですが、推論の全体を網羅しているわけではありません。反対に、ベイジアン分析は完全な推論マシンを提供します。
一方で、推定自体は、未知のパラメータ(ロジスティック回帰で、またはサポートベクターマシンにおける分離超平面では例えば、係数)の値を考え出すことを目的としている、統計的推論の試みはに不確実性の尺度および/または確率計算書を添付することパラメーターの値(標準誤差と信頼区間)。統計学者が想定するモデルがほぼ正しい場合、新しい受信データがそのモデルに準拠し続けるとすれば、不確実性ステートメントには何らかの真実が含まれている可能性があり、意思決定のためのモデル。
確率ステートメントのソースは2つあります。場合によっては、測定対象の基礎となる確率分布を仮定し、数学的な魔術(ガウス分布の多変量積分など)を使用して、結果の確率分布を取得できます(ガウスデータのサンプル平均自体はガウスです) )。ベイジアン統計の共役事前分布は、その魔術のカテゴリに分類されます。また、十分な大きさのサンプルでは、物事が特定の方法で動作するようにバインドされていることを示す漸近的な(大きなサンプル)結果に依存する必要があります(中央極限定理:平均および分散は、平均および分散を持つ近似ガウスです。σ 2 μ σ 2 / N元のデータの分布の形状に関係なく、)。
機械学習がこれに最も近いのは、サンプルがトレーニング部分と検証部分に分割されたときの交差検証です。後者は、「新しいデータが古いデータのように見えても、そのデータとはまったく関係ない場合モデルの設定に使用された場合、エラー率の現実的な尺度はそのようなものです」統計的仮定を行い、上記のCLTのような数学的結果を含めることでモデルの特性を推測しようとするのではなく、データに対して同じモデルを実行することにより、完全に経験的に導き出されます。おそらく、これはより正直ですが、使用する情報が少ないため、より大きなサンプルサイズが必要です。また、プロセスが変更されないことを暗黙的に想定しています。
「後部を推測する」というフレーズは理にかなっているかもしれませんが(私はベイジアンではないので、受け入れられている用語が何であるかを実際に言うことはできません)、私はその推測のステップに仮定を立てることにあまり関与していないと思います。すべてのベイジアン仮定は、(1)事前モデルおよび(2)仮定モデルであり、一度設定されると、事後モデルは自動的に追従します(少なくとも理論的にはベイズの定理を介して、実用的な手順は複雑であり、 Sipps Gambling ...すみません、Gibbsのサンプリングは、後部に到達するための比較的簡単なコンポーネントかもしれません。「後部を推測する」が(1)+(2)を指す場合、それは私にとって統計的推論のフレーバーです。(1)と(2)が別々に述べられていて、「後部を推測する」が別のものである場合、私はそうしません。
母集団の代表的なサンプルがあるとします。
推論とは、そのサンプルを使用してモデルを推定し、特定の精度で結果を母集団全体に拡張できると述べることです。推論を行うとは、代表的なサンプルのみを使用して母集団を推測することです。
推定とは、データサンプルに適合するモデルを選択し、そのモデルのパラメーターを特定の精度で計算することです。推定と呼ばれるのは、母集団全体ではなくデータサンプルのみがあるため、パラメーターの真の値を計算できないためです。
これは、統計の背景のない人に回答を提供する試みです。より詳細に興味がある人のために、主題に関する多くの有用な参考文献(例えばこれのような)があります。
短い答え:
推定関心のある主題の未知の値(推定)を見つける
統計的推論関心のある対象の確率分布を使用して確率的結論を下す
長い答え:
「推定」という用語は、未知の値の推定値を見つけるプロセスを説明するためによく使用されますが、「推論」は統計的推論、ランダム変数の分布(または特性)を発見し、それらを使用して結論を出すプロセスを指すことがよくあります。
私の国の平均的な人の身長はどれくらいですか?
推定値を見つける場合は、数日間歩き回って、路上で出会った見知らぬ人を測定し(サンプルを作成)、たとえばサンプルの平均として推定値を計算します。見積もりが完了しました!
一方、1つ以上の推定値を見つけることもできますが、これは1つの数値であり、間違いであることがわかっています。次のような特定の自信を持って質問に答えることができます。私の国の人の平均身長は1.60m〜1.90mであると99%確信しています。
そのような主張をするためには、会っている人々の身長分布を推定し、この知識に基づいて結論を出す必要があります-これは統計的推論の基礎です。
(西安の答えで指摘されているように)心に留めておくべき重要なことは、推定量を見つけることは統計的推論の一部であるということです。
さて、今日、MLの分野でキャリアを積んでいるさまざまな分野の人々がいますが、彼らはわずかに異なる方言を話す可能性があります。
ただし、使用する用語が何であれ、背後にある概念は異なります。そのため、これらの概念を明確にし、それらの方言を好みの方法で翻訳することが重要です。
例えば。
BishopのPRMLでは、
モデルを学習するためにトレーニングデータを使用する推論段階
だから、ここでInference
= Learning
=Estimation
しかし、他の材料では、推論は推定、異なる場合がありinference
手段prediction
間estimation
のパラメータの意味学習手順。
機械学習の文脈では、推論とは、観測に基づいて潜在的な(隠れた)変数の設定を発見する行為を指します。これには、潜在変数の事後分布の決定も含まれます。推定は、モデルパラメーターを決定するための「ポイント推定」に関連付けられているようです。例には最尤推定が含まれます。期待値最大化(EM)では、Eステップで推論を行います。Mステップでは、パラメーター推定を行います。
「事後分布を推定する」よりも「事後分布を推測する」という人が多いと思う。後者は、通常の正確な推論では使用されません。これは、たとえば、正確な事後を推測することが困難であり、事後に関する追加の仮定を作成する必要がある予測伝播または変分ベイズで使用されます。この場合、推定された事後値は近似値です。人々は「後部に近い」または「後部を推定する」と言うかもしれません。
これはすべて私の意見です。それはルールではありません。
「推論」の部分を拡大して、他の人の答えに追加したいと思います。機械学習のコンテキストでは、推論の興味深い側面は不確実性の推定です。一般に、MLアルゴリズムでは注意が必要です。ニューラルネットまたはデシジョンツリーが生成する分類ラベルに標準偏差をどのように配置しますか。従来の統計では、分布の仮定により、数学を行い、パラメータの不確実性を評価する方法を見つけることができます。MLでは、パラメーター、分布の仮定、またはどちらも存在しない場合があります。
これらの面でいくつかの進展があり、その一部はごく最近のものです(現在の回答よりも最近のものです)。1つのオプションは、他の人が言及したように、事後分析によって不確実性の推定値が得られるベイズ分析です。ブートストラップ型のメソッドは便利です。スタンフォード大学のStefan WagerとSusan Atheyは、過去数年間でランダムフォレストの推論を行っています。同様に、BARTはベイジアンツリーのアンサンブルメソッドであり、推論を引き出すことができる後部を生成します。