学習と推論の違いは何ですか?


20

機械学習の研究論文では、多くの場合、学習と推論を2つの別々のタスクとして扱いますが、その区別が何であるかは明確ではありません。では、本書例えば、彼らは、タスクの両方の種類のベイズ統計を使用しますが、その区別のための動機を提供していません。私はそれが何であるかについていくつかのあいまいなアイデアを持っていますが、堅実な定義と、おそらく私のアイデアの反論または拡張を見たいと思います:

  • 特定のデータポイントの潜在変数の値を推測することと、データに適したモデルを学習することとの違い。
  • (入力空間/プロセス/ワールドのダイナミクスを学習することで)分散を抽出できるように、分散を抽出(推論)と不変を学習することの違い。
  • 神経科学の類推は、短期増強/うつ病(記憶の痕跡)対長期増強/うつ病である可能性があります。

4
これが役立つかどうかはわかりませんが、統計では、学習を推論(ほとんどベイズ)として考えるか、推定(ほとんどフリークエンティスト)として考えるかで区別されます。前者の場合、潜在変数、パラメーター、予測、モデル-すべてについて学ぶことは推論です(分布を返します)。後者の場合、いくつかの学習問題は推論であり、他の学習問題は推定問題である可能性があります(推定およびサンプリング理論的に動機付けられた不確実性範囲を返します)。
共役

5
「学習」とは、機械学習アルゴリズムをトレーニングするプロセスの刺激的な比phorにすぎません。ここで得られる洞察はあまりないと思います。
Sycoraxが復活モニカ言う


1
@Winksリンクされた質問をまったく読みましたか?答えのどれも、私が明確に求めている区別をしません。
レナーホイト

1
@conjugateprior機械学習では、「潜在的な変数、パラメーター、予測、モデル-すべてについて学ぶことは推論である」と言う人はいません。学習と推論はどちらも分布を生成できるものの、完全に分離されていると見なされます。
ニールG

回答:


11

私はニール・Gの答えに同意しますが、おそらくこの代替フレージングも役立ちます:

単純なガウス混合モデルの設定を検討してください。ここでは、モデルパラメーターを混合モデルのガウス成分のセットと考えることができます(それぞれの平均と分散、および混合におけるそれぞれの重み)。

モデルパラメータのセットが与えられると、推論は、通常、各コンポーネントの「責任」の形で、どのコンポーネントが単一の所定の例を生成した可能性が高いかを識別する問題です。ここでは、潜在変数は、どのコンポーネントが特定のベクトルを生成したかを示す単一の識別子であり、どのコンポーネントがそうである可能性が高いかを推測しています。(この場合、推論は単純ですが、より複雑なモデルではかなり複雑になります。)

学習とは、モデルからのサンプルのセットが与えられ、与えられたデータに最適なモデルパラメーター(またはモデルパラメーターの分布)を特定するプロセスです:ガウス平均、分散、および重みの選択。

Expectation-Maximization学習アルゴリズムは、トレーニングセットの推論を実行し、その推論が与えられた最適なパラメーターを学習してから繰り返すと考えることができます。推論はこのように学習プロセスでよく使用されますが、たとえば、ガウス混合モデルで特定のデータポイントを生成するコンポーネントを選択したり、隠れマルコフモデルで最も可能性の高い隠れ状態を決定したり、より一般的なグラフィカルモデルで欠損値を代入するには、....


1
そして、もう一つは、学習に物事を打破し、この方法を推論することを選択することができますが、1ができることを小さな警告推論として全体の多くを行う選択:stats.stackexchange.com/questions/180582/...
conjugateprior

なぜそんなに多くの行ですか?1対2の文で区別する簡単な答えが見たいです。また、誰もがGMMまたはEMに精通しているわけではありません。
nbro

9

推論は、単一の入力に基づいて構成を選択します。学習とは、いくつかのトレーニング例に基づいてパラメーターを選択することです。

エネルギーベースのモデルフレームワーク(ほぼすべての機械学習アーキテクチャを見る方法)では、推論パラメーターを固定したままエネルギー関数を最小化する構成を選択します学習は、損失関数を最小化するパラメーターを選択します

共役優先者が指摘するように、他の人々は同じことに対して異なる用語を使用します。たとえば、ビショップは、「推論」と「決定」を使用して、それぞれ学習と推論を意味します。 因果推論は学習を意味します。ただし、どちらの用語を決定しても、これら2つの概念は異なります。

神経学的アナロジーは、発火ニューロンのパターンが構成です。一連のリンク強度がパラメーターです。


@mcb「分散」の意味がまだわかりません。「不変性」は辞書の単語でもありません。はい、Dougalの答えで説明されているEMのような推論された構成に依存する多くの学習アルゴリズムがあります。
ニールG

@mcbあなたの質問も理解できません。おそらく、サンプルモデルを指定し、どの分布/分散/不変式(?)について話しているのかを明確にすることが役立つでしょう。
ドゥーガル

ご回答ありがとうございます。おそらく私は何かを誤解しているでしょう。
レナーホイト

@NeilG私は、分類決定が良い短い参照を見つけることができませんオブジェクトの平行移動、回転、再スケーリングなどへの「不変」であるべきところ、この用語は、主にMLビジョン作業に使用されていると信じていますが、これがあります:en.wikipedia.org/wikiは、 / Prior_knowledge_for_pattern_recognition
共役前

@conjugateprior私は彼が何を得ようとしているのか感じていましたが、彼が彼の質問を明確にするかどうかを見たかったのです。
ニールG

4

これは、古典的な学際的な用語の混乱のように見えます。OPは、問題の2つの用語の意味が異なる可能性がある神経科学のような用語を使用しているようです。しかし、一般的にクロス検証は統計と機械学習を扱うため、これらの分野でのこれらの用語の一般的な用法に基づいて質問に答えてみます。

古典的な統計では、推論は単に、サンプルについて知っていることを取得し、それが(できれば)代表である母集団について数学的ステートメントを作成する行為です。Casella&Berger(2002)の標準的な教科書から:「確率論の主題は、統計のすべてが構築される基礎です...これらのモデルを通して、統計学者は、人口に関する推論、全体の一部」。したがって、統計では、推論はp値、テスト統計、サンプリング分布などに特に関連しています。

学習に関しては、Wasserman's All of Statistics(2003)のこの表が役立つと思います。

ここに画像の説明を入力してください


これは、コメントで言及されている司教の本など、他の多くの教科書とは一致しません。ターゲット変数がカテゴリである場合、分類は一種の教師あり学習です。「推定」という言葉だけはあいまいです。通常、「密度推定」または「パラメーター推定」または「逐次推定」または「最尤推定」を意味します。
ニールG

1
また、ベイズネットは単なる有向非巡回グラフではありません!ノードが命題を表し、エッジが確率的依存関係を表す一種のダグです。条件付き独立関係を指定します。
ニールG

1
@NeilGかなりそうです。最も近い統計変換は、おそらく「構造方程式モデル」
共役

2
がっかりするほどの量の統計では、データに関する2行が必要です。CS:トレーニングデータ、Statistics:データ。CS:テストデータ、統計:wut?
共役

スタット101:WUT =あなたの集団から別の(たぶんランダム)サンプルを...
ゾーイクラーク

-1

他の誰もこれに言及していないのは奇妙ですが、確率分布がある場合にのみ推論できます。オックスフォード辞書を引用するWikiを引用するには:

統計的推論は、データ分析を使用して、基礎となる確率分布の特性を推定するプロセスです(Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistical_inference

従来のニューラルネットワーク、k-NNまたはバニラSVMの場合、推定する確率密度や密度に関する仮定がないため、そこに統計的推論はありません。トレーニング/学習のみ。ただし、ほとんどの(すべて?)統計手順では、推論と学習の両方を使用できます。これらの手順には、問題の母集団の分布に関するいくつかの仮定があるためです。


これは間違っています。とにかく、必要に応じて、ニューラルネットワークを分布を生成するものとして解釈できます。例えばアマリ1998年、を参照してください
ニールG

それは間違っていません、または指定します。あなたは解釈できますが、元々そのような解釈はありません。
SWIM S.

人々が自動エンサイダーのようなモデルで推論という用語を使用するため、それは間違っています。
ニールG

それで、一部の人々のグループがこの用語を誤って使用しているので、それは間違っていますか?または、NNに確率論的な解釈があるため(オートエンコーダーに詳しくない)。ある用語が他の用語と異なる理由を論理的に正当化しました。したがって、上記の定義を考えると、NN、k-NN、またはSVM(確率的解釈がない限り)という用語の推論を使用する人は、表記法をほとんど乱用していることがわかります。
SWIM S.
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.