パラメーターを推定するための機械学習の「基本的な」アイデアとは何ですか?


19

パラメーターを推定するための統計の「基本的な」考え方は、最尤法です。機械学習の対応するアイデアは何だろうと思っています。

Qn 1.パラメーターを推定するための機械学習の「基本的な」アイデアは、「損失関数」であると言ってもいいでしょうか。

[注:機械学習アルゴリズムは損失関数を最適化することが多いため、上記の質問が印象的です。]

Qn 2:統計と機械学習のギャップを埋めようとする文献はありますか?

[注:おそらく、損失関数を最尤法に関連付けることによって。(たとえば、OLSは正規分布エラーなどの最尤と同等です)]


3
架空のギャップを埋めようとすることについてのこれらの質問の興味は見当たりません。そのすべての目的は何ですか?さらに、統計の基礎となる他の多くのアイデアがあります...そして損失関数は少なくとも100年前のものです。そのような統計を減らすことができますか?たぶんあなたの質問は、データマイニング/統計/機械学習の基本概念に関するものですが、あなたはそれを呼んでいます...そして、質問はすでに存在し、広すぎますstats.stackexchange.com/questions/372/…
ロビンジラール

さて、機械学習や統計との関係についてはあまり知りません。いずれにせよ、この質問を見てください:stats.stackexchange.com/questions/6 / ...これは、少なくとも同じ質問に答えるアプローチが異なることを示唆しています。それらの間に何らかのリンクがあるかどうか疑問に思うのは「不自然」ですか?はい、統計には多くのアイデアがあることに同意します。それが、私が引用の基礎を持ち、対象のパラメーターを推定する範囲を制限した理由です。

何の間の@Srikantリンク?明確に定義されたオブジェクト間のリンクを検索するのが大好きで、本当に自然だと思います。
ロビンジラール

6
ほぼ間違いなく、機械学習者であるため、可能性を最大限に引き出すことをお伝えします。ずっと。機械学習の論文の多くは、「私の可能性を見て、それがどのように分解されるかを見て、最大限に見てください」で始まります。推論手法の観点からどちらかの分野の基本的な根拠を主張することは危険であることをお勧めします。どの会議に行くかについての詳細です!
マイクデュワー

6
ベイジアンは、統計の基本的な考え方である最尤法に同意するとは思わない。
マーククレセン

回答:


17

統計が尤度の最大化に関するものであれば、機械学習は損失の最小化に関するものです。将来のデータで生じる損失がわからないため、近似、つまり経験的損失を最小限に抑えます。

たとえば、予測タスクがあり、誤分類の数によって評価される場合、結果のモデルがトレーニングデータで最小数の誤分類を生成するようにパラメーターをトレーニングできます。「誤分類の数」(つまり、0-1損失)は微分できないため、扱いにくいハード損失関数です。したがって、滑らかな「代理」で近似します。たとえば、ログ損失は0-1損失の上限であるため、代わりにそれを最小化できます。これは、データの条件付き尤度を最大化するのと同じであることがわかります。パラメトリックモデルでは、このアプローチはロジスティック回帰と同等になります。

構造化モデリングタスクおよび0〜1の損失のログ損失近似では、最大条件付き尤度とは異なるものが得られ、代わりに(条件付き)限界尤度のが最大化されます

損失のより良い近似を得るために、人々は損失を最小化するためのトレーニングモデルと、その損失を将来の損失の推定値として使用することは過度に楽観的な推定値であることに気付きました。そのため、より正確な(真の将来損失)最小化のために、経験的損失にバイアス補正項を追加し、それを最小化します。これは、構造化リスク最小化と呼ばれます。

実際には、正しいバイアス補正項を見つけるのは非常に難しい場合があるため、バイアス補正項の「精神で」という表現、たとえばパラメーターの2乗和を追加します。最終的に、ほとんどすべてのパラメトリック機械学習の教師付き分類アプローチは、モデルをトレーニングして以下を最小化します

Lmバツwy+Pw

ここで、はベクトルwでパラメーター化されたモデル、iはすべてのデータポイント{ x iy i }で取得され、Lは真の損失の計算上適切な近似値、P w はバイアス補正/正規化項ですmw{バツy}LPw

あなたの場合、例えば、Y { - 1 1 }、典型的なアプローチができるようになり、Mxは= 符号W X L MX Y = - ログY × X W P バツ{11}dy{11}mバツ=符号wバツLmバツy=ログy×バツw、および選択 QをクロスバリデーションによってPw=q×wwq


3
クラスタリング、kNNまたはランダムシダでこの損失を最小限に抑えることを望んでいます...

さて、k-means最近傍の損失関数の特性については、このペーパーの関連サブセクション(2.5)を参照してください:hpl.hp.com/conferences/icml2003/papers/21.pdf
ジョンL.テイラー

@Johnそれでも、これは、目的と理由が混在しています。大部分は、最小化の観点から各アルゴリズムを説明し、これを「損失」と呼ぶことができます。kNNはそのような方法で発明されたものではありません。皆さん、私はこのような損失について考えてきました。それを最適化して、何が起こるか見てみましょう!; むしろ、良い類似性の尺度があれば...というように、機能空間上での決定の連続性が低いとしましょう。

2
「統計が尤度の最大化に関するものであれば、機械学習は損失の最小化に関するものです」私はあなたの前提に同意しません-強く全体的に。1920年の統計は本当だったかもしれませんが、確かに今日ではありません。
JMS

19

項目別に答えます。議論の余地はありませんが、オンデマンドでより多くの引用を提供できます。

  • 統計は(ログ)尤度を最大化することだけではありません。それは、適切なモデルを通じて後輩を更新したり、信念を広めたりする原則的なベイジアンにとっては忌み嫌いです。
  • 多くの統計、損失の最小化に関するものです。機械学習もたくさんあります。経験的損失の最小化は、MLでは異なる意味を持ちます。明確で物語的な視点については、Vapnikの「統計学習の性質」をご覧ください
  • 機械学習は、損失の最小化だけではありません。まず、MLには多くのベイジアンがいるためです。第二に、MLの多くのアプリケーションが時間学習と近似DPに関係しているためです。確かに、目的関数がありますが、「統計」学習とは非常に異なる意味を持っています。

フィールド間にギャップはないと思います。多くの異なるアプローチがあり、すべてがある程度重複しています。私はそれらを明確に定義された相違点と類似点を持つ体系的な分野にする必要性を感じていません。


8

十分な評判がないため、コメント(このコメントの適切な場所)を投稿することはできませんが、質問の所有者がベストアンサーとして受け入れた回答はポイントを逃します。

「統計が尤度の最大化に関するものであれば、機械学習は損失の最小化に関するものです。」

尤度は損失関数です。尤度の最大化は、損失関数の最小化と同じです。逸脱は、対数尤度関数のちょうど-2倍です。同様に、最小二乗解を見つけることは、残差平方和を表す損失関数を最小化することです。

MLと統計の両方は、アルゴリズムを使用して、ある関数の(最も広い用語での)データへの適合を最適化します。最適化には必然的に損失関数の最小化が伴います。


1
良い点ですが、それでも主な違いはどこかにあります。最初に、統計は持っているデータにモデルを適合させることに関するものであり、MLは持っているデータにモデルを適合させることに関するものです。第二に、観察するプロセスが統計的に仮定するのは、発掘したい恥ずかしくてささいな「隠された」モデルによって完全に駆動され、ML TRIESは問題に依存しないモデルが現実のように振る舞うように複雑になります。

@mbq。それは統計のかなり厳しい風刺画です。私は5つの大学統計学部で働いてきましたが、そのような統計学を考えている人に会ったことはないと思います。
ロブハインドマン

1
@ロブ似顔絵?これが統計を美しくするものだと思います!これらすべてのガウス分布と線形性を仮定し、それが機能するだけであり、それにはテイラー展開と呼ばれる理由があります。世界は複雑な地獄ですが、ほぼ線形です。(多くの場合、複雑さの90%程度です)驚くほど些細なことです。ML(およびノンパラメトリック統計)は、さらに微妙なアプローチが必要な状況のこれらの数パーセントで発生します。これはただの無料のランチではありません。定理が必要な場合は、仮定が必要です。仮定が必要ない場合は、おおよその方法が必要です。

@mbq。けっこうだ。あなたのコメントを誤って解釈したに違いありません。
ロブハインドマン

4

些細な答えがあります-機械学習にはパラメーター推定はありません!私たちのモデルがいくつかの隠された背景モデルと同等であると仮定しません。現実とモデルの両方をブラックボックスとして扱い、モデルボックス(公式用語のトレーニング)を揺らして、出力が現実のボックスの出力と同様になるようにします。

尤度だけでなく、トレーニングデータに基づいたモデル全体の選択の概念は、未定義のデータの精度(定義されているもの、原則として望ましい使用の良さ)を最適化することによって置き換えられます。これにより、精度とリコールの両方を組み合わせて最適化できます。これは、学習者のタイプに応じて異なる方法で達成される一般化する能力の概念につながります。

質問2への答えは、定義に大きく依存します。それでも、ノンパラメトリック統計はこの2つをつなぐものだと思います。


これが完全に正しいかどうかはわかりません。機械学習の方法は、どのような意味でパラメーター推定なしで機能しますか(パラメトリックモデルまたは分布のないモデルセット内)?
ジョンL.テイラー

1
何かを推定/計算しています(正確な用語は異なる場合があります)。たとえば、ニューラルネットワークを考えます。何かを予測しようとしているときに、ネットの重みを計算していませんか?さらに、出力を現実に一致させるようにトレーニングすると言うとき、何らかの損失関数について暗黙のうちに話しているように見えます。

@ John、@ Srikant学習者にはパラメーターがありますが、統計的な意味でのパラメーターではありません。線形回帰y = a x(simpの自由項なし)を考慮してくださいaは、y = a xであるという仮定に基づいて、統計的手法が適合するパラメーターです。機械学習は、列車の範囲内でxを要求するとxを生成しようとします(y = a xを仮定していないため、これは理にかなっています)。これを行うには、数百のパラメーターに適合することがあります。

3
[引用が必要]。言い換えると、興味深い答えですが、多くのMLの文献では(少なくとも)冗談を言っているわけではありません。
ギャップのある

1
古典的なものは、ブライマンの「統計的モデリング:二つの文化」です。

2

Machine Learningのパラメーター推定に関する基本的な考え方はないと思います。MLクラウドは、アルゴリズムが効率的であり、「正確に」予測する限り、可能性または事後確率を喜んで最大化します。焦点は計算にあり、統計からの結果は広く使用されています。

一般的な基本的なアイデアを探している場合、計算学習理論ではPACが中心です。統計的学習理論では、構造的リスクの最小化。他の領域もあります(たとえば、ジョンラングフォードによる予測科学の投稿を参照してください)。

ブリッジング統計/ MLでは、格差は誇張されているようです。「2つの文化」の質問に対する gappyの答えが好きでした。


統計群衆は、希望するp値が表示されるまでSPSSでランダムにクリックしています

1

負の対数尤度として損失を定義することにより、尤度最大化問題を損失最小化問題として書き直すことができます。尤度が独立した確率または確率密度の積である場合、損失は独立した項の合計となり、効率的に計算できます。さらに、確率変数が正規分布している場合、対応する損失最小化問題は最小二乗問題になります。

尤度最大化を書き直して損失最小化問題を作成できる場合、これは損失最小化問題をゼロから作成することを好むはずです。理論的に設立され、アドホックではありません。たとえば、通常は値を推測する必要のある重み付き最小二乗などの重みは、元の尤度最大化問題を書き換えるプロセスから単純に現れ、すでに(できれば)最適な値を持っています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.