データセットの確率分布によって生成されるトレーニングデータの意味


9

私はディープラーニングの本を読んでいて、次のパラ(109ページ、2番目のパラ)に出くわしました。

トレーニングデータとテストデータは、データ生成プロセスと呼ばれるデータセットの確率分布によって生成されます。通常、集合的にiid仮定と呼ばれる一連の仮定を作成します。これらの仮定は、各データセットの例が互いに独立していること、およびトレーニングセットとテストセットが同じように分布しており、互いに同じ確率分布から抽出されていることです。この仮定により、1つの例の確率分布を使用してデータ生成プロセスを説明できます。次に、同じ分布を使用して、すべてのトレインの例とすべてのテストの例を生成します。その共有された基礎となる分布をデータ生成分布と呼び、pdata。この確率論的フレームワークとiidの仮定により、トレーニングエラーとテストエラーの関係を数学的に研究できます。

誰かがこの段落の意味を説明してくれませんか?

122ページの最後の段落では、例も示しています

サンプルのセット {x(1),,x(m)} 平均を伴うベルヌーイ分布に従って独立して同一に分布している θ

これは何を意味するのでしょうか?

ここでは、さらに具体的な質問をいくつか示します。

  1. データセットの確率分布:データセットとは何ですか?確率分布はどのように生成されますか?

  2. 例は互いに独立しています。例が依存している場所の例を教えてもらえますか?

  3. 互いに同じ確率分布から引き出されます。確率分布がガウスであると仮定します。「同じ確率分布」という用語は、すべての例が同じ平均と分散のガウス分布から抽出されることを意味しますか?

  4. 「この仮定は私たちを可能にします」。これは何を意味するのでしょうか?

  5. 最後に、122ページの最後の段落では、サンプルがベルヌーイ分布に従うことが示されています。これは直感的にどういう意味ですか?


引用する段落の3番目の文が重要です。具体的に何が不明確か教えていただけますか?
ステファンコラサ2017

@StephanKolassa質問に詳細を追加しました。
控えめな

1
ありがとうございました。あなたの編集は問題を明確にします。それはまだ広義の質問ですが、@ swwの回答はすでにかなりのポイントに達しています。
ステファンコラサ

回答:


4
  1. データセットの確率分布:データセットとは何ですか?確率分布はどのように生成されますか?

入力データの根本的な分布を推定できれば、基本的にそれらがどのように選択されているかがわかり、適切な予測を行うことができます。(生成モデル)。通常、私たちは信じていること(帰納的バイアス)に従って基礎となる分布を仮定できます。たとえば、値がゼロに近い可能性が高いと考えられる場合は、平均でガウス分布をとることができます0トレーニングの際、分散などのパラメータを調整します。データセットは、たとえば、すべてのコイン投げのセットであり、想定される分布は二項分布になります。実際のデータポイントの対数尤度を最大化するとは、想定される分布にデータセットを適合させるパラメーターを取得することです。

  1. 例は互いに独立しています。例が依存している場所の例を教えてもらえますか?

たとえば、コインをトスし、頭があれば別のトスをし、そうでなければしません。ここでは後続のトス間に依存関係があります

  1. 互いに同じ確率分布から引き出されます。確率分布がガウスであると仮定します。「同じ確率分布」という用語は、すべての例が同じ平均と分散のガウス分布から抽出されることを意味しますか?

  2. 「この仮定は私たちを可能にします」。これは何を意味するのでしょうか?

はい。それが(4)が言われる理由です。1つの例から確率分布を得たら、データ生成プロセスを説明するために他の例は必要ありません。

  1. 最後に、122ページの最後の段落では、サンプルがベルヌーイ分布に従うことが示されています。これは直感的にどういう意味ですか?

つまり、各例はコイントスと考えることができます。実験が複数回のコイントスである場合、各コイントスは独立していて、ヘッドの確率は12。同様に、他の実験を選択した場合、各例の結果は、コイン投げまたはn次元のサイコロと考えることができます。

例を生成するということは、トレーニングのためにデータセットに表示されるものに最も近い分布を取得することを意味します。これは、分布を想定し、特定のデータセットの可能性を最大化し、最適なパラメーターを出力することで得られます。


どうもありがとう。データ生成プロセスから生成されたトレーニングデータとテストデータはどのように生成されますか?1つの例から確率分布を取得すると、他の例の確率分布がわかります。しかし、実際にどのようにサンプルが生成されているのでしょうか?
控えめな

@rjmessibarca誰が、何がサンプルを生成したかは関係ありませんが、私たちに知られている(最適化シナリオ)または知られていない(機械学習の問題)に従って生成された、提供または取得できるサンプルです。
Lerner Zhang

「高確率」とはどういう意味ですか?それは信頼水準を意味しますか?そして、私はこの用語が機械学習理論で頻繁に出てくることに気づきました。何かが「高い確率」で成立するような。あなたの反応を楽しみにしています。ありがとう
keqiao li
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.