素人の言葉では、モデルと分布の違いは何ですか?


28

ウィキペディアで定義されている回答(定義)は、高等数学/統計になじみのない人にとっては間違いなく少し不可解です。

数学用語では、統計モデルは通常ペア()と考えられますは可能な観測値のセット、つまりサンプル空間、は確率分布のセットです上の。SPSPS

確率と統計では、確率分布は、ランダムな実験、調査、または統計的推論の手順の可能な結果の各測定可能なサブセットに確率を割り当てます。サンプル空間が非数値である例が見つかります。この例では、分布はカテゴリー分布になります。

私は非常に趣味としてこの分野に関心のある高校生だと現在あるものとの違いに苦しんでいますstatistical modelし、Aprobability distribution

私の現在の非常に初歩的な理解はこれです:

  • 統計モデルは、測定された分布を近似する数学的な試みです

  • 確率分布は、ランダムイベントの各可能な結果に確率を割り当てる実験から測定された説明です

混乱は、文学で「分布」と「モデル」という言葉が同じ意味で使用されているか、または少なくとも非常によく似た状況(たとえば、二項分布と二項モデル)で見られる傾向によってさらに悪化します。

誰かが私の定義を検証/修正し、おそらくこれらの概念に対してより形式化されたアプローチを提供できますか?


1
結論:統計モデルと確率分布に違いはまったくありません。すべての統計モデルは確率分布を表し、その逆も同様です。長いテキストと混同させないでください。
カグダスオズゲンク16年

3
@Cagdas質問で引用された定義による、違いあります。統計モデルは確率分布の特定の組織化されたコレクションです。証拠に確率分布が1つしかない場合、統計分析の目的が達成されたため、統計はもう行われていません。
whuber

2
@cagdasウィキペディアは、最高のテキストを提供しています。私はそれに完全に同意します。
whuber

4
@CagdasOzgenc、あなたの鋭く明確な主張を実証する証拠を提示してはどうですか。権限による証明が受け入れられることはめったにありません。証拠がなければ、生産的な議論をすることは(不可能ではないにしても)困難です。根拠のない主張がノイズ以上であることはめったにありません。
リチャードハーディ

2
@RichardHardy質問は「素人の用語」を尋ね、彼が得た答えを見ます。すみませんが、誰かが自慢するからといって学生が苦しむのを見るのは嫌です。答えは2 + 2 = 4と同じくらい簡単で、20ページの信頼できる参照が必要だとは本当に思いません。
カグダスオズゲンク

回答:


25

確率分布は、確率変数を記述する数学関数です。もう少し正確に言うと、これは確率を数値に割り当てる関数であり、その出力は確率の公理と一致する必要があります。

統計モデルは、確率分布を使用した数学用語でのいくつかの現象の理想的な抽象化された記述です。クォーティングワッサーマン(2013):

統計モデル 分布(又は濃度又は回帰関数)の集合です。パラメトリックモデルが設定されている Fパラメータの有限数でパラメータ化することができます。[...] FF

一般に、パラメトリックモデルは次の形式を取ります。

F={fバツ;θθΘ}

ここで、は、パラメーター空間Θの値を取ることができる未知のパラメーター(またはパラメーターのベクトル)です。がベクトルであるが、 1つのコンポーネントのみに関心がある場合、残りのパラメーターを迷惑パラメーターと呼びますノンパラメトリックモデルがセットでパラメーターの有限数によってパラメータ化することができません。θ Θθ FθθF

多くの場合モデルとして分布を使用ます(この例を確認できます)。一連のコイン投げでの頭の数のモデルとして二項分布使用できます。そのような場合、この分布は、実際の結果を簡略化した方法で記述すると仮定します。これは、これがそのような現象を記述する方法の唯一の方法であることを意味するものではなく、二項分布もこの目的にのみ使用できるものではありません。モデルは1つ以上の分布を使用できますが、ベイジアンモデルは事前分布も指定します。

より正式には、これはMcCullaugh(2002)によって議論されています。

現在受け入れられている理論によると[Cox and Hinkley(1974)、Chapter 1; レーマン(1983)、第1章。Barndorff-Nielsen and Cox(1994)、セクション1.1; Bernardo and Smith(1994)、Chapter 4]統計モデルは、サンプル空間上の確率分布のセットです。Aは、統計モデルパラメータであるパラメータ 機能と共に設定、割り当てた各パラメータにポイント A確率分布で 。ここで、は、すべての 確率分布の集合です。 Θ P Θ PSθ Θ P θSΘPΘPSθΘPθSPSS。以下の多くでは、モデルを関数として区別することが重要、および関連する分布のセット。PΘPSPΘPS

したがって、統計モデル確率分布を使用して、用語でデータを記述します。パラメーターモデルは、パラメーターの有限セットの観点からも説明されます。

これは、すべての統計手法が確率分布を必要とすることを意味するものではありません。たとえば、線形回帰は通常、正規性の仮定の観点から説明されますが、実際には、正規性からの逸脱に対して非常にロバストであり、信頼区間と仮説検定の誤差の正規性に関する仮定が必要です。したがって、回帰が機能するためには、このような仮定は必要ありませんが、統計モデルを完全に指定するには、ランダム変数の観点から説明する必要があります、したがって、確率分布が必要です。これは、データに回帰モデルを使用したという声をよく耳にするからです。ほとんどの場合、条件を主張するのではなく、いくつかのパラメーターを使用してターゲット値と予測子の線形関係の観点からデータを記述することを意味します正常。


McCullagh、P.(2002)。統計モデルとは何ですか? 統計年報、 1225-1267。

Wasserman、L.(2013)。すべての統計:統計的推論の簡潔なコース。スプリンガー。


4
@JCLeitãoそれが私が通知を追加した理由です;)古典的なOLSは線を合わせるだけです。正規性の仮定はノイズについてのみであり、コア概念はXの線形関数としてE(y)をモデル化することです。信頼区間とテストには正規性が必要ですが、回帰はラインの適合に関するものであり、誤差はそれほど重要ではありません。(大まかに言って。)
ティム

ご回答ありがとうございます。要約するために2つの簡潔な定義を提供できますか?(最後の行も理解In much of the following, it is important to distinguish between the model as a function and the associated set of distributionsできません)同じ用語を共有する2つの意味のあいまいさについてコメントしているだけmodelですか、それとも何か不足していますか?
AlanSTACK

@Alan 2つの簡潔な定義が最初の2つの段落で提供されていますが、引用と参考文献ではより厳密な定義があります-不明な点を明確にできますか?引用の最後の行については、基本的に、モデルは確率分布とパラメーターの観点から定義されていることを示しており、これらの2つの側面があることを覚えておくと良いでしょう。厳密な議論には引用された論文をお勧めします(リンクの下で自由に入手できます)。
ティム

8

考えてなどのチケットのセット。チケットに何かを書くことができます。通常、チケットは、「表す」または「モデル」である実世界の人物またはオブジェクトの名前で始まります。他のことを書くために、各チケットにはたくさんの空白があります。S

各チケットのコピーを必要な数だけ作成できます。この現実世界の人口またはプロセスの確率モデル は、すべてのチケットの1つ以上のコピーを作成し、それらを混合し、ボックスに入れることで構成されます。アナリストが、このボックスから1つのチケットをランダムに引き出すプロセスが、学習しているもののすべての重要な動作をエミュレートすることを確立できる場合、このボックスについて考えることで世界について多くを学ぶことができます。一部のチケットはボックス内で他のチケットよりも多いため、抽選される可能性が異なる場合があります。 確率論はこれらの可能性を研究します。P

ときに番号がチケットに書かれている(一貫した方法で)、彼らは(確率)分布を生じさせます。確率分布は、単に数字任意の間隔内にあるボックスのチケットの割合を記載しています。

通常、世界の振る舞いは正確にはわからないため、チケットが異なる相対頻度で表示される異なるボックスを想像する必要があります。これらのボックスのセットはです。私たちは、ボックスの1つの動作によって、世界が適切に記述されていると見なします。引き出されたチケットの表示内容に基づいて、どのボックスであるかを合理的に推測することがあなたの目的です。PPP


(教科書のおもちゃではなく、実用的で現実的です)として、温度によって変化する化学反応の速度を調べているとします。化学の理論は間の温度の範囲内と予測仮定すると度、速度は温度に比例します。0 100y0100

この反応を度と度の両方で研究し、各温度でいくつかの観測を行うことを計画しています。したがって、非常に多数のボックスを構成します。各ボックスにチケットを入れます。それぞれにレート定数が書かれています。任意のボックスのすべてのチケットには、同じレート定数が書き込まれています。異なるボックスは異なるレート定数を使用します。 1000100

チケットに書き込まれたレート定数を使用して、レートをに、レートを度にます。これらをおよびと呼びます。しかし、これは良いモデルにはまだ十分ではありません。化学者は、物質が純粋ではなく、量が正確に測定されておらず、他の形式の観測変動が発生していることも知っています。これらの「エラー」をモデル化するには、非常に多くのチケットのコピーを作成します。各コピーで、およびy 100の値を変更します。それらのほとんどで、それらを少しだけ変更します。ごく少数では、それらを大きく変更するかもしれません。各温度で観測する予定の数だけ変更された値を書き留めます。これらの観察100 、Y 0 、Y 100、Y 00100y0y100y0y100実験の観察可能結果を表します。ボックスにこれらのチケットの各セットを入力します。これは、特定のレート定数で観察される可能性のあるものの確率モデルです。

あなた観察することは、その箱からチケットを引き、そこに書かれた観察結果のみを読むことによってモデル化されます。またはy 100 の基礎となる(真の)値は表示されません。(真の)レート定数を読み取ることはできません。これらはあなたの実験では得られません。y0y100

y0y100

各チケットに書かれた観測値は数値であるため、確率分布が発生します。通常、ボックスについて行われた仮定は、それらの分布の特性に関して表現されます。たとえば、平均がゼロになるか、対称であるか、「ベル曲線」形状を持つか、無相関であるかなどです。


これで本当にすべてです。 原始的な12トーンスケールが西洋のクラシック音楽のすべてを生み出したように、チケットを含むボックスのコレクションは、非常に豊かで複雑な方法で使用できる単純な概念です。コインフリップからビデオライブラリ、ウェブサイトインタラクションのデータベース、量子力学的アンサンブルなど、観察および記録できるものまで、あらゆるものをモデル化できます。


3

π

典型的なパラメトリック統計モデルは、分布のパラメーターが、因子(離散値を持つ変数)や共変量(連続変数)などの特定のものにどのように依存するかを説明します。たとえば、正規分布では、平均が共変量の値のある固定数(「切片」)とある数(「回帰係数」)倍で記述できると仮定すると、線形回帰モデルが得られます。正規分布のエラー用語。二項分布の場合、よく使用されるモデル(「ロジスティック回帰」)ππ/1π傍受する+β1共変量1+


2
はい、しかし...モデルはパラメーターだけでなく、問題の構造(たとえば、想定されたデータ生成プロセスに似た確率モデル)にも関係します。ノンパラメトリックモデルもあります。
ティム

2

確率分布は、ランダムな量の変動に関するすべての情報を提供します。実際には、通常、関心のある量の完全な確率分布はありません。私たちは、それについてすべてを知っている、または仮定することなく、それについて何かを知っている、または仮定しているかもしれません。たとえば、ある量は正規分布しているが、平均と分散については何も知らないと仮定するかもしれません。次に、選択可能な分布の候補のコレクションがあります。この例では、すべての可能な正規分布です。この分布のコレクションは、統計モデルを形成します。データを収集し、残りのすべての候補が何らかの適切な意味でデータと一致するように候補のクラスを制限することで使用します。


2

モデルはPDFで指定されますが、PDFではありません。

確率分布(PDF)は、確率を数値に割り当てる関数であり、その出力は、ティムが説明したように、確率の公理と一致する必要があります。

モデルは確率分布によって完全に定義されますが、それ以上のものです。コイントスの例では、モデルは「コインは公平」+「各スローは独立」となります。このモデルは、p = 0.5の二項分布であるPDFによって指定されます。

Pバツ1バツ2バツ3

モデルとPDFの違いの1つは、モデルを統計的仮説として解釈できることです。たとえば、コイントスでは、コインが公平(p = 0.5)で、各投球が独立(二項)であるモデルを検討できます。これは、競合する仮説に対してテストする仮説であると言えます。

pp


最後の文章について詳しく説明していただけますか?私にとって、それはノンパラメトリック統計の主要な部分のようです。
イアン

私は常に、x_iのPDFでノンパラメトリックモデルの制限が少ないと解釈しましたが、それでも、使用する統計情報にはPDFが必要です。たとえば、ケンダルランク相関は、p値を計算するために正規性を前提としています。しかし、反例があるかもしれません。興味があります。
ホルヘLeitao 16年

「競合するPDFについて話すのは意味がありません」と言ったときの意味がわかりません。これは、パラメトリック統計でも、実際に行っていることです。問題に対して有効と思われるPDFがたくさんあり、データを取得し、データからPDFの一部のサブセットの方が優れていると結論付けます。次に、「より良い」という意味を定量化します。(また、基本的なコンテキストでは、すべてに「PDF」を使用すべきではありません。分布の意味では、これは最終的に機能しますが、これは非常に洗練された機械です...)
イアン

A model is specified by a PDF同意しません。モデルは複数のPDFでも指定される場合があります。また、モデルはPDFで指定されない場合があります。SVMや回帰ツリーのようなものを考えてください。
リカルドクルーズ

2

あなたは非常に重要な質問、アランを尋ね、上記のいくつかの素晴らしい回答を受け取りました。より簡単な答えを提供したいと思います。また、上記の答えが対処していないという区別に追加の次元を示したいと思います。簡単にするために、ここで言うすべては、パラメトリック統計モデルに関連しています。

y=aバツ2+bバツ+cy=mバツ+bF=kバツmbk

したがって、あなたの質問に対する私の簡単な答え#1は、統計モデルは分布のファミリーです。

私が言いたかったさらなるポイントは、修飾子、統計に関連しています。Judea Pearlが「因果分析の黄金律」[1、p350]で指摘しているように、

傾向スコア、回帰、層別化、またはその他の分布ベースの設計であっても、純粋に統計的な方法で因果関係の主張を確立することはできません。

F=kバツ すなわち、確率分布に関する記述。

したがって、あなたの質問に対する私の答え#2は次のとおりです。モデルは通常、純粋に分布的な用語で表現できない因果的アイデアを具体化します


[1]:パール、ユダヤ。因果関係:モデル、推論、推論。第2版​​。英国ケンブリッジ; ニューヨーク:ケンブリッジ大学出版局、2009年。§11.3.5へのリンク。351。


私の無知を許しなさい、しかしあなたはその言葉で何を意味するのcausalか?それにはいくつかのより多くの微妙な意味があるのか、それは単にの概念を参照しないcausalityとの間で拘束関係causeseffects?答えてくれてありがとう。
AlanSTACK

FバツF=kバツ=
デビッドC.ノリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.