この質問は、統計とは何か、そして適切な統計分析を行う方法の中心になります。それは多くの問題を引き起こします。いくつかの用語と他の理論です。それらを明確にするために、質問の暗黙的なコンテキストに注目することから始めて、そこからキー用語「パラメーター」、「プロパティ」、および「推定器」を定義します。質問のいくつかの部分は、ディスカッションで出てきたときに答えられます。最後の最後のセクションでは、主要なアイデアを要約します。
状態空間
「分布に」の一般的な統計的使用。「expに比例するPDFの正規分布(− 1"明らかに、これは1つの配布ではないので、実際に英語の(深刻な)虐待である:それはディストリビューションの全体の家族はいパラメータ記号でμとσの標準的な表記法。これは「状態空間」Ω、セットexp(−12(x−μ)/σ)2)dxμσΩ分布の。(ここでは、説明のために少し簡略化していますが、できるだけ厳密なまま、簡単に説明を続けていきます。)その役割は、統計手順の可能なターゲットを線引きすることです。 1つ(またはそれ以上)の要素を選択します。Ω
時々状態空間を明示的に示すように、パラメータ化され。この説明では、上半平面のタプルのセット{ (μ 、σ )}と、データのモデル化に使用する分布のセットの間に1対1の対応があります。このようなパラメーター化の1つの値は、実数の順序付けられたペアを使用して、Ωの分布を具体的に参照できることです。Ω={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
その他の場合、状態空間は明示的にパラメーター化されません。例は、すべての単峰性連続分布のセットです。以下では、そのような場合に適切なパラメーター化が見つかるかどうかの問題に対処します。
パラメータ化
一般的に、パラメータの対応(数学ある機能のサブセットから)のR D(とDに有限の)Ω。つまり、順序付けられたdタプルのセットを使用して、分布にラベルを付けます。しかし、それは単なる通信ではありません。「行儀が良い」必要があります。これを理解するために、PDFの期待が有限であるすべての連続分布のセットを考慮してください。これは、このセットをパラメータ化しようとする「自然な」試みが、実数のカウント可能なシーケンスを含むという意味で「ノンパラメトリック」と広く見なされます(任意の直交基底で展開を使用)。それにもかかわらず、このセットは、基数を持っているのでℵΩRddΩd(実数のカーディナリティ)は、これらの分布と Rの間に1対1の対応が存在する必要があります。逆説的に、それはこれを単一の実パラメータを持つパラメータ化された状態空間にするように思えます!ℵ1R
パラドックスは、1つの実数が分布と「いい」関係を享受できないことに注意することで解決されます。その数の値を変更すると、対応する分布は場合によっては根本的に変化しなければなりません。パラメータの近い値に対応する分布が互いに「近い」必要があることを要求することにより、このような「病理学的」パラメータ化を排除します。 「近い」という適切な定義を議論することは遠すぎますが、この説明で、特定の分布に名前を付けるだけでなく、パラメーターであることを示すことができることを願っています。
分布の特性
繰り返し適用することにより、分布の「特性」を、期待、分散など、作業に頻繁に現れるわかりやすい量として考えることに慣れてきます。「プロパティ」の可能な定義としてのこれに関する問題は、それがあまりにも曖昧であり、十分に一般的ではないということです。(これは数学が18世紀半ばにあった場所で、「機能」はオブジェクトに適用される有限プロセスと考えられていました。)代わりに、常に機能する「プロパティ」の唯一の賢明な定義は、プロパティをΩのすべての分布に一意に割り当てられる番号であることΩ。これには、平均、分散、任意の瞬間、任意のモーメントの代数的組み合わせ、任意の分位、さらには計算することさえできないものを含む多くが含まれます。ただし、Ωの一部の要素にとって意味をなさないものは含まれていません。たとえば、Ωがすべてのスチューデントt分布で構成されている場合、平均はΩの有効なプロパティではありません(t 1には平均がないため)。これは、Ωが実際に何を構成しているかによって、アイデアがどれほど左右されるかを改めて印象づけます。ΩΩΩt1Ω
プロパティは常にパラメータではありません
プロパティは、パラメータとして機能しないような複雑な関数になる場合があります。「正規分布」の場合を考えます。真の分布の平均が最も近い整数に丸められたときに偶数かどうかを知りたい場合があります。それはプロパティです。ただし、パラメーターとしては機能しません。
パラメータは必ずしもプロパティではありません
パラメーターと分布が1対1に対応している場合、明らかに、すべてのパラメーターとその問題のパラメーターの機能は、定義によるとプロパティです。ただし、パラメーターと分布の間には1対1の対応が必要ではありません。パラメーターの2つ以上の明確に異なる値によって、いくつかの分布を記述する必要がある場合があります。たとえば、球体上のポイントの位置パラメーターは、当然緯度と経度を使用します。これは問題ありません。ただし、特定の緯度と有効な経度に対応する2つの極を除きます。場所(球上の点)は確かにプロパティですが、その経度は必ずしもプロパティではありません。さまざまな回避策がありますが(たとえば、極の経度をゼロと宣言するだけです)、この問題はプロパティ(分布に一意に関連付けられている)とパラメーター(ラベル付けの方法)の間の重要な概念上の違いを強調しています分布と一意でない場合があります)。
統計的手順
見積もりのターゲットが呼び出されestimand。単なるプロパティです。統計学者は見積もりを自由に選択できません。それは彼女のクライアントの州です。誰かが母集団のサンプルを持ってあなたのところに来て、母集団の99パーセンタイルを推定するように頼むとき、代わりに平均の推定量を提供することを怠るでしょう!統計学者としてのあなたの仕事は、与えられた推定量を推定するための良い手順を特定することです。(あなたの仕事は、クライアントが科学的目的のために間違った見積もりを選択したことをクライアントに説得することですが、それは別の問題です...)
定義により、プロシージャはデータから数値を取得する方法です。通常、手順は、「それらをすべて加算し、カウントで除算する」など、データに適用される式として与えられます。文字通り、任意の手順は、特定の推定量の「推定子」と発音できます。たとえば、サンプル平均(データに適用される式)が母集団の分散(クライアントが実際に分散を持つ母集団の集合Ωを制限していると仮定した母集団の特性)を推定することを宣言できます。Ω
推定量
推定量は、推定量と明確に関係する必要はありません。たとえば、標本の平均と母集団の分散との間に関連性がありますか?私もそうではありません。それにもかかわらず、サンプル平均は、実際には特定のΩ(すべてのポアソン分布のセットなど)の母分散の適切な推定量です。ここに、推定量を理解するための1つの鍵があります。それらの品質は、可能な状態セットに依存します。しかし、それはその一部にすぎません。Ω
有能な統計学者は、彼らが推奨している手順が実際にどれだけうまくいくかを知りたいと思うでしょう。手順「」を呼び出して、推定値をθとします。実際には真の一つである分布を知ることではない、彼女は手続きのパフォーマンスを考えるだろう、すべての可能な分配のためのF ∈ Ω。こうした考えるとF、および任意の可能な結果与えられたS(データのある、セット)を、彼女が比較されますトン(複数可)に(どのような彼女の手続き推定値)をθ (F )(用estimandの値F)。 tθ F∈ΩFst(s)θ(F)Fこれらの2つがどれだけ近いかまたは離れているかを彼女に伝えることは、彼女のクライアントの責任です。 (これは、多くの場合、「損失」関数を使用して行われます。)彼女は、t (s )とθ (F )の間の距離の予想を熟考できます。これが彼女の処置のリスクです。Fに依存するため、リスクはΩで定義される関数です。t(s)θ(F)FΩ
(良い)統計学者は、リスクの比較に基づいて手順を推奨します。例えば、すべてのために仮定する、プロシージャのリスクT 1未満、またはリスクに等しいT。それからtを使用する理由はありません。それは「許されません」。それ以外の場合は「許容」されます。F∈Ωt1tt
(「ベイジアン」統計学者は、可能性のある状態(通常はクライアントによって提供される)の「事前」分布を平均化することにより、常にリスクを比較します。「フリークエンシー」統計学者は、ベイジアンが回避する他の方法でリスクを比較します。)
結論
私たちはどんなことを言う権利持っのために許容されるθがある推定のθを。tθθ 我々は、(許容手続きを見つけるのは難しいことができますので)実用的な目的のために、と言ってこれを曲げる必要があります任意の許容できる小さなリスク(と比較されるときがあるθ実用的な手続きの中では)の推定量ですθ。tθθ もちろん、「許容可能」および「実行可能」はクライアントによって決定されます。「許容可能」はリスクを指し、「実行可能」は手順の実装コスト(最終的に支払われる)を表します。
この簡潔な定義の基礎となると、すべてのアイデアがちょうど議論されています。私たちはそれを理解する必要があります念頭に置いて、特定の持って(あるモデル、(クライアントによって供給されている)、明確なestimand調査中の問題、プロセス、または人口の)、特定の損失関数(tを推定値に定量的に接続し、クライアントによっても与えられる)、リスクの概念(統計学者によって計算)、リスク関数を比較するための手順(クライアントと協議した統計学者の責任)、また、定義でこれらのいずれも明示的に言及されていない場合でも、実際に実行できる手順の感覚(「実行可能性」問題)。Ωt