サンプルの分布に依存しない統計量の例?


14

これは、ウィキペディアの統計の定義です

より正式には、統計理論は統計をサンプルの関数として定義します。関数自体はサンプルの分布に依存しません。つまり、データを実現する前に関数を指定できます。統計という用語は、特定のサンプルの関数と関数の値の両方に使用されます。

私はこの定義の大部分を理解していると思いますが、一部- 関数がサンプルの分布は無関係である場合、私は整理できませんでした。

これまでの統計の理解

試料は分布Fと独立した、同一(IID)分散ランダム変数(20両面フェアダイスのロール10点の実現、6面体フェアダイスの5つのロール100点の実現、いくつかの数の実現の集合であります人口から100人を無作為に抽出します)。

ドメインがそのセットであり、範囲が実数である関数(または、ベクトルや他の数学オブジェクトのような他のものを生成できる可能性がある...)は、統計と見なされます

例について考えると、平均、中央値、分散はすべてこの文脈で意味をなします。これらは、一連の実現(ランダムサンプルからの血圧測定)の関数です。私はまた、線形回帰モデルは、統計考えることができるかを確認することができyi=α+βx -実現のセットでこの機能だけではなく、ありますか?

混乱しているところ

上からの私の理解が正しいと仮定すると、関数がサンプルの分布に依存しない場所を理解できませんでした。私はそれを理解するための例を考えようとしてきましたが、運はありません。どんな洞察も大歓迎です!

回答:


44

その定義は、それを述べるにはやや厄介な方法です。「統計」とは、観測可能な値の関数です。その定義が意味することはすべて、統計は観測可能な値のみの関数であり、分布またはそのパラメーターの関数ではないということです。例えば、X1,X2,...,XnN(μ,1)次に、統計は任意の関数であろうT(X1,...,Xn)関数に対し、H(X1,....,Xn,μそれが依存するため、統計ではないでしょうμ。以下に例を示します。

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

すべての統計は、観測可能な値のみの関数であり、その分布やパラメーターの関数ではありません。そのため、分布またはそのパラメーターの関数である統計の例はありません(そのような関数は統計ではありません)。ただし、統計分布(統計自体とは対照的に)は一般に、値の基礎となる分布に依存することに注意することが重要です。(これは、補助統計以外のすべての統計に当てはまります。)


パラメータがわかっている関数はどうですか?以下のコメントで、アレコスはすばらしいフォローアップの質問をしています。パラメータの固定仮説値を使用する関数はどうですか?たとえば、統計はどうn(x¯μ)ここで、μ=μ0既知の仮定さ値と等しくなるように取られるμ0R。ここでは、適切に制限されたドメインで定義されている限り、関数は実際に統計です。そう関数H0:RnRH0(x1,...,xn)=n(x¯μ0)統計が、関数なりH:Rn+1RH(x1,...,xn,μ)=n(x¯μ)であろうしないことが統計。


1
非統計の一部として基礎となる統計パラメーターを考慮することは非常に有益な回答であり、特に役立ちました。
ジェイクキルシュ

4
@CarlWitthoft私はあなたのポイントを得ることができません。それが観測可能な値の関数である場合、それは統計です。値の小さなサブセットの関数である場合があります。それはまだ考慮すべき有用なものです。データを処理するコストが高く、エラーのコストが小さい場合、平均を推定する必要があり、観測値がある場合でもX 1 + X 2 + + X 1000/ 1000を見ることができます。または、何らかの理由で、平均の2つの独立した推定値を考慮したい場合があり、X 1 + + X n1010(X1+X2++X1000)/1000およびX n / 2 + 1 ++Xn/n/2。これらはまだ統計です。(X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)
ジェームスマーティン

4
これらの例は、私にとって完全に有効であると思われます。データをトレーニングセットと検証セットに分割するという考えは無効だと言っていますか?
ジェームスマーティン

2
私もそれで少し混乱しています。@CarlWitthoftポイントについて説明してみましょう。それはまだ数学的定義の面では統計ですが、コンサルタントが観測の「統計」をとるケースを見ることができますが、arbitrarily意的にいくつかの結果を削除することを決定します(コンサルタントは常にこれを正しくしますか?)これはまだ観測の関数であるという意味で「有効」です。ただし、統計を表示および解釈する方法はおそらく有効ではありません。
ジェイクキルシュ

2
@Carl Withhoft:あなたが指摘している点に関して、統計(すべてのデータを含む必要はなく、サンプルのすべての情報を含まない場合があります)と十分な統計(すべてを含む)を区別することが重要です何らかのパラメーターに関する情報)。統計理論には、統計にサンプル内のすべての関連情報が含まれているという考えを捉える十分性などの十分に発達した概念が既にあります。「統計」の定義にその要件を組み込むことを試みることは、必要ではなく、望ましくもありません。
モニカを

4

データを見る前に、どの統計を計算するかを決めるべきだと言っていると解釈します。そのため、たとえば、外れ値を取得する場合、「外れ値」を構成するデータを表示する前に決定する必要があります。データを見た後で決定する場合、関数はデータに依存します。


これも役立ちます!だから、どの観測が利用できるかを知ってから、どの観測を関数に含めるかを決定します。これは、以前の回答に関する私のコメントで多かれ少なかれ説明していました。
ジェイクキルシュ

2
(+1)これが重要であることに注意する価値があるかもしれません。なぜなら、ドロップされるデータポイントを構成するものについて事前にルールを定義する場合、統計の分布(つまり、切り捨てられた平均など) 。)。事前に明確に定義されていない理由でデータポイントを削除することを含むメジャーの分布を導き出すことは、本当に困難です。
クリフAB
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.