タグ付けされた質問 「binning」

ビニングとは、連続変数を個別のカテゴリにグループ化することです。特にヒストグラムを参照して使用されますが、粗くするという意味でより一般的に使用することもできます。

3
ピアソン相関の前にビニングデータは有効ですか?
データをビンに入れ、ビンの平均を計算し、これらの平均に基づいてピアソン相関係数を導出することは許容されますか?(データを母集団のサンプルとして考える場合)これらの平均の散布は平均の標準誤差であり、が大きい場合は非常にきついので、私にはやや怪しい手順のようです。したがって、おそらく、プライマリデータよりもはるかに優れた相関係数が得られますが、それは間違っているようです。一方、相関計算の前に反復測定を平均化することはよくありますが、それほど大きな違いはありません。んnn

1
カイ2乗GOFテストに使用するビンの数をどのように選択しますか?
私は放射性崩壊に関する物理学研究室の開発に取り組んでおり、私が取ったサンプルデータを分析する際に、驚いた統計の問題に遭遇しました。 放射線源による単位時間あたりの崩壊数がポアソン分布であることはよく知られています。ラボが機能する方法は、学生が時間枠ごとの崩壊の数を数え、それを何度も繰り返すことです。次に、カウント数でデータをビニングし、χ2χ2\chi^2推定された1つのパラメーター(平均)を使用した適合度検定。帰無仮説(データは、推定された平均値を持つポアソン分布から得られたもの)が成り立つかどうかを確認します。うまくいけば、彼らは大きなp値を取得し、物理学が実際に機能すると結論付けます(そうです)。 データをビニングした方法がp値に大きな影響を与えることに気付きました。たとえば、非常に小さなビンを多数選択した場合(たとえば、整数ごとに個別のビン:78カウント/分、79カウント/分など)、小さなp値が得られ、帰無仮説を拒否する必要があったでしょう。 。ただし、データをより少ないビンにビニングした場合(たとえば、スタージのルールで指定されたビンの数を使用:)、はるかに大きなp値が得られ、帰無仮説は拒否されませんでした。1 + l og2(N)1+log2(N)1+log_{2}(N) 私のデータを見ると、非常にポアソン分布されているように見えます(予想されるカウント/分とほぼ完全に一致しています)。とはいえ、平均値から非常に離れたビンには数カウントがあります。つまり、非常に小さなビンを使用して統計を計算する場合、次のようないくつかの項があります: これにより、統計が高くなり、p値が低くなります。予想通り、予想される値がそれほど低くならないため、ビンの幅が大きくなると問題はなくなります。χ2χ2\chi^2(O b s e r v e d− Ex p e c t e d)2Ex p e c t e d=(1 − 0.05)20.05= 18.05(Observed−Expected)2Expected=(1−0.05)20.05=18.05\frac{(Observed-Expected)^2}{Expected} = \frac{(1-0.05)^2}{0.05}=18.05χ2χ2\chi^2 質問: GOFテストを実行するときにビンサイズを選択するための良い目安はありますか?χ2χ2\chi^2 この異なるビンサイズの結果の不一致は、私が知っておくべきことでしたか*または、提案されたデータ分析でいくつかのより大きな問題を示していますか? - ありがとうございました *(私は学部で統計学のクラスを受講しましたが、それは私の専門分野ではありません。)

3
ビン化されたデータを使用した指数分布のパラメーターの推定
指数分布でモデル化できる次のデータがあります Time 0-20 20-40 40-60 60-90 90-120 120-inf Frequency 41 19 16 13 9 2 データが指数分布に従うかどうかをテストするために、カイ2乗検定統計量を使用します。しかし、このためにラムダも計算する必要があります()。ML E=1バツ¯MLE=1X¯MLE = \frac{1}{\bar X} したがって、私の質問は、最後の間隔が120から無限大の場合、間隔の中間点をどのように選択すればよいですか。

3
ビン平均が保持されるようにビンデータを補間する
このビニングされたデータを入力として持っているとしましょう。平均値は、連続する間隔ごとに与えられます。簡単にするために、サンプリング密度が各ビン内で均一であると仮定しましょう。y¯iy¯i\bar{y}_iΔxiΔxi\Delta x_i 次に、基礎となる関数()を推定したいと思います。つまり、任意の時間厳守値(たとえば、 = 2.3または2.5など)に対して、妥当な推定値を取得できるようにしたいと考えています。要件は次のとおりです。yyyxxxyyyxxxxxx 関数は、バイアスを導入しないように、各ビンの平均保持する必要がありy(x)¯¯¯¯¯¯¯¯¯i=y¯iy(x)¯i=y¯i\overline{y(x)}_i = \bar{y}_i 関数は連続的でなければなりません(つまり、不連続性はありません) 関数は負でない必要があります。(負の値は物理的ではありません。) 与えられたビン値を調べるだけで#1は満たされますが、#2に違反します(すべてのビンエッジに不連続があります)。xxx 一方、すべてのビンの重みを各ビンの中心に割り当ててから、それらのポイント間を補間すると、#2は満たされますが、(線形または高次のスプライン補間に関係なく)#1に違反します。以下の図では、2 < <3ビン平均は保持されていません。両方のコーナーが下向きにカットされるため、減少します。xxx 両方の要件を満たす方法でこれをどのように行うことができますか? また、この操作は何と呼ばれていますか?これは補間ですか?(この質問にタグを付ける方法がわかりません。)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.