私はそれらの間隔のいずれにも中点を使用しません(おそらく、いくつかの反復手順の初期推定として期待します)。
データが本当に指数分布からのものである場合、各ビン内の値は正しいスキューでなければなりません。平均は、ビンの境界の平均から離れると予想されます。
すべてのデータがある場合は、式が適していることに注意してください。ビン化されたデータでは、ビン化された(つまり、区間打ち切り)指数の可能性を最大化する必要があります。λ^=1バツ¯
尤度ログインする[寄与ビンに観察を -との間のものとん私私l私あなた私 -です ん私ログ(F(l私)− F(あなた私))(の2つの項は、分布のパラメーターの関数です)。]F
あなたは、指数の平均のための良好な近似値を持っている場合ので、指数のメモリー性の不足のため、あなたはまた、いくつかの値以上の分布の平均した量の良い近似してい超え。バツ0バツ0
したがって(私が提案したように、区間打ち切りデータの尤度*を直接最大化しないと仮定すると)、平均の概算(と言う)から始めて、アッパーテールの「中心」として。メートル(0 )120 +メートル(0 )
次に、これを使用して、パラメーター(および平均)のより良い推定を取得し、上位のビンを含む各ビンの条件付き平均の改善された推定を取得できます。[このようなアプローチが必要な場合は、EMを直接行うことに傾倒するかもしれません。]
平均のいくつかの単純な推定値をすばやく取得できます。たとえば、41%の値が20未満で発生するため、平均値の推定値に対応するに。または、中央値(30未満、おそらく約28)の目で見た目で簡単に推定できるため、平均値は近く、または約なるはずです。exp(−20λ^(0 ))= 1 − 0.413828 /ログ(2 )40
これらのいずれも、最後のビンの条件付き平均の推定値を配置するために120をどれだけ超えるかを初期推定値として使用するのが妥当です。
*可能性を最大化する代わりに、カイ2乗統計量を最小化します。その場合、dfへの同じ調整が使用されます。カイ2乗統計量は比較的簡単に計算でき、単一のパラメーターを最適化するのは非常に簡単です。