タグ付けされた質問 「pareto-distribution」




3
データがログの正規分布に適合するかどうかを確認するにはどうすればよいですか?
Rデータが対数正規分布またはパレート分布に適合しているかどうかを確認したい。どうすればできますか?おそらくks.test私はそれを行うのに役立つでしょうが、私のデータのパレート分布のおよびパラメータをどのように取得できますか?αα\alphakkk

1
パレート平滑化重要度サンプリング(PSIS-LOO)の失敗を防ぐ
私は最近、以下の論文で説明されているパレート平滑化重要度サンプリングのリーブワンアウト相互検証(PSIS-LOO)の使用を開始しました。 Vehtari、A.および&Gelman、A.(2015)。パレート平滑化重要度サンプリング。arXivプレプリント(リンク)。 Vehtari、A.、Gelman、A.、およびGabry、J.(2016)。Leave-one-out交差検証とWAICを使用した実用的なベイズモデル評価。arXivプレプリント(リンク) これは、MCMCを1回実行するだけでLOO-CVを実行できるため、サンプル外のモデル評価に対する非常に魅力的なアプローチを表しており、WAICなどの既存の情報基準よりも優れているとされています。 PSIS-LOOには、近似が信頼できるかどうか、つまり、重要度の経験的分布の裾にフィットするパレート分布の推定指数(データポイントごとに1つの重み)によって与えられるかどうかを診断する機能があります。つまり、推定重量場合、悪いことが発生する可能性があります。k^ik^i\hat{k}_ik^i≳0.7k^i≳0.7\hat{k}_i \gtrsim 0.7 悲しいことに、この方法を私の問題に適用したところ、関心のあるモデルの大部分で、\ hat {k} _i \ gg 0.7の大部分が見つかりましたk^i≫0.7k^i≫0.7\hat{k}_i \gg 0.7。当然のことながら、報告されたLOOの対数尤度の一部は、明らかに他のデータセットと比較して無意味でした。ダブルチェックとして、私は従来の(そして時間のかかる)10分割交差検証を実行しましたが、実際に上記のケースでは、PSIS-LOOがひどく間違った結果を与えていたことがわかりました(良い面では、結果は10と非常によく一致しました)すべてのk^i≪0.7k^i≪0.7\hat{k}_i \ll 0.7)のモデルのCVを折りたたみます。参考までに、Aki VehtariによるPSIS-LOOのMATLAB実装を使用しています。 多分私は、この方法を適用する私の現在の最初の問題がPSIS-LOOにとって「困難」であるという点で非常に不運なだけかもしれませんが、このケースは比較的一般的かもしれないと思います。私のような場合、Vehtary、Gelman&Gabryの論文は単に次のように述べています: PSIS推定値に有限の分散がある場合でも、場合、ユーザーは問題のあるについてから直接サンプリングすることを検討する必要があります倍交差を使用します検証、またはより堅牢なモデルを使用します。k^>0.7k^>0.7\hat{k} > 0.7p(θs|y−i)p(θs|y−i)p(\theta^s |y_{−i})iiikkk これらは明白ですが、時間がかかるか、追加の操作が必要であるため、実際には理想的なソリューションではありません(MCMC とモデルの評価はすべて操作に関するものですが、少ないほど優れています)。 PSIS-LOOの失敗を防ぐために事前に適用できる一般的な方法はありますか?暫定的なアイデアはいくつかありますが、人々が採用している実証的な解決策はすでにあるのでしょうか。

3
データサンプルからZipf切り捨て分布のパラメーターを推定する方法
Zipfの推定パラメーターに問題があります。私の状況は次のとおりです: サンプルセットがあります(Zipf分布に従う必要がある呼び出しを生成する実験から測定)。このジェネレーターが実際にzipf配布で呼び出しを生成することを示す必要があります。既にこのQ&Aを読みました。一連の最高周波数からZipfの法則係数を計算する方法は?しかし、トランケートされたディストリビューションを使用しているため、悪い結果に達しています。たとえば、生成プロセスの「s」値を「0.9」に設定した場合、報告されたQ&Aに記載されている「s」値を推定しようとすると、0.2 caに等しい「s」が得られます。これは、TRUNCATEDディストリビューションを使用していることが原因だと思います(zipfを切り捨てポイントで制限する必要があります。右側が切り捨てられます)。 切り捨てられたzipf分布でパラメーターを推定するにはどうすればよいですか?

3
中心極限定理とパレート分布
誰かがパレート分布と中心極限定理の間の関係について簡単な(素人)説明を提供できますか?私は次の声明を理解しようとしています: 「中心極限定理はすべての分布で機能するわけではありません。これは1つの卑劣な事実によるものです。サンプル平均は、基礎となる分布が存在する場合、その平均の周りにクラスター化されます。しかし、分布にどういう意味がないのですか?これはパレート分布という意味ではありません。通常の方法で計算しようとすると、無限に発散します。」

1
データがパレート分布に適合しているかどうかを知る方法は?
220の数値を持つベクトルのサンプルがあります。これが私のデータのヒストグラムへのリンクです。。そして、私のデータがパレート分布に適合するかどうかを確認したいのですが、その分布でQQプロットを表示したくありませんが、正規性のアンダーソンダーリング検定(ad.test)など、Rのp値で正確な答えが必要です。どうすればできますか?できるだけ具体的にご記入ください。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.