タグ付けされた質問 「distribution-identification」

2
どの分布がデータに最も適しているかを判断する方法は?
データセットがあり、どの分布がデータに最も適しているかを把握したいと思います。 fitdistr()関数を使用して、必要なパラメーターを推定し、想定される分布(つまり、ワイブル、コーシー、正規)を記述しました。これらのパラメーターを使用して、コルモゴロフ・スミルノフ検定を実施して、サンプルデータが想定分布と同じ分布からのものかどうかを推定できます。 p値が0.05より大きい場合、サンプルデータは同じ分布から引き出されたと仮定できます。しかし、p値は適合度に関する情報を提供しませんよね? したがって、サンプルデータのp値がワイブル分布と同様に正規分布で0.05を超える場合、どの分布がデータに適合するかをどのように知ることができますか? これは基本的に私がやったことです: > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 52.45 53.13 47.92 …

3
データはどの分布に従うのですか?
私には1000個のコンポーネントがあり、これらが障害をログに記録した回数と、障害をログに記録するたびにデータを収集してきたとしましょう。要するに、私はこれらの1000個のコンポーネントのそれぞれの修復時間(秒単位)を記録しています。データはこの質問の最後に記載されています。 これらすべての値を取得descdistし、fitdistrplusパッケージからRでカレンとフレイのグラフを作成しました。私の希望は、修復の時間が特定のディストリビューションに従っているかどうかを理解することでした。boot=500ブートストラップされた値を取得するためのプロットを次に示します。 このプロットは、観測がベータ分布に該当することを示していることがわかります(または、その場合、何が明らかになっているのでしょうか?) ?(私はこれらの結果の背後にある実用的な現実世界の直観を探しています)。 編集: packageのqqPlot関数を使用したQQplot car。最初に、fitdistr関数を使用して形状とスケールのパラメーターを推定しました。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 次に、私はこれをしました: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 編集2: 対数正規QQplotで更新します。 私のデータは次のとおりです。 c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, …

3
このディストリビューションには名前がありますか?
今日は私に起こったその配布 のために、ガウスとラプラス分布との間の妥協点として見ることができるX∈R、P∈[1、2]およびβ>0このような分布は、名前を持っていますか?また、正規化定数の式はありますか?私ものために解決を開始する方法がわからないので計算は、私を切り株C不可欠で 1=C⋅∫ ∞ - ∞のexp(-|X-μ | Pf(x)∝exp(−|x−μ|pβ)f(x)∝exp⁡(−|x−μ|pβ) f(x)\propto\exp\left(-\frac{|x-\mu|^p}{\beta}\right) x∈R,p∈[1,2]x∈R,p∈[1,2]x\in\mathbb{R}, p\in[1,2]β>0.β>0.\beta>0.CCC1=C⋅∫∞−∞exp(−|x−μ|pβ)dx1=C⋅∫−∞∞exp⁡(−|x−μ|pβ)dx 1=C\cdot \int_{-\infty}^\infty \exp\left(-\frac{|x-\mu|^p}{\beta}\right) dx

9
ping応答時間に関するこのデータがどのような分布を表しているのかを知るにはどうすればよいですか?
ネットワークping時間の実世界のプロセスをサンプリングしました。「往復時間」はミリ秒単位で測定されます。結果はヒストグラムにプロットされます。 ping時間には最小値がありますが、長い上側の尾があります。 これがどのような統計分布であり、そのパラメーターを推定する方法を知りたいです。 ディストリビューションは通常のディストリビューションではありませんが、達成しようとしていることを示すことができます。 正規分布は次の関数を使用します。 2つのパラメーター μ(平均) σ 2 (分散) パラメータ推定 2つのパラメーターを推定する式は次のとおりです。 Excelにあるデータに対してこれらの式を適用すると、次のようになります。 μ= 10.9558(平均) σ 2 = 67.4578(分散) これらのパラメーターを使用すると、サンプリングしたデータの上に「正規」分布をプロットできます。 明らかに正規分布ではありません。正規分布は、無限の上部および下部テールを持ち、対称です。この分布は対称ではありません。 どの原則を適用しますか。これがどのような分布であるかを判断するために、どのフローチャートを適用しますか? 分布に負のテールがなく、長い正のテールがある場合、どの分布がそれに一致しますか? あなたが取っている観測値に分布を一致させる参照はありますか? そして、簡単に言えば、この分布の式は何ですか?また、そのパラメーターを推定する式は何ですか? 「平均」値と「スプレッド」を取得できるように、分布を取得したい: 私は実際にソフトウェアでヒストグラムをプロットしており、理論的な分布をオーバーレイしたい: 注:math.stackexchange.comからクロスポスト 更新:160,000サンプル: 月と月、および無数のサンプリングセッションは、すべて同じ分布を提供します。数学的表現が必要です。 Harveyは、データをログスケールにすることを提案しました。対数スケールでの確率密度は次のとおりです。 タグ:サンプリング、統計、パラメーター推定、正規分布 それは答えではなく、質問の補遺です。これが配布バケットです。もっと冒険好きな人は、Excel(またはあなたが知っているプログラム)にそれらを貼り付けて、分布を見つけることができると思います。 値は正規化されます Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 59.5 0.0729476844872482 …

1
指数とガンマの間の分布の名前?
密度ここで、はパラメータであり、指数関数()の間に存在しますおよび()分布。これがたまたま分布のより一般的なファミリの例であるかどうかだけ知りたいですか?そのように私はそれを認識していません。f(s)∝ss+αe−s,s>0f(s)∝ss+αe−s,s>0f(s)\propto \frac{s}{s+\alpha}e^{-s},\quad s > 0α≥0α≥0\alpha \ge 0α=0α=0\alpha=0Γ(2,1)Γ(2,1)\Gamma(2,1)α→∞α→∞\alpha \to \infty
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.