タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

5
Kullback-Leibler(KL)発散に関する直観
モデル分布関数がデータの理論的/真の分布とどれだけ異なるかということから、KL発散の背後にある直感について学びました。私が読んでいるソースは、これらの2つの分布間の「距離」の直感的な理解が役立つと言い続けていますが、2つの分布PPPとQQQではKL発散はPPPとQQQ対称ではないため、文字通り解釈すべきではありません。 私は最後の声明を理解する方法がわかりません、またはこれは「距離」の直感が壊れるところですか? シンプルだが洞察に満ちた例に感謝します。

5
2つのグループのt検定とANOVAが同等である場合、それらの仮定が同等ではないのはなぜですか?
私はこれを完全に頭に包んでいると確信していますが、私はそれを理解することができません。 t検定は、Z分布を使用して2つの正規分布を比較します。これが、データに正規性の仮定がある理由です。 ANOVAは、ダミー変数を使用した線形回帰に相当し、OLSと同様に平方和を使用します。それが、残差の正常性の仮定がある理由です。 私は数年かかったが、私は最終的にそれらの基本的な事実を把握したと思います。それでは、なぜt検定は2つのグループのANOVAと同等なのでしょうか?データについて同じことを想定していない場合、どうすれば同等になりますか?

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

6
分布間のコルモゴロフ距離の動機
2つの確率分布がどれほど似ているかを測定する方法はたくさんあります。(異なるサークルで)人気のある方法は次のとおりです。 コルモゴロフ距離:分布関数間の距離。 Kantorovich-Rubinstein距離:リプシッツ定数を持つ関数の2つの分布に対する期待値の最大差111。これは分布関数間のL1L1L^1距離でもあります。 境界付きリプシッツ距離:KR距離に似ていますが、関数は絶対値がである必要があります111。 これらには異なる利点と欠点があります。3.の意味での収束のみが実際に分布の収束に正確に対応します。1.または2.の意味での収束は、一般にわずかに強くなります。(特に、X n = 1の場合Xn=1nXn=1nX_n=\frac{1}{n}は確率111で、は分布で0にXnXnX_n収束し000が、コルモゴロフ距離では収束しません。ただし、制限の分布が連続している場合、この病理は発生しません。) 初等確率または測度理論の観点から見ると、1はあるセットに含まれる確率を比較するため、非常に自然です。一方、より洗練された確率論的視点は、確率よりも期待に集中する傾向があります。また、機能分析の観点から、いくつかの機能空間との双対性に基づいた2または3のような距離は非常に魅力的です。 しかし、私の印象(間違っていれば私を修正してください!)は、統計では、コルモゴロフ距離が分布の類似性を測定するための通常好ましい方法であるということです。理由の1つは推測できます:分布の1つが有限のサポートで離散的である場合、特に実際のデータの分布である場合、モデル分布までのコルモゴロフ距離は計算が簡単です。(KR距離は計算がやや​​難しく、BL距離は実際的にはおそらく不可能です。) 私の質問(最終的に)は、統計的な目的でコルモゴロフ距離(またはその他の距離)を優先する他の理由(実用的または理論的)がありますか?


5
偽の一様乱数:真の一様データよりも均等に分布
私は、均一に分布しているように見える乱数を生成する方法を探しています-そして、すべてのテストはそれらが均一であることを示します- 真の均一データよりも均等に分布していることを除いて。 「真の」均一なランダムの問題は、それらが時々クラスター化することです。この効果は、サンプルサイズが小さいほど強くなります。大まかに言って、U [0; 1]で2つのUniformランダムを描画すると、確率が0.1の範囲内にある可能性は約10%、0.01の範囲内にある可能性は1%です。 だから私は均一な乱数よりも均等に分布している乱数を生成する良い方法を探しています。 ユースケースの例:私はコンピューターゲームをやっていて、地図にランダムに宝物を置きたい(他のことは気にしない)とします。宝物をすべて1か所に集めたくはありません。地図全体に宝物を置くべきです。一様なランダムでは、たとえば10個のオブジェクトを配置した場合、5個ほどが互いに非常に近いという可能性は低くありません。これにより、あるプレイヤーが別のプレイヤーよりも有利になる場合があります。掃海艇について考えてみてください(十分な機雷がある場合は低いとはいえ)、あなたは本当に幸運で、ワンクリックで勝つことができます。 私の問題に対する非常に素朴なアプローチは、データをグリッドに分割することです。数が十分に大きい(そして要因がある)限り、この方法で余分な均一性を強制できます。したがって、U [0; 1]から12個のランダム変数を描画する代わりに、U [0; .5]から6個、U [0.5; 1]から6個、またはU [0; 1/3] + 4から4個描画できます。 U [1/3; 2/3]から+ U [2/3;から4; 1]。 この余分な均一性をユニフォームに取り入れるより良い方法はありますか?おそらく、バッチランダムに対してのみ機能します(単一のランダムを描画するときは、明らかに範囲全体を考慮する必要があります)。特に、後でレコードをシャッフルすることができます(したがって、最初の3番目から4番目のレコードではありません)。 少しずつやってみてはいかがですか?それで、最初はU [0; 1]にあり、次に各半分から2つ、各3つから1つ、各4つから1つですか?これは調査されましたか?xとyに異なるジェネレーターを使用して、それらを相関させないように注意する必要があります(最初のxyは常に下半分、2番目は左半分と下3番目、3番目は中央3番目と上3番目です)。 ..だから、少なくともいくつかのランダムなビンの並べ替えも必要です。そして、長期的には、それはあまりにも均一になると思います。 サイドノードとして、分布が均一になりすぎて真に均一にならないかどうかをテストすることはよく知られていますか?そのため、「真の統一」と「誰かがデータをいじり、アイテムをより均等に分散させる」ことをテストします。正しく思い出せば、Hopkins Statisticはこれを測定できますが、テストにも使用できますか?またやや逆KS-テスト:最大偏差が特定の予想しきい値を下回っている場合、データは均等に分散されていますか?

3
どちらが重い尾、対数正規またはガンマを持っていますか?
(これは、電子メールで私に届いた質問に基づいています。同じ人との以前の短い会話からいくつかのコンテキストを追加しました。) 昨年、ガンマ分布は対数正規分布よりも裾が重いと言われましたが、そうではないと言われました。 どちらが重いですか? 関係を調べるために使用できるリソースは何ですか?

8
与えられたサンプルがポアソン分布から取得された場合、どのようにテストできますか?
正規性テストは知っていますが、「ポアソン性」をテストするにはどうすればよいですか? 〜1000個の非負整数のサンプルがありますが、これらはポアソン分布から取得されたものと思われ、それをテストしたいと思います。

3
平均、中央値、モード間の経験的関係
適度に歪んだユニモーダル分布の場合、平均、中央値、モードの間に次の経験的関係があります。 この関係はどうでしたか派生?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} この結論を形成する前に、カールピアソンはこれらの関係を何千もプロットしましたか、それともこの関係の背後に論理的な推論の線がありますか?

4
通常のランダム変数の近似次数統計
特定のランダム分布の次数統計のためのよく知られた公式はありますか?特に、通常のランダム変数の最初と最後の統計値ですが、より一般的な回答も歓迎します。 編集:明確にするために、厳密な積分式ではなく、多少なりとも明示的に評価できる近似式を探しています。 たとえば、通常のrvの1次統計量(つまり最小値)について、次の2つの近似を見ました。 e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma そして e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma これらの最初のについては、およそを与えます。n=200n=200n=200e1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigma 2番目はを与えますが、素早いモンテカルロはを与えます。さらに重要なことに、私はそれがどこから来たのかについて直感を持っていません。e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmae1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigma 助けがありますか?

9
ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか?
YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k)(kkkが指定されている)などのクエリにすばやく応答することに興味があります。 現在、私はそのような質問に答えるためにランダムシミュレーションを使用しています。p_iに従って各X_iをランダムに描画XiXiX_iし、すべてのX_i値を合計してY 'を取得します。このプロセスを数千回繰り返し、時間の小数部分\ Pr(Y '\ leq k)を返します。pipip_iXiXiX_iY′Y′Y'Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k) 明らかに、これは完全に正確ではありません(ただし、シミュレーションの数が増えると精度は大幅に向上します)。また、使用シミュレーションを回避するのに十分な分布に関するデータがあるようです。正確な確率\ Pr(Y \ leq k)を取得する合理的な方法を考えることができますPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)か? PS PerlとRを使用しています。 編集 回答に続いて、私はいくつかの説明が必要かもしれないと思った。問題の設定について簡単に説明します。円周cとnそれにマッピングされた一連の範囲を持つ円形ゲノムが与えられます。たとえば、c=3*10^9およびranges={[100,200],[50,1000],[3*10^9-1,1000],...}。すべての範囲が閉じていることに注意してください(両端が含まれます)。また、整数(全体の単位)のみを扱うことに注意してください。 特定のnマッピング範囲で覆われている円上の領域を探しています。したがってx、円上の与えられた長さの範囲がカバーされているかどうかをテストするために、n範囲がランダムにマッピングされるという仮説をテストします。マッピングされた長さの範囲が指定された長さの範囲をq&gt;x完全にカバーする確率xは(q-x)/cです。この確率cは、大きい場合や小さい場合に非常に小さくなりますq。私が興味を持っているのは、nをカバーする範囲の数(範囲外)xです。これがY形成される方法です。 帰無仮説と片側の代替(アンダーカバー)をテストします。また、複数の仮説(異なるx長さ)をテストしていることにも注意してください。これを必ず修正してください。



2
負の二項分布内のパラメーターを理解する
私は自分のデータをさまざまなモデルに当てはめようとしており、fitdistrライブラリMASSの関数Rが私Negative Binomialに最適だと判断しました。今からのwikiページ、定義は、以下のように与えられます。 NegBin(r、p)分布は、最後の試行で成功したk + r Bernoulli(p)試行でのk失敗およびr成功の確率を記述します。 を使用Rしてモデルの近似を実行するmeanと、2つのパラメーターとが得られますdispersion parameter。これらのパラメーターをWikiページに表示できないため、これらの解釈方法が理解できません。私が見ることができるのは次の式だけです: ここkで、観測数とr=0...nです。では、これらのパラメータをどのように関連付けるのRですか?ヘルプファイルも多くの情報を提供しません。 また、私の実験について一言言っておくと、私が行っていた社会実験では、各ユーザーが10日間に連絡した人数を数えようとしていました。実験の母集団サイズは100でした。 さて、もしモデルが負の二項に適合するなら、その分布に従うと盲目的に言うことができますが、この背後にある直感的な意味を本当に理解したいと思います。被験者が接触した人数は負の二項分布に従うとはどういう意味ですか?誰かがこれを明確にするのを手伝ってもらえますか?

10
生存時間が指数関数的に分布していると仮定されるのはなぜですか?
私はUCLA IDREに関するこの投稿から生存分析を学んでおり、セクション1.2.1でトリップしました。チュートリアルには次のように書かれています: ...生存時間が指数関数的に分布していることがわかっている場合、生存時間を観察する確率... 生存時間が指数関数的に分布していると仮定されるのはなぜですか?私には非常に不自然に思えます。 なぜ普通に配布されないのですか?特定の条件(日数など)でクリーチャーの寿命を調査していると仮定します。ある分散(100日と分散3日)を中心にすべきでしょうか。 時間を厳密に正にしたい場合は、平均が高く分散が非常に小さい正規分布を作成してください(負の数を取得する機会はほとんどありません)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.