タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。


1
サンプルのブートストラップ時にセンタリングが必要ですか?
サンプル平均の分布を近似する方法について読んでいると、ノンパラメトリックブートストラップ法に出くわしました。明らかに一つの分布近似することができるの分布によってˉ X * N - ˉ X N、ˉ X * nは、ブートストラップサンプルのサンプルの平均を意味します。X¯n−μX¯n−μ\bar{X}_n-\muX¯∗n−X¯nX¯n∗−X¯n\bar{X}_n^*-\bar{X}_nX¯∗nX¯n∗\bar{X}_n^* 私の質問は、「センタリングが必要ですか?」です。何のために? 私だけでおおよそのことができませんでしたによるP (ˉ X * N ≤ X )?P(X¯n≤x)P(X¯n≤x)\mathbb{P}\left(\bar{X}_n \leq x\right)P(X¯∗n≤x)P(X¯n∗≤x)\mathbb{P}\left(\bar{X}_n^* \leq x\right)

1
ネゲントロピーの導出。はまる
そのため、この質問は多少複雑ですが、できる限り簡単になるように心がけました。 目標:長い話を簡単に言えば、高次のキュムラントを含まない負のエントロピーの導出があり、それがどのように導出されたかを理解しようとしています。 背景:(これはすべて理解しています) ここにある「独立成分分析」という本を自習しています。(この質問は、「非多項式関数によるエントロピーの近似」という本がある場合は、セクション5.6からのものです)。 我々は持っているバツバツxランダム変数であり、そしてそのネゲントロピー我々は我々が持っているいくつかの観測から、推定したいです。のPDFはp x(ζ )でバツバツx与えられます。ネゲントロピーは、標準化されたガウス確率変数の微分エントロピーとxの微分エントロピーの差です。ここでの微分エントロピーは、次のようにHによって与えられます。pバツ(ζ)pバツ(ζ)p_x(\zeta)バツバツxHHH H(X )= - ∫∞- ∞pバツ(ζ)L O G(pバツ(ζ))dζH(バツ)=−∫−∞∞pバツ(ζ)log(pバツ(ζ))dζ H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta そのため、負のエントロピーは J(x )= H(v )− H(x )J(バツ)=H(v)−H(バツ)J(x) = H(v) - H(x) ここでvvvは標準化されたガウスrvであり、PDFは与えられϕ (ζ)ϕ(ζ)\phi(\zeta)ます。 さて、この新しい方法の一部として、私の本はのPDFの推定値を導き出しましたバツバツx。 pバツ(ζ)= ϕ (ζ)[ 1 + ∑私c私F私(ζ)]pバツ(ζ)=ϕ(ζ)[1+∑私c私F私(ζ)] p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; …

5
回帰の従属変数としてのパーセンテージの推定
私の研究の従属変数として、38の試験の学生のランクの割合があります。ランクの割合は、(学生のランク/試験の学生数)によって計算されます。この従属変数の分布はほぼ均一であるため、従属変数に対するいくつかの変数の影響を推定したいと思います。 どの回帰アプローチを使用しますか?

2
データのサンプルがガンマ分布のファミリーに適合するかどうかをテストする方法は?
連続ランダム変数Xから生成されたデータのサンプルがあります。そして、Rを使用して描画したヒストグラムから、Xの分布は特定のガンマ分布に従っていると思います。しかし、私はこのガンマ分布の正確なパラメーターを知りません。 私の質問は、Xの分布がガンマ分布のファミリーに属するかどうかをテストする方法ですか?Kolmogorov-Smirnov検定、Anderson-Darling検定などの適合度検定がいくつか存在しますが、これらの検定を使用する際の制限の1つは、理論分布のパラメーターを事前に知っておく必要があることです。この問題を解決する方法を教えてください。

3
ヒストグラムで分布を特定するのに助けが必要
特定の信号の登録された最大振幅のサンプル母集団があります。人口は約1500万サンプルです。母集団のヒストグラムを作成しましたが、そのようなヒストグラムでは分布を推測できません。 EDIT1:生のサンプル値を持つファイルはこちら:生データ 誰でも次のヒストグラムを使用して分布を推定できますか?

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

4
2つのサンプル分布の裾の比較
ほぼゼロを中心とした2つのデータセットがありますが、テールが異なると思われます。分布を正規分布と比較するいくつかのテストを知っていますが、2つの分布を直接比較したいと思います。 2つの分布の裾の太さを比較する簡単なテストはありますか? ありがとう fRed

1
同じスキューのヌルについて2つの独立したサンプルをテストしますか?
同じスキューを持つ母集団から派生しているという帰無仮説について、2つの独立したサンプルをテストするには、どのテストを使用できますか?スキューが固定数に等しいかどうかの古典的な1サンプルテストがあります(テストには6番目のサンプルモーメントが含まれます!)。2サンプルテストへの簡単な翻訳はありますか? データの非常に高い瞬間を含まない手法はありますか?(私は「bootstrap it」という形式の答えを期待しています:ブートストラップ技術はこの問題に適していることが知られていますか?)

1
エントロピーは場所と規模にどのように依存しますか?
密度関数連続分布のエントロピーは、期待値の負になるように定義されているため、等しいffflog(f),log⁡(f),\log(f), Hf=−∫∞−∞log(f(x))f(x)dx.Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. また、分布が密度ランダム変数はエントロピーがあると言います (この積分は、がゼロの場合でも明確に定義され。なぜなら、はそのような値でゼロに等しくなることができるからです。)XXXfffHf.Hf.H_f.ffflog(f(x))f(x)log⁡(f(x))f(x)\log(f(x))f(x) 場合及びランダム変数である(一定である)、のバージョンであると言われているだけシフト 同様に、(は正の定数)の場合、Yは\ sigmaでスケーリングされたXのバージョンと言われます。スケールとシフトを組み合わせると、Y = X \ sigma + \ muになります。XXXYYYY=X+μY=X+μY = X+\muμμ\muYYYXXX μ.μ.\mu.Y=XσY=XσY = X\sigmaσσ\sigmaYYYXXX σ.σ.\sigma.Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. これらの関係は頻繁に発生します。たとえば、XXXの測定単位を変更すると、Xがシフトおよびスケーリングされます。 Y=Xσ+μY=Xσ+μY = X\sigma + \muのエントロピーはXのエントロピーとどのように関連していX?X?X?

1
カイ2乗検定とカイ2乗分布の理解
私はカイ二乗検定の背後にある論理を理解しようとしています。 カイ2乗検定は。χ2は、その後、帰無仮説を棄却かないためにp.valueを見つけるためにカイ二乗分布と比較されます。H0:観測値は、期待値の作成に使用した分布から取得されます。たとえば、取得の確率が予想どおりpで与えられるかどうかをテストできます。したがって、100回反転し、nHと1−nHを見つけます。我々は(期待されているものに我々の発見を比較したい100⋅P)。二項分布を使用することもできますが、それは問題のポイントではありません…問題は次のとおりです。χ2=∑(obs−exp)2expχ2=∑(obs−exp)2exp\chi ^2 = \sum \frac{(obs-exp)^2}{exp}χ2χ2\chi ^2H0H0H_0headpppnHnHn_H Heads1−nH1−nH1-n_H tails100⋅p100⋅p100 \cdot p あなたはなぜ、帰無仮説の下で、説明していただけますはカイ二乗分布に従いますか?∑(obs−exp)2exp∑(obs−exp)2exp\sum \frac{(obs-exp)^2}{exp} カイ2乗分布について知っているのは、次のカイ2乗分布がkの標準正規分布の2乗の合計であることだけです。kkkkkk

3
クラスタリング確率分布-メソッドとメトリック?
いくつかのデータポイントがあり、それぞれに5つのベクトルの凝集した離散結果が含まれ、各ベクトルの結果は異なる分布によって生成されます(特定の種類は定かではありませんが、私の最良の推測はワイブルで、形状パラメーターは指数関数の周りで変化します)法律(1〜0、大体)。) K-Meansなどのクラスタリングアルゴリズムを使用して、5つのコンポーネント分布の属性に基づいて各データポイントをグループに入れたいと考えています。これらの目的に適した確立された距離メトリックがあるかどうか疑問に思っていました。これまでに3つのアイデアがありましたが、私は経験豊富な統計学者ではありません(データマイニングコンピューター科学者の始まりです)。 私が扱っている分布の種類が正確にはわからないので、問題に対する私の総当たり的なアプローチは、各分布(1ポイントあたり5つ)をそれぞれの個別のデータ値に分割することでした(I padそれぞれが同じ長さに対応し、最後にゼロが付いています)、これらの各値をデータポイント自体の個別の属性として使用します。PDFとCDFの両方について、これらの属性に基づくメトリックとしてマンハッタン距離とユークリッド距離の両方を使用してみました。 繰り返しますが、どのような分布があるのか​​わからないので、全体の分布間の距離を測定する場合、KSテストなどの分布間でペアである種のノンパラメトリックテストを使用できると考えました、特定の分布が異なるPDFによって生成された可能性を見つけるため。マンハッタン距離を使用する最初のオプション(上記)は、このアプローチを使用して得られるものの一種の上限になると考えました(KS統計はCDFの差の最大絶対値であり、マンハッタン距離はPDFの差の絶対値の合計)。次に、おそらくユークリッド距離を使用して、各データポイント内で異なるKS統計値またはP値を結合することを検討しましたが、これらの値のすべての最大値を取得することもできます。 最後に、分布の形状についてほとんど解釈できないものを使用するために、ワイブル曲線に適合するように分布のパラメーターを推定しようと考えました。次に、ワイブル分布の2つのパラメーター、ラムダとk(スケールと形状)の違いに基づいて分布をクラスター化できます。おそらく、これらのパラメーターの分散またはある種のものに従って正規化されます。これは、パラメーターを正規化する方法のアイデアがあると思った唯一のケースです。 それで、私の質問は、分布のクラスタリングのためにどのような尺度/方法をお勧めしますか?私はこれらのどれでも正しい軌道に乗っていますか?K-Meansは使用するのに適したアルゴリズムでもありますか? 編集:データの明確化。 各データポイント(Objクラスター化する各オブジェクト)には5 vectors、実際には文字通りデータが含まれています。これらのオブジェクトが入ることができるフェーズは正確に5つあることを知っています。(単純化のために)各ベクトルはであると言いますlength N。 これらのベクターの各々は(それを呼び出すvector i)整数の確率分布であるx-values各対応するY値が測定される確率を表し、N、スルー1のvalue x中phase iのオブジェクトのをObj。Nは、オブジェクトの任意のフェーズで測定する予定の最大x値です(これは実際の分析では固定値ではありません)。 これらの確率は次の方法で決定します。 私はシングルを取り、各トライアルで測定を行うためObjにそれを入れました。各測定は単一の整数です。これは、単一オブジェクトの5つのフェーズのそれぞれに対して、そして各オブジェクトに対して順番に行います。単一のオブジェクトの生の測定データは次のようになります。phase ik trials ベクトル1. [90、42、30、9、3、4、0、1、0、0、1] ベクトル2。[150、16、5、0、1、0、0、0、0、0、0] ... ベクトル5. [16、... ...、0] 次に、与えられたベクトル内の測定の総数に関して、各ベクトルを独自に正規化します。これにより、そのベクトルの確率分布が得られます。対応する各y値は、で測定さvalue xれる確率を表しphase iます。


4
ORの分布(オッズ比)とは何ですか?
95%CI(信頼区間)で「OR」を示す記事がたくさんあります。 記事から、観測されたORのP値を推定したい。そのためには、OR分布に関する仮定が必要です。どのディストリビューションを安全に想定/使用できますか?

3
確率分布について初心者向けの本の推奨事項
私は機械学習を勉強していて、開いた本はすべて、カイ2乗分布、ガンマ関数、t分布、ガウス分布などに出会います。 これまでに開いたすべての本は、分布が何であるかを定義しているだけです。それらは、関数の特定の式がどこから来ているのかを説明したり、直感を与えたりしません。 たとえば、なぜカイ二乗分布が現状のままであるのでしょうか。T分布とは何ですか?ディストリビューションの背後にある直感は何ですか?証拠?等 最も一般的に使用される分布について明確かつ基本的な理解を持ちたいので、後でそれらを見るたびに、t分布とは何か、ガウス分布とは何か、そして最も重要なのはなぜそれらがそのようになるのかを本当に理解するためです彼らです。 本/チュートリアルが素人に概念を説明できて、それらを理解するためにあなたがすでにそれらを理解する必要がないようになっているとよいでしょうx)多くの本はこのようなものであり、初心者には適していません:(

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.