タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

2
Pythonでのフォンミーゼスフィッシャー分布からのサンプリング?
Pythonの多変量フォンミーゼスフィッシャー分布からサンプリングする簡単な方法を探しています。scipyのstatsモジュールとnumpyモジュールを調べましたが、一変量のフォンミーゼス分布のみが見つかりました。利用可能なコードはありますか?まだ見つかりません。 どうやら、Wood(1994)は、このリンクに従ってvMF分布からサンプリングするためのアルゴリズムを設計しましたが、私は論文を見つけることができません。 -編集正確さのために、私は文献で見つけるのが難しいアルゴリズムに興味があります(ほとんどの論文は焦点を当てています)。私の知る限り、独創的な記事(Wood、1994)は無料で見つけることができません。S2S2S^2

2
二乗正規変数とカイ二乗変数の畳み込みの分布?
最近、データの分析中に次の問題が発生しました。確率変数Xが正規分布に従い、Yが分布(n dof)に従う場合、はどのように分布しますか?これまで PDFを思いついた: Z = X 2 + Y 2 Y 2 ψ 2 N(X )χ2nχn2\chi^2_nZ=X2+Y2Z=X2+Y2Z = X^2 + Y^2Y2Y2Y^2ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot …

5
ゼロを含む入力データにワイブル分布をフィットさせる方法は?
私は引退した研究者によって引き継がれた既存の予測アルゴリズムを再現しようとしています。最初のステップは、いくつかの観測データをワイブル分布に適合させ、将来の値を予測するために使用される形状とスケールを取得することです。これを行うためにRを使用しています。これが私のコードの例です: x<-c(23,19,37,38,40,36,172,48,113,90,54,104,90,54,157,51,77,78,144,34,29,45,16,15,37,218,170,44,121) f<-fitdistr(x, 'weibull') これは、入力配列にゼロが含まれていて完全に失敗しない限り、正常に機能します。SASでも同じことが起こります。私が理解しているように、これは、ワイブル分布を計算するステップの1つが、0に対して未定義の自然対数を取得しているためです。これを回避する合理的な方法はありますか? これまでに見つけた最良の方法は、すべての入力値に1を加算し、曲線に適合させ、予測値から1を減算することです(曲線を「シフト」してから1に戻す)。これは以前に予測されたデータにかなり適合しますが、間違った方法であるに違いないようです。 編集:入力配列の値は、一定の年数の間、実際のデータ(何かの発生数)で観察されます。そのため、数年で発生回数はゼロになりました。最善の方法であるかどうかにかかわらず(そうではないことに同意します)、元のアルゴリズムの著者はワイブル分布を使用したと主張し、そのプロセスを再現する必要があります。

3
切り捨てられた分布とはどういう意味ですか?
動的システムの常微分方程式モデルの感度解析に関する研究記事で、著者はモデルパラメーターの分布を[0.5eの範囲に切り捨てられた正規分布(平均= 1e-4、std = 3e-5)として提供しました-4 1.5e-4]。次に、この切り捨てられた分布のサンプルを使用して、モデルのシミュレーションを行います。切り捨てられた分布と、この切り捨てられた分布からのサンプルがあるとはどういう意味ですか? これを行うには、2つの方法があります。 正規分布からサンプリングしますが、シミュレーションの前に指定範囲外のすべてのランダム値を無視します。 何らかの形で特別な「切り捨てられた正規」分布を取得し、そこからサンプルを取得します。 これらは有効かつ同等のアプローチですか? 最初のケースでは、サンプルの実験的なcdf / pdfをプロットすると、曲線が拡張されないため、正規分布のようには見えません。±∞±∞\pm\infty

3
比較のためにバイオリンのプロットを拡大縮小する方法は?
私はバイオリンのプロットを描画しようとしており、グループ間でそれらをスケーリングするための承認されたベストプラクティスがあるかどうか疑問に思っています。R mtcarsデータセットを使用して試した3つのオプションを次に示します(1973年のMotor Trend Cars、こちらをご覧ください)。 等しい幅 どのように思わ原紙は *行い、何Rはvioplotない(例)。形状の比較に適しています。 等しい面積 各プロットは確率プロットであるため、それぞれの面積はある座標空間で1.0に等しくなければなりません。各グループ内の密度を比較するのに適していますが、プロットがオーバーレイされている場合はより適切であると思われます。 加重エリア 等しい面積に似ていますが、観測数で重み付けされています。これらの車の数が少ないため、6気筒は比較的薄くなります。グループ間で密度を比較するのに適しています。 *バイオリンプロット:ボックスプロット-密度トレースSynergis(DOI:10.2307 / 2685478)


2
任意の分布からp値を計算する
これがばかげた質問ではないことを願っています。任意の連続分布があるとしましょう。統計もあり、この任意の分布を使用して、この統計のp値を取得したいと思います。 Rでは、正規分布のように、分布が組み込み分布の1つに適合する限り、これを行うのは簡単です。しかし、そのような仮定をすることなく、任意の分布でこれを行う簡単な方法はありますか?

2
接続数を負にできない場合、どうすれば接続数をガウスにできますか?
私は(仮想ではなく)ソーシャルネットワークを分析しており、人々のつながりを観察しています。人がランダムに接続する別の人を選択する場合、人のグループ内の接続の数は、少なくとも現在読んでいる本によると、正常に分散されます。 分布がガウス(正規)であることをどのように知ることができますか?ポアソン、ライス、レイリーなどの他の分布があります。理論上のガウス分布の問題は、値がから(確率はゼロになりますが)、接続数は負。−∞−∞-\infty+∞+∞+\infty 各人が独立して(ランダムに)接続する別の人をピックアップした場合にどの分布が期待できるかを知っていますか?

2
標準偏差の三角演算
通常のランダム変数の加算、減算、乗算、除算は明確に定義されていますが、三角演算はどうですか? たとえば、両方とも正規分布として記述された寸法d1d1d_1およびを持つ2つのカテテリーを持つ三角形のくさび(直角三角形としてモデル化された)の角度を見つけようとしていると仮定しますd2d2d_2。 直観とシミュレーションの両方から、結果の分布は平均arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right)。しかし、結果の角度の分布を計算する方法はありますか?私が答えを見つける場所の参照 (少しのコンテキストでは、機械部品の統計的公差に取り組んでいます。最初の衝動は、プロセス全体を単純にシミュレートし、最終結果が合理的に正常かどうかを確認し、標準偏差を計算することです。きちんとした分析的アプローチがあるかもしれない場合)

4
KLの相違について質問がありますか?
2つの分布をKL発散と比較していますが、この尺度について読んだことによると、ある仮説を別の仮説に変換するために必要な情報量である非標準化数を返します。2つの質問があります。 a)KLの発散を定量化して、効果の大きさやR ^ 2など、より意味のある解釈を行う方法はありますか?標準化の形式はありますか? b)Rでは、KLdiv(flexmixパッケージ)を使用する場合、数値の安定性を提供するために、espより小さいすべてのポイントを何らかの標準に設定する「esp」値(標準esp = 1e-4)を設定できます。私はさまざまなESP値で遊んでいましたが、私のデータセットでは、数字を小さくするほどKLの発散が大きくなります。何が起こっている?espが小さいほど、より多くの「実際の値」が統計の一部になるため、結果の信頼性が高まると予想されます。番号?それ以外の場合は統計を計算せず、単に結果テーブルにNAとして表示されるため、espを変更する必要があります...

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

1
コルモゴロフ–スミルノフ検定対t検定
2つのサンプルKSテストの解釈、および2つのグループ間の通常のtテストとの違いを理解するのに多少の困難があります。 男性と女性に何らかのタスクを実行させ、そのタスクからいくつかのスコアを収集するとします。私の究極の目標は、そのタスクで男性と女性のパフォーマンスが異なるかどうかを判断することです したがって、私ができることの1つは、2つのグループ間でテストを実行することです。もう1つできることは、男性と女性のECDFを計算してプロットし、2サンプルのKSテストを実施することです。私はこのようなものを手に入れます: KSテスト KS検定の帰無仮説は、2セットの連続スコア分布が同じ母集団から得られるというものです KSテストを実行すると、D = 0.18888、p-value = 0.04742が得られます 最初に、結果の解釈が正しいことを確認します。ここでは、帰無仮説を棄却し、男性と女性のスコア分布は異なる母集団に由来すると言います。または、言い換えれば、男性と女性のスコアの分布は互いに異なります。 より具体的には、男性はこのタスクでより低いスコアを達成する可能性が高い傾向があり、それはプロットから解釈すると2つの性別の違いです T検定 テストでは、スコア変数で男性と女性の平均値の差をテストします。 このタスクで男性のパフォーマンスが女性より悪い場合を想像してみましょう。その場合、男性のスコアの分布は低い平均に集中し、女性のスコアの分布は高い平均に集中します。男性は低いスコアを達成する確率が高いため、このシナリオは上記のプロットと一致します。 t検定が有意であると判明した場合、私は女性が平均して男性よりも有意に高いスコアを獲得すると結論付けます。または、人口の観点では、女性のスコアは、男性の人口よりも平均が高い人口から引き出されます。これは、異なる人口から得られたKSの結論と非常によく似ています。 違いは何ですか? したがって、KSとtの両方のテストケースで説明する結論は同じです。男性は女性に比べて成績が低い。それで、あるテストを他のテストよりも使用する利点は何ですか?KSテストを使用して得られる新しい知識はありますか? 私が見ているように、分布が低い平均を中心とする男性と高い平均を中心とする女性が、有意なt検定の原因です。しかし、そのまったく同じ事実により、男性はより低い値をスコアリングする確率が高くなり、プロットが上記のようになり、重要なKSテストが行​​われます。そのため、両方のテストの結果には同じ根本原因がありますが、KSテストでは分布の平均以上のものを考慮し、分布の形状も考慮するが、原因を解析することは可能です。テスト結果からの重要なKSテストの では、テスト時にKSテストを実行することの価値は何ですか?そして、この質問のt検定の仮定を満たすことができると仮定しましょう

1
ロングテールではないヘビーテール分布の例
ヘビーテール分布およびロングテール分布に関する測定値から、すべてのロングテール分布はヘビーテールであるが、すべてのヘビーテール分布がロングテールではないことを理解しました。 誰かが例を挙げてください: ロングテールの連続的で対称的なゼロ平均密度関数 ヘビーテールであるがロングテールではない連続で対称的なゼロ平均密度関数 だから私はそれらの定義の意味をよりよく理解できますか? 両方に単位分散がある場合はさらに良いでしょう。

9
さまざまなプロパティを持つ分布の参照
「この変数 はあり、ほとんどの質量はあり、1に向かって減少していることを知っています。どの分布を使用してモデル化できますか?」 」xxx(0,1)(0,1)(0,1)(0,.20)(0,.20)(0,.20) 実際には、私はそれらを知っているという理由だけで、同じ数個のディストリビューションを何度も何度も使用しています。代わりに、より体系的な方法でそれらを検索したいと思います。確率論者がこれらのディストリビューションのすべてを開発してきた豊富な仕事にアクセスするにはどうすればよいですか? 理想的には、プロパティ(サポートの地域など)ごとに整理された参照が欲しいので、その特性によって分布を見つけ、pdf / cdfの扱いやすさと理論的導出の適合度に基づいて各分布について詳しく知ることができます私が取り組んでいる問題。 そのような参照は存在しますか?存在しない場合、どのようにディストリビューションを選択しますか?

2
ジェンセンシャノンダイバージェンスvsカルバックライブラーダイバージェンス?
KLダイバージェンスは対称的ではなく、厳密にメトリックと見なすことはできません。そうである場合、JS Divergenceがメトリックに必要なプロパティを満たすときに使用されるのはなぜですか? KLダイバージェンスは使用できるが、JSダイバージェンスは使用できない、またはその逆のシナリオはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.