タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

3
割った法線
せとW 〜χ 2(秒)。Z〜N(0 、1 )Z∼N(0,1)Z \sim N(0,1)W〜χ2(秒)W∼χ2(s)W \sim \chi^2(s) 場合及びWは、独立して、その後分散されている変数Y = ZZZZWWWは、自由度sのt分布に従います。Y= ZW/秒√Y=ZW/sY = \frac{Z}{\sqrt{W/s}}tttsss 私はこの事実の証拠を探しています。完全な引数を書き留めたくない場合は、参照で十分です。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 


3
ヒストグラムの間隔の数に上限はありますか?
データセットのヒストグラムに適切な数の間隔(ビン)を選択する方法を説明するいくつかの記事と本の抜粋を読んだことがありますが、ポイントの数に基づいて間隔のハード最大数があるかどうか疑問に思っていますデータセット、またはその他の基準。 背景:私が求めているのは、研究論文の手順に基づいてソフトウェアを作成しようとしているためです。手順の1つのステップは、データセットからいくつかのヒストグラムを作成し、特性関数(論文の作成者が定義)に基づいて最適な解像度を選択することです。私の問題は、著者がテストする間隔の数の上限に言及していないことです。(私は何百ものデータセットを分析する必要があり、それぞれに異なる「最適な」数のビンを含めることができます。また、最適な数のビンを選択することが重要なので、手動で結果を見て、適切なものを選択することはできません作業。) 間隔の最大数をデータセットのポイント数に設定するだけでよいでしょうか、それとも統計で一般的に使用される他の基準がありますか?

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
ロジスティック成長データの周りのエラーの分布はどうですか?
生態学では、ロジスティック成長方程式をよく使用します。 Nt=KN0ertK+N0ert−1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} または Nt=KN0N0+(K−N0)e−rtNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} ここで、は運搬能力(到達した最大密度)、は初期密度、は成長率、は初期からの時間です。KKKN0N0N_0rrrttt の値には、ソフトな上限と下限、強い下限があり。NtNtN_t(K)(K)(K)(N0)(N0)(N_0)000 さらに、私の特定のコンテキストでは、測定は、光学密度または蛍光を使用して行われます。どちらも理論上の最大値、つまり強い上限があります。NtNtN_t したがって、周りのエラーは、おそらく有界分布によって最もよく説明されます。NtNtN_t 値が小さい場合、分布にはおそらく強い正のスキューがあり、値がKに近づくと、分布にはおそらく強い負のスキューがあります。したがって、分布にはおそらくにリンクできる形状パラメーターがあります。NtNtN_tNtNtN_tNtNtN_t 分散もとともに増加する可能性があります。NtNtN_t これはグラフィカルな例です と K<-0.8 r<-1 N0<-0.01 t<-1:10 max<-1 これはrで生成できます library(devtools) source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R") 周りの理論的な誤差分布はどうなりますか(モデルと提供された経験的情報の両方を考慮して)?NtNtN_t この分布のパラメーターはまたは時間の値にどのように関連していますか(パラメーターを使用していた場合、モードを直接関連付けることができません(例:logis normal))。NtNtN_tNtNtN_t この分布には、実装されている密度関数がありますか?RRR これまでに探索された方向: 周りの正規性を仮定します(推定の超過につながります)NtNtN_tKKK 付近のロジット正規分布、ただし形状パラメーターのアルファとベータのフィッティングは困難Nt/maxNt/maxN_t/max ロジック周辺の正規分布Nt/maxNt/maxN_t/max
10 r  distributions  pdf  ecology 

1
シーケンスの減少を証明する(多数の点をプロットすることでサポートされます)
先月私がSEに投稿した質問の多くは、この特定の問題を解決する手助けをすることを目的としています。質問はすべて答えられましたが、それでも解決策は思いつきません。それで、私が直接解決しようとしている問題を尋ねるだけでよいと考えました。 LET、、、(整数)、毎オーバー累積分布関数である 。Xn∼FnXn∼FnX_n \sim F_nFn=(1−(1−Fn−1)c)cFn=(1−(1−Fn−1)c)cF_n = (1-(1-F_{n-1})^c)^cF0=xF0=xF_0 = xc≥2c≥2c\geq 2FnFnF_n(0,1)(0,1)(0,1) がすべての(または特定の)でもとともに減少することを証明したい!私が見ることができ、そのに固有の溶液でディラック質量に収束 の場合、。同じに対してを増加させるための累積分布関数のプロットを見ると、すべての累積分布関数が交差しています。値の値について減少する未満の値に対する増加より大きいEXnEXn\mathbb{E}X_nnnnccccccFnFnF_nxc=(1−(1−x)c)c)xc=(1−(1−x)c)c)x_c = (1-(1-x)^c)^c)c=2c=2c=2x2=(3−5–√)/2≈.38x2=(3−5)/2≈.38x_2 = (3-\sqrt{5})/2 \approx .38nnncccxnxnx_nF(x)F(x)F(x)xxxxnxnx_nxxxxnxnx_n(が増加するにつれて)垂直線に収束します。nnnxnxnx_n 下のプロットであるためのののためのに。もちろん離散プロットですが、見やすくするために線をつないでいます。このプロットを生成するために、MathematicaでNIntegrateを使用しましたが、何らかの理由でMathematicaが元の関数高い値で応答を生成できなかったため、で実行する必要がありました。ヤングの定理に従って、2つは同等である必要があります。私の場合、、。EXnEXn\mathbb{E}X_nn=1n=1n = 1404040c=2c=2c = 27771−F−1n1−Fn−11-F^{-1}_nnnn∫10F(x)dx=∫101−F−1(x)dx∫01F(x)dx=∫011−F−1(x)dx\int_0^1F(x)\,dx = \int_0^1 1-F^{-1}(x)\,dxF−1n(x)=1−(1−(F−1n−1)1c)1cFn−1(x)=1−(1−(Fn−1−1)1c)1cF^{-1}_n(x) = 1-(1-(F^{-1}_{n-1})^{\frac{1}{c}})^{\frac{1}{c}}F−1n=xFn−1=xF^{-1}_n = x ご覧のとおり、は、固定点から微小距離まで非常に移動します。以下のように増加、固定小数点減少は(最終的に0になります)。EXnEXnEX_nxcxcx_cccc したがって、すべてのについて、がとともに減少することは確かに事実です。しかし、それを証明することはできません。誰かが私を助けてくれますか?(繰り返しになりますが、が1つでも満足します)できない場合でも、この特定の問題が解決できない理由について洞察があれば、その洞察も共有してください。 EXnEXnEX_nnnncccccc

2
カイ二乗検定を使用して、データがポアソン分布に従うかどうかを判断する方法
次の図(このペーパーの 646ページの図1 )は、ポアソン分布の下で観測値と期待値を比較しています。次に、カイ二乗検定を実行して、観測値がポアソン分布での期待値と異なるかどうかを確認します。 Rを使用して、ポアソン分布の下で期待値を生成し、カイ2乗検定を使用して観測値を比較するにはどうすればよいですか? 編集: これが彼らが紙でしたことをやろうとする私の試みです。の観測された分布がvariableポアソン分布と異なるかどうか知りたい。また、私が以下で行ったことは、彼らが紙で行ったのと同じ手順であるかどうかも知りたいです。P値が> 0.05であるため、variable以下の分布はポアソン分布に従うと結論しました-誰かがこれを確認できますか? df <- data.frame(variable = 0:5, frequency = c(20, 10, 5, 3, 2, 1)) # estimate lambda mean_df_variable <- mean(df$variable) # calculate expected values if df$frequency follows a poisson distribution library(plyr) expected <- laply(0:5, function(x) dpois(x=x, lambda=mean_df_variable, log = FALSE)) # calculate actual distribution …

1
データがパレート分布に適合しているかどうかを知る方法は?
220の数値を持つベクトルのサンプルがあります。これが私のデータのヒストグラムへのリンクです。。そして、私のデータがパレート分布に適合するかどうかを確認したいのですが、その分布でQQプロットを表示したくありませんが、正規性のアンダーソンダーリング検定(ad.test)など、Rのp値で正確な答えが必要です。どうすればできますか?できるだけ具体的にご記入ください。


2
2つの信号が一緒に正規分布しているかどうかを確認するにはどうすればよいですか?
このウィキペディアのページで説明されているように、2つの確率変数XとYが無相関で、一緒に正規分布している場合、それらは統計的に独立しています。 XとYが相関しているかどうかを確認する方法を知っていますが、それらが一緒に正規分布しているかどうかを確認する方法がわかりません。私は統計をほとんど知りません(数週間前に正規分布が何であるかを学びました)ので、いくつかの説明的な答え(そしておそらくチュートリアルへのリンク)が本当に役立つでしょう。 だから私の質問はこれです:2つの信号を有限回数N回サンプリングした場合、2つの信号サンプルが一緒に正規分布しているかどうかを確認するにはどうすればよいですか? 例:次の画像は、2つの信号s1とs2の推定された同時分布を示しています。 x=0.2:0.2:34; s1 = x*sawtooth(x); %Sawtooth s2 = randn(size(x,2)); %Gaussian ジョイントpdfは、この2Dカーネル密度推定器を使用して推定されました。 画像から、接合部pdfがほぼ原点を中心とする丘のような形状であることがわかります。これは、それらが実際に共同で正規分布していることを示していると思います。ただし、数学的に確認する方法を教えてください。使用できる数式はありますか? ありがとうございました。

5
境界領域上の正規のような分布
ガウス(正規)分布に似ているが、定義されたセグメントでのみ確率密度が非ゼロになるような分布はありますか。 サークル内の「弾丸の広がり」をモデル化しようとしたときに問題が浮上しました。ガウス分布は正常に機能しますが、弾丸が円の外側に当たる可能性は常にあります。ガウス分布に非常に似ている分布を見つけたいのですが、定義されたセグメント(または円)の外側の確率がゼロであるという特性があります。 編集:はい、実際には円ではなくディスクを意味します。編集:そしてはい、私は(ディスクの半径に沿った)1次元の分布のみが必要です。これは円対称になります(角度に依存しません)。

5
連続一様分布の確率の合計が無限ではないのはなぜですか?
一様分布(連続)の確率密度関数を上に示します。曲線の下の領域は1です。これは、確率分布のすべての確率の合計が1であるため意味があります。 正式には、上記の確率関数(f(x))は次のように定義できます。 1 /(ba)in x in [a、b] それ以外の場合は0 a(たとえば2)とb(たとえば6)の間の実数を選択する必要があることを考慮してください。これにより、均一確率= 0.25になります。ただし、その間隔には無数の数があるため、すべての確率の合計を無限大にしてはいけませんか?私は何を見落としているのですか? f(x)は、数xが発生する確率ではありませんか?

3
ガンマ分布からの統計の独立性
ましょは、ガンマ分布G a m m a (α 、β )からのランダムサンプルです。バツ1、。。。、XんX1,...,XnX_1,...,X_nG a m m a(α 、β)Gamma(α,β)\mathrm{Gamma}\left(\alpha,\beta\right) ましょうとS 2は、それぞれ、サンプル平均と標本分散すること。バツ¯X¯\bar{X}S2S2S^2 そして、ということを証明または反証とS 2 / ˉ X 2は独立しています。バツ¯X¯\bar{X}S2/ X¯2S2/X¯2S^2/\bar{X}^2 私の試み:以来、我々はの独立性を確認する必要がありˉXおよび(XIをS2/ X¯2= 1n − 1Σんi = 1(X私バツ¯− 1 )2S2/X¯2=1n−1∑i=1n(XiX¯−1)2S^2/\bar{X}^2 = \frac{1}{n-1} \sum_{i=1}^n \left(\frac{X_i}{\bar{X}}-1\right)^2 バツ¯X¯\bar{X}が、どのように私はそれらの間の独立性を確立する必要がありますか?(X私バツ¯)んi = 1(XiX¯)i=1n\left(\frac{X_i}{\bar{X}} \right)_{i=1}^{n}

1
与えられたモーメントで確率変数を生成します
私は最初に知っています NNNいくつかの分布の瞬間。また、私の分布は連続的で単峰性であり、整形されています(ガンマ分布のように見えます)。次のことが可能ですか? いくつかのアルゴリズムを使用して、この分布からサンプルを生成します。限界条件では、まったく同じ瞬間になりますか? この問題を分析的に解決しますか? 無限の瞬間が出るまで、この質問には独自の解決策がないことを理解しています。あればよろしくお願いします。 コメントの明確化の ため、元のディストリビューションを復元する必要はありません。与えられた瞬間に何かが必要です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.