タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

5
分布の違いの重要性の評価
2つのデータグループがあります。それぞれが複数の変数の異なる分布を持つ。これら2つのグループの分布が統計的に有意な方法で異なるかどうかを判断しようとしています。データは生の形式であり、それぞれに頻度カウントがある個別のカテゴリを扱いやすいようにビニングされています。 これらの2つのグループが大幅に異なるかどうかを判断するには、どのテスト/手順/方法を使用する必要があり、SASまたはR(またはオレンジ)でそれを行うにはどうすればよいですか?


2
逆変換方法はどのように機能しますか?
反転法はどのように機能しますか?密度 over ランダムサンプルとし、したがって cdfで。次に、反転法により、の分布をとして取得します。 f (x ; θ )= 1X1,X2,...,XnX1,X2,。。。、バツnX_1,X_2,...,X_n 0&lt;X&lt;1FX(X)=X1/θ(0、1)XF - 1 X(U)=Uθf(x;θ)=1θx(1−θ)θf(バツ;θ)=1θバツ(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0&lt;x&lt;10&lt;バツ&lt;10<x<1FX(x)=x1/θFバツ(バツ)=バツ1/θF_X(x)=x^{1/\theta}(0,1)(0、1)(0,1)XバツXF−1X(u)=uθFバツ−1(あなたは)=あなたはθF_X^{-1}(u)=u^\theta それで、はの分布がありますか?これは反転方法の仕組みですか? Xuθあなたはθu^\thetaXバツX u&lt;-runif(n) x&lt;-u^(theta)

4
分布がマルチモーダルかどうかをテストするにはどうすればよいですか?
データのヒストグラムをプロットすると、2つのピークがあります。 それは潜在的なマルチモーダル分布を意味しますか?dip.testR(library(diptest))を実行しましたが、出力は次のとおりです。 D = 0.0275, p-value = 0.7913 私のデータにはマルチモーダル分布があると結論付けることができますか? データ 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 …


4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
2つの正規分布の差の分布
正規分布の2つの確率密度関数があります。 f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } そして f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 私はx1x1x_1と間の分離の確率密度関数を探していx2x2x_2ます。私はそれが確率密度関数を探していることを意味すると思います x 1 − x 2 | |x1−x2||x1−x2||x_1 - x_2|。あれは正しいですか?どうやって見つけるの?

12
負の歪度を持つ分布の実際の例
「一般的な分布の実際の例」に触発されて、負のゆがみを示すために人々がどのような教育例を使用するのだろうか?教育で使用される対称分布または正規分布の「標準的な」例は数多くあります-身長や体重のようなものがより密接な生物学的精査に耐えられない場合でも!血圧は正常に近い可能性があります。私は天文学的な測定誤差が好きです-歴史的に興味深いことですが、それらは直感的にはある方向に他の方向にある可能性は低く、小さな誤差は大きな方向にある可能性が高くなります。 正の歪度の一般的な教育学的例には、人々の収入が含まれます。販売のための中古車の走行距離; 心理学実験における反応時間; 住宅価格; 保険顧客による事故請求の数; 家族の子供の数。それらの物理的妥当性は、しばしば下限値(通常はゼロ)に制限されているために生じます。 ネガティブスキューについては、明確な上限がある現実の分布が少ないため、若い視聴者(高校生)が直感的に把握できる明確で鮮明な例を与えることは困難です。学校で教えられた悪い味の例は「指の数」でした。ほとんどの人は10人ですが、事故で1人以上を失う人もいます。結果は「99%の人が平均以上の指を持っている」ということでした!10は厳密な上限ではないため、多指症は問題を複雑にします。指の紛失と余分な指の両方はまれなイベントであるため、優勢に影響する学生には不明確かもしれません。 通常、高い二項分布を使用します。しかし、学生はしばしば、「バッチ内の不良コンポーネントの数が正に歪んでいる」という補完的な事実よりも「バッチ内の満足できるコンポーネントの数が負に歪んでいる」と感じる。(教科書は産業をテーマにしています。12個入りの箱に入った割れた卵と無傷の卵を好みます。)生徒は「成功」はめったにないと思うかもしれません。ppp 別のオプションは、が正に歪んでいる場合、が負に歪んでいることを指摘することですが、これを実用的なコンテキスト(「負の住宅価格が負に歪んでいる」)に置くことは、教育的失敗の運命にあるように思われることです。データ変換の効果を教えることには利点がありますが、最初に具体的な例を挙げるのが賢明なようです。ネガティブスキューが非常に明確であり、学生の生活経験が分布の形状を認識できるようにする、人工的ではないものを好むでしょう。− XバツバツX− X−バツ-X

2
自然のどこかに法線曲線の形を見ることができますか?
自然界のいくつかの現象が正規分布を持っているかどうかは知りたくありませんが、例えば、Galtonボックスで見られるように、どこかで正規曲線の形状を見ることができるかどうかは知りたくありません。ウィキペディアのこの図を参照してください。 自然では、多くの数学的な形状や曲線が直接見られることに注意してください。たとえば、カタツムリには黄金平均や対数らせんがあります。 最初の素朴な答えは、スキューのない丘がしばしば正規分布に「適合する」かどうかです:-)。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
均一分布から指数分布へ、およびその逆
これはおそらく些細な質問ですが、このウィキペディアの記事や「配布の大要」ドキュメントを含め、これまでのところ私の検索は無益です。 が均一な分布を持つ場合、は指数分布に従うということですか?e XXXXeXeXe^X 同様に、が指数分布に従う場合、は一様分布に従うことを意味しますか?l n (Y )YYYln(Y)ln(Y)ln(Y)



7
ボックスプロットのいくつかの代替手段は何ですか?
ユーザーが選択したポリゴンの人口調査データを表示し、さまざまなパラメーターの分布をグラフィカルに表示したい(パラメーターごとに1つのグラフ)Webサイトの作成に取り組んでいます。 通常、データには次のプロパティがあります。 サンプルサイズは大きくなる傾向があります(約10,000個のデータポイントなど) 値の範囲は大きくなる傾向があります(たとえば、最小人口は100未満、最大人口は500,000のようになります) 通常、q1は最小値(200など)に近く、q2とq3は10,000以内です。 正規分布のようには見えません 私は統計学者ではないので、私の説明は正確には明確ではないかもしれません。 この分布をグラフで表示したいと思います。グラフは、市民(必要に応じて、素人)に表示されます。 ヒストグラムを使用することをお勧めしますが、値の範囲が広いため不可能です。そのため、ビンを作成するのは本当に簡単ではありません。 統計についてほとんど知らないことから、箱ひげ図はこの種のデータを表示するためによく使用されますが、素人にとっては箱ひげ図の解読は容易ではないと感じています。 このデータをわかりやすく表示するためのオプションは何ですか?

5
経験的CDFとCDF
経験累積分布関数について学んでいます。しかし、私はまだ理解していません なぜ「経験的」と呼ばれるのですか? Empirical CDFとCDFに違いはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.