タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

1
ダンのテストの結果の読み方
Dunnの テストの結果を読むにはどうすればよいですか?具体的には、以下の表の値は何を教えてくれますか? 4つのグループにノンパラメトリックデータがあり、最初にクラスカルワリス検定を行って、グループの分布が互いに異なり、集合データセットと異なることを確認しました。次に、ダンのテストを使用して、どのグループが互いに異なっており、どのグループが異なっていたかを確認しました。 library(dunn.test) dunn.test(data, g=area, kw=TRUE) Kruskal-Wallis rank sum test data: x and area Kruskal-Wallis chi-squared = 1730.4401, df = 3, p-value = 0 Comparison of x by area (No adjustment) Row Mean-| Col Mean | A B C ---------+--------------------------------- B | 20.62310 | 0.0000 | C | 26.66519 …

4
独立分布のどの比率が正規分布を与えますか?
2つの独立した正規分布の比率により、コーシー分布が得られます。t分布は、独立したカイ2乗分布で除算された正規分布です。2つの独立したカイ2乗分布の比率により、F分布が得られます。 平均および分散正規分布確率変数を与える独立した連続分布の比率を探していますか?μμ\muσ2σ2\sigma^2 考えられる答えはおそらく無限にあります。これらの可能な答えをいくつか教えてもらえますか?比率が計算される2つの独立した分布が同じであるか、少なくとも類似の分散を持っている場合、特に感謝します。

3
未知の分布のデータを正規化する方法
特定のタイプの繰り返し測定データの最も適切な特性分布を見つけようとしています。 本質的に、私の地質学の分野では、イベント(岩石がしきい値温度以下に冷却された)が発生するまでの時間を調べるために、サンプル(岩石の塊)からの鉱物の放射年代測定をよく使用します。通常、各サンプルからいくつか(3〜10)の測定が行われます。次に、平均と標準偏差σが取得されます。サンプルの冷却年代から拡張することができますので、これは、地質学である10 5への10 9状況に応じて、年。μμ\muσσ\sigma10510510^510910910^9 ただし、測定値がガウス分布ではないことを信じる理由があります。「外れ値」は、任意に宣言されるか、またはパースの基準[Ross、2003]やディクソンのQ検定[Dean and Dixon、1951]などの基準によって宣言されますよくあり(たとえば、30分の1)、これらはほとんど常に古いものであり、これらの測定値が特徴的に右に歪んでいることを示しています。これが鉱物学的不純物に関係していることには、十分に理解されている理由があります。 μμ\muσσ\sigma これを行う最善の方法は何だろうと思っています。これまでのところ、約600個のサンプルを含むデータベースがあり、サンプルごとに2〜10個程度の測定値を複製しています。それぞれを平均値または中央値で割ってサンプルを正規化し、正規化されたデータのヒストグラムを見てみました。これは妥当な結果を生成し、データが一種の対数ラプラシアンであることを示しているようです: ただし、これが適切な方法なのか、それとも気付いていないのに結果が偏っている可能性があるという警告があるのか​​はわかりません。誰かがこの種のことを経験し、ベストプラクティスを知っていますか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
理論、適合、または他の何かに基づいて分布を選択する方が良いでしょうか?
これは哲学的な質問に隣接していますが、私はより多くの経験を持つ他の人が分布選択についてどう考えるか興味があります。場合によっては、理論が最適に機能することは明らかです(マウスの尾の長さはおそらく正規分布しています)。多くの場合、データセットを説明する理論はおそらくないので、最初に説明するために開発されたものに関係なく、あなたがかなり持っているものに合うものを使用しますか?これらのいずれかを使用する場合の落とし穴のいくつかを想像することができます。そして、もちろん、実際にわからない場合は経験的分布を使用する必要があるという問題があるようです。 だから私は本当に私が求めていることを推測します:誰かがこの問題についてアプローチ/思考する一貫した方法を持っていますか?また、これを適切に扱うために提案できるリソースはありますか?



2
経験的分布の代替
賞金: 完全な恵みを推定言及用途または任意の発表された論文への参照を提供誰かに授与されますF~F~\tilde{F}以下を。 動機: このセクションはおそらくあなたにとって重要ではなく、あなたが報奨金を得るのに役立たないと思いますが、誰かが動機について尋ねたので、ここで私が取り組んでいるものがあります。 統計グラフ理論の問題に取り組んでいます。標準の密集グラフ制限オブジェクトW:[0,1]2→[0,1]W:[0,1]2→[0,1]W : [0,1]^2 \to [0,1]の意味での対称関数であるW(u,v)=W(v,u)W(u,v)=W(v,u)W(u,v) = W(v,u)。上のグラフサンプリングnnn頂点がサンプリングと考えることができるnnn(単位区間上に均一な値UiUiU_iためにi=1,…,ni=1,…,ni = 1, \dots, n)、次いで、エッジの確率(i,j)(i,j)(i,j)であるW(Ui,Uj)W(Ui,Uj)W(U_i, U_j)。結果の隣接行列をAと呼びますAAAます。 我々は扱うことができWWW密度としてf=W/∬Wf=W/∬Wf = W / \iint Wと仮定∬W&gt;0∬W&gt;0\iint W > 0。我々は推定した場合fffに基づいてAAAへの制約を受けることなくfff、我々は一貫性の推定値を得ることができません。fが制約付きの可能な関数のセットに由来する場合、一貫して推定することに関する興味深い結果を見つけました。この推定量と∑ Aから、Wを推定できます。ffffff∑A∑A\sum AWWW 残念ながら、私が見つけた方法は、密度分布からサンプリングしたときに一貫性を示していfffます。AAA構築方法では、ポイントのグリッドをサンプリングする必要があります(元のから描画するのとは対照的fffです)。このstats.SEの質問では、実際に分布から直接サンプリングするのではなく、このようなグリッドでサンプルベルヌーイのみをサンプリングできる場合に何が起こるかという1次元(より単純な)問題を求めています。 グラフの制限の参照: L.ロバスツとB.セゲディ。密なグラフシーケンスの制限(arxiv)。 C.ボルグス、J。チェイス、L。ロバスツ、V。ソス、K。ヴェステルゴンビ。密なグラフの収束シーケンスi:サブグラフの頻度、メトリックプロパティ、およびテスト。(arxiv)。 表記: CDFと連続分布検討FFFおよびPDF fff区間に正サポートしている[0,1][0,1][0,1]。仮定fffないpointmassを有していない、FFFどこでも微分可能であり、また、そのsupz∈[0,1]f(z)=c&lt;∞supz∈[0,1]f(z)=c&lt;∞\sup_{z \in [0,1]} f(z) = c < \inftyのsupremumあるfff区間に[0,1][0,1][0,1]。ましょXX∼FX∼FX \sim F確率変数という意味XXXは、分布からサンプリングされFFFます。 UiUiU_iオンIID一様ランダム変数である[0,1][0,1][0,1]。 問題のセットアップ: 多くの場合、X1,…,XnX1,…,XnX_1, \dots, X_nを分布ランダム変数とFFFし、通常の経験分布関数として F N(T …

2
ビニングされたデータの3番目の四分位数を推定する方法は?
人口の4分の1以上を含むオープンインターバルに属する場合、3番目の四分位を決定するための技術的なトリックはありますか(したがって、インターバルを閉じて標準式を使用できません)? 編集 何かを誤解した場合に備えて、多かれ少なかれ完全なコンテキストを提供します。2列、たとえば6行のテーブルにデータを配置しています。各列は、間隔(最初の列)とその間隔に「属する」人口の量に対応します。最後の間隔は開いており、人口の25%以上が含まれます。すべての間隔(最後を除く)の範囲は同じです。 サンプルデータ(プレゼンテーション用に転置): Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞) Column 2: 51, 65, 68, 82, 78, 182 最初の列は、収入レベルの範囲として解釈されます。2番目は、収入が間隔に属する従業員の数として解釈されます。 私が考えている標準的な式は。Q3=xQ3+3N4−∑k−1i=1ninQ3rQ3Q3=xQ3+3N4−∑i=1k−1ninQ3rQ3\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}

2
与えられたデータセットの確率分布を自動的に決定する
データセットが与えられた場合: x &lt;- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) ..パラメータの推定により、最も適切な確率分布(ガンマ、ベータ、正規、指数、ポアソン、カイ2乗など)を決定したいと思います。Rを使用して解決策が提供されている次のリンクの質問をすでに知っています:https : //stackoverflow.com/questions/2661402/given-a-set-of-random-numbers-drawn-from-a-連続一変量分布-f 最適な提案ソリューションは次のとおりです。 &gt; library(MASS) &gt; fitdistr(x, 't')$loglik #$ &gt; fitdistr(x, 'normal')$loglik #$ &gt; fitdistr(x, 'logistic')$loglik #$ &gt; fitdistr(x, 'weibull')$loglik #$ &gt; fitdistr(x, 'gamma')$loglik #$ &gt; fitdistr(x, 'lognormal')$loglik #$ &gt; fitdistr(x, 'exponential')$loglik #$ そして、loglik値が最小の分布が選択されます。ただし、ベータ分布などの他の分布では、fitdistr()関数でいくつかの追加パラメーターを指定する必要があります。 fitdistr(x, 'beta', list(shape1 = some value, shape2= some value)). 事前情報なしで最適な分布を決定しようとしていることを考えると、各分布のパラメーターの値がどのようになる可能性があるのか​​わかりません。この要件を考慮に入れる別のソリューションはありますか?Rにある必要はありません。

1
正規分布の分解
この分布からの2つの独立したサンプルの差が正規分布するような正のみの分布が存在しますか?もしそうなら、それは単純な形をしていますか?

1
データから分布を推定する
で生成されRたデータのサンプルがありますrnorm(50,0,1)ので、データは明らかに正規分布を取ります。ただし、Rデータに関するこの分布情報を「認識」していません。 Rサンプルがどのような分布に由来するかを推定できる方法はありますか?そうでない場合は、shapiro.test関数を使用してその方法で進めます。
12 r  distributions 


3
パラメータ化可能な共分散行列を持つ正のk次元象限上の分布は何ですか?
負のシミュレーションに関する彼の問題に関するzzkの質問に続いて、共分散行列を設定できる正のk次元象限上の分布のパラメータ化されたファミリは何であるかと思います。Rk+R+k\mathbb{R}_+^kΣΣ\Sigma zzkで説明したように、分布から開始し、線形変換しても機能しません。Rk+R+k\mathbb{R}_+^kX⟶Σ1/2(X−μ)+μX⟶Σ1/2(X−μ)+μX \longrightarrow\Sigma^{1/2} (X-\mu) + \mu

3
連続分布からサンプリングされたデータのモードの計算
連続分布からサンプリングされたデータの「モード」を適合させる最良の方法は何ですか? モードは技術的には未定義(右?)であるため、連続分布では「最も一般的な値をどのようにして見つけるのか」と本当に質問しています。 親分布がガウス分布であると仮定した場合、データをビンに分類すると、モードが最大カウントのビン位置であるとわかります。しかし、ビンのサイズはどのように決定しますか?堅牢な実装はありますか?(つまり、外れ値に対して堅牢)。私はpython/ scipy/ を使用しますnumpyが、おそらくRそれほど難なく翻訳できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.