タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ソリトン分布に従って数値を生成するにはどうすればよいですか?
ソリトン分布は、セット上の離散確率分布である確率質量関数と{1,…,N}{1,…,N}\{1,\dots, N\} p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} LTコードの実装の一部として、理想的には均一な乱数ジェネレータが利用可能なPythonで使用したいと思います。

2
IIDランダム法線の最大次数統計量の漸近分布
素敵な極限分布があるとしては、n個に行く\ inftyの彼らがあることを想定し、IID分散を持つ正規分布\シグマ^ 2。max(X1,X2,...,Xn)max(X1,X2,...,Xn)\max( X_1,X_2,...,X_n) ∞nnn∞∞\inftyσ2σ2\sigma^2 これはほぼ間違いなく、巧妙な証明と優れたソリューションを備えたよく知られている問題ですが、私は何も調べていませんでした。

1
ログコーシー乱数生成
密度のあるログコーシー分布から乱数を描く必要があります: 誰かが私を助けたり、私に方法を示すことができる本/紙を私に指摘したりできますか?f(x;μ,σ)=1xπσ[1+(ln(x)−μσ)2].f(x;μ,σ)=1xπσ[1+(ln(x)−μσ)2].f(x;\mu,\sigma)=\frac{1}{x\pi\sigma\left[1+\left(\frac{ln(x)-\mu}{\sigma}\right)^2\right]}.


1
関数の形状を維持しながら関数を確率密度に変換する方法は?
私には一連の関数があり、それぞれがエージェント全体の確率変数の密度を表していると考えられます。各関数には、確率変数のどの値が有効かを説明するドメインもあります。 ここで、統計クラスを正しく覚えている場合、関数のドメインによって記述された値全体の関数の1つの積分を取ると、1.0の値が得られます。ただし、これは発生しません。 関数を真の確率密度に変換しながら、関数の形状を維持できる正規化手法はありますか? すべての関数はaの形式です、Xは確率変数であり、そして、B、Cは定数で変化しています。abx+cabx+c\frac{a}{bx}+cxxxa,b,ca,b,ca,b,c

2
以前に与えられたデータの有効性をテストできますか?
問題 情報に基づいた事前データとデータを指定して事後密度を推定するベイズ分析を実行するR関数を書いています。ユーザーが前のものを再検討する必要がある場合、関数が警告を送信することを望みます。 この質問では、事前評価の評価方法に興味があります。以前の質問では、情報に基づいた事前情報を示すメカニズムを説明しました(こことここ。) 次の場合は、事前の再評価が必要になる場合があります。 データは、以前のことを述べたときに考慮されなかった極端なケースを表しています データのエラー(たとえば、前のデータがkgであるときにデータがgの単位である場合) コード内のバグのため、利用可能な事前設定のセットから間違った事前設定が選択されました 最初のケースでは、データ値がサポートされていない範囲(たとえば、logNまたはGammaの0未満)にない限り、通常、事前分布は依然として十分拡散しているため、データは一般的に圧倒します。その他のケースはバグまたはエラーです。 ご質問 データを使用して事前評価を行うことの妥当性について何か問題はありますか? この問題に最適な特定のテストはありますか? 例 これらは、(赤)または(青)のいずれかの母集団からのものであるため、以前のとの一致が不十分な2つのデータセットです。N (0 、5 )N (8 、0.5 )l o gN(0 、1 )logN(0,1)logN(0,1)N(0 、5 )N(0,5)N(0,5)N(8 、0.5 )N(8,0.5)N(8,0.5) 青色のデータは有効な事前+データの組み合わせである可能性がありますが、赤色のデータは負の値でサポートされる事前分布が必要です。 set.seed(1) x<- seq(0.01,15,by=0.1) plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='') points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red') points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex …

4
コミュニティの構成を比較するためのテストは何ですか?
この初心者の質問がこのサイトの正しい質問であることを願っています: 2つのサイトA、Bの生態系コミュニティの構成を比較したいとします。3つのサイトすべてに犬、猫、牛、鳥がいることを知っているので、各サイトでその存在量をサンプリングします(実際には「各サイトの各動物の予想される存在量)。 たとえば、各サイトで各動物の5匹を数えると、AとBは非常に「類似」しています(実際、それらは「同じ」です)。 しかし、サイトAで100匹の犬、5匹の猫、2頭の牛、および3羽の鳥を見つけた場合、サイトBで5匹の犬、3匹の猫、75頭の牛、および2羽の鳥を見つけます。サイトAとBは「異なる」と言えます。 、彼らは正確に同じ種の組成を持っているにもかかわらず。 (私はSorensenとBray-Curtisのインデックスを読みましたが、それらは犬や猫などの不在/存在のみを考慮し、それらの存在量は考慮していないようです。) これを決定する統計的検定はありますか?

2
データからワイブルパラメータを決定するにはどうすればよいですか?
風速データのヒストグラムがあり、ワイブル分布を使用して表されることがよくあります。ヒストグラムに最適なワイブル形状とスケール係数を計算したいと思います。 目標はプログラムでワイブル形式を決定することなので、(グラフィックソリューションではなく)数値ソリューションが必要です。 編集: サンプルは10分ごとに収集され、風速は10分間の平均です。サンプルには、現在無視されている各インターバル中に記録された最大および最小の風速も含まれていますが、後で取り入れたいと思います。ビンの幅は0.5 m / s

1
尖度によって生成された外れ値の処理
誰かが尖度に関する情報を手伝ってくれるかどうか疑問に思っていました(つまり、データを変換して削減する方法はありますか?) 多数のケースと変数を含むアンケートデータセットがあります。いくつかの変数について、データはかなり高い尖度値(すなわち、レプトクルト分布)を示しています。これは、多くの参加者が変数に対して正確に同じスコアを与えたという事実から派生しています。私は特に大きなサンプルサイズを持っているので、中心極限定理によれば、正規性の違反はまだ問題ないはずです。 ただし、問題は、特に高レベルの尖度が私のデータセットに多くの単変量の外れ値を生成しているという事実です。そのため、データを変換したり、外れ値を削除/調整したりしても、高レベルの尖度は、次に最も極端なスコアが自動的に外れ値になることを意味します。(判別関数分析)を利用することを目指しています。DFAは、違反が外れ値ではなく歪度によって引き起こされている場合、正常からの逸脱に対して堅牢であると言われています。さらに、DFAはデータの外れ値の影響を特に受けているとも言われています(Tabachnick&Fidel)。 これを回避する方法のアイデアはありますか?(私の最初の考えは尖度を制御する何らかの方法でしたが、私のサンプルのほとんどが同様の評価を与えているのであれば、それは一種の良いことではありませんか?)

3
データサンプルからZipf切り捨て分布のパラメーターを推定する方法
Zipfの推定パラメーターに問題があります。私の状況は次のとおりです: サンプルセットがあります(Zipf分布に従う必要がある呼び出しを生成する実験から測定)。このジェネレーターが実際にzipf配布で呼び出しを生成することを示す必要があります。既にこのQ&Aを読みました。一連の最高周波数からZipfの法則係数を計算する方法は?しかし、トランケートされたディストリビューションを使用しているため、悪い結果に達しています。たとえば、生成プロセスの「s」値を「0.9」に設定した場合、報告されたQ&Aに記載されている「s」値を推定しようとすると、0.2 caに等しい「s」が得られます。これは、TRUNCATEDディストリビューションを使用していることが原因だと思います(zipfを切り捨てポイントで制限する必要があります。右側が切り捨てられます)。 切り捨てられたzipf分布でパラメーターを推定するにはどうすればよいですか?

2
分布の等価性のカイ2乗検定:許容されるゼロの数はいくつですか?
21の異なる表現型のうち1つしか持つことができない変異体の2つのグループを比較しています。これらの結果の分布が2つのグループ間で類似しているかどうかを確認します。 「分布の等値のカイ2乗検定」を計算し、いくつかのもっともらしい結果を与えるオンライン検定を見つけました。ただし、この表にはかなりの数のゼロがあるため、この場合はカイ二乗を使用できますか? 次の表は、2つのグループと特定の表現型の数を示しています。 2 1 2 3 1 6 1 4 13 77 7 27 0 1 0 4 0 2 2 7 2 3 1 5 1 9 2 6 0 3 3 0 1 3 0 3 1 0 1 2 0 1

4
QQプロットの定量化
qq-plotは、2つの分布がどの程度類似しているかを視覚化するために使用できます(たとえば、正規分布に対する分布の類似性を視覚化するだけでなく、2つのArtibraryデータ分布を比較することもできます)。それらの類似性を表すより客観的な数値測定値を生成する統計情報はありますか(できれば正規化された(0 <= x <= 1)形式で)。ジニ係数は、たとえばローレンツ曲線を扱うときに経済学で使用されます。QQプロットに何かありますか?

4
グラフで谷を探す方法は?
私は、基本的に整数の長いリスト(数百万の値)であるゲノムカバレッジデータをいくつか調べています。各整数は、ゲノム内のこの位置がカバーされている(または「深い」)ことを示しています。 このデータで「谷」、つまり周囲の環境よりも大幅に「低い」領域を探したいのですが。 私が探している谷のサイズは、50塩基から数千の範囲であることに注意してください。 それらの谷を見つけるためにどのようなパラダイムを使用することをお勧めしますか? 更新 データのいくつかのグラフィカルな例: アップデート2 谷とは何かを定義することは、もちろん私が苦労している問題の1つです。これらは私にとって明白なものです: しかし、さらに複雑な状況がいくつかあります。一般に、私が検討する3つの基準があります。1.グローバル平均に対するウィンドウ内の(平均?最大?)カバレッジ。2.直接の周囲に関するウィンドウの(...)カバレッジ。3.ウィンドウどのように大規模である:私は短いスパンのために非常に低いカバレッジを見れば、それは私が短いスパンのために軽度の低カバレッジを見れば、それはだ、私は長いスパンのために非常に低いカバレッジを見れば、それはまた面白い、面白いですない本当に面白いです、ただし、長いスパンでカバレッジが少し低い場合-それはそうです。つまり、それは、sapnの長さとカバレッジの組み合わせです。それが長いほど、カバレッジを高くし、それでも谷と見なします。 おかげで、 デイブ

3
ディラックのデルタ関数はガウス分布のサブクラスと見なされるべきですか?
ウィキデータでは、オントロジーの確率分布(他のすべてのものと同様)をリンクすることができます。たとえば、t分布は非中心t分布のサブクラスです。たとえば、次を参照してください。 https://angryloki.github.io/wikidata-graph-builder/?property=P279&item=Q209675&iterations=3&limit=3 たとえば、t分布の自由度が無限大になる場合や、正規分布(ガウス分布)の分散がゼロに近づく場合など、さまざまな制限ケースがあります。後者の場合、分布はディラックのデルタ関数に向かいます。 英語版ウィキペディアでは、現在、分散パラメーターはゼロより大きいと述べられているため、厳密な解釈をすれば、ディラックのデルタ関数が正規分布のサブクラスであるとは言えません。しかし、指数分布はディラックのデルタ関数のスーパークラスであると私が言うように、私にはそれはかなり大丈夫に思えます。 ディラックのデルタ関数がガウス分布のサブクラスであることを示すことに問題はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.