タグ付けされた質問 「proportion」

比率は、特定の種類の合計の割合です。(i)合計数のうちの1つのタイプの事物の数として、または(ii)連続変数の構成要素として。


1
なぜサンプル比率も二項分布を持たないのですか?
二項設定では、成功数を与える確率変数Xが二項分布されます。次に、サンプル比率をXとして計算できます。ここで、nはサンプルサイズです。私の教科書はそれを述べていますバツんバツん\frac{X}{n}んんn この比率には二項分布はありません ただし、X以降は単に二項分布の確率変数Xのスケーリングされたバージョンですが、二項分布も持つべきではありませんか?バツんバツん\frac{X}{n}バツバツX

1
比率と二項分布によるサンプルサイズの決定
私は、SokalとRohlfによるBiometry(3e)という本を使用して、いくつかの統計を学ぼうとしています。これは、確率、二項分布、およびポアソン分布をカバーする第5章の演習です。 この質問への答えを生成する式があることを理解しています: ただし、この式はこのテキストにはありません。確率、望ましい信頼レベル、および二項分布のみを知ってサンプルサイズを計算する方法を知りたいのですが。私が指摘できるこのトピックをカバーするリソースはありますか?私はGoogleを試しましたが、これまでに見たものには、この問題でアクセスできない情報が必要です。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
比率とバイナリ分類器のテスト
部品を作る機械のプロトタイプを持っています。 最初のテストで、マシンはパーツを生成し、バイナリ分類子は、パーツに欠陥があり(、通常および)、パーツが良好であることをてくれます。d 1 d 1 &lt; N 1 d 1 /N1N1N_1d1d1d_1d1&lt; N1d1&lt;N1d_1 < N_1N 1 ≈ 10 4 N 1 - D 1d1/ N1&lt; 0.01d1/N1&lt;0.01d_1/N_1<0.01N1≈ 104N1≈104N_1\approx10^4N1− d1N1−d1N_1-d_1 次に、技術者は、欠陥のある部品の数を減らすために、機械に変更を加えます。 2回目以降のテストでは、変更されたマシンがパーツを生成し、同じバイナリ分類子(そのまま)により、パーツに欠陥があることがます。とにかく、はと非常に似ています。d 2 d 2 / N 2 dN2N2N_2d2d2d_2d2/N2d2/N2d_2/N_2d1/N1d1/N1d_1/N_1 技術者は、彼の変更が有効かどうかを知りたいと考えています。 分類子が完全である(その感度が100%で、その特異度が100%である)と仮定すると、比率のテストを実行できます(Rを使用して、と入力するだけですprop.test(c(d1,d2),c(N1,N2)))。 しかし、分類子は完全ではないので、技術者に適切に回答するために、分類子の感度と特異度(どちらも不明)をどのように考慮することができますか?


3
特定のnに対して、比率の標準誤差が0.5で最大になるのはなぜですか?
比率の標準誤差は、問題の比率が0.5の場合に、指定されたNに対して最大になる可能性があり、比率が0.5から離れるほど小さくなります。比率の標準誤差の方程式を見ると、なぜそうなのかわかりますが、これについてはこれ以上説明できません。 式の数学的特性を超えた説明はありますか?もしそうなら、なぜそれらが0または1に近づくにつれ、(与えられたNの)推定比率の周りの不確実性が少なくなるのですか?

1
二項GLMM(glmer)を比率または分数である応答変数に近似する
誰かが私が比較的単純な質問だと思うことを手伝ってくれるといいのですが、私は答えを知っていると思いますが、確認なしでは、それは私が確信できないものになっています。 いくつかのカウントデータを応答変数として持っていますが、何かが比例して存在するときにその変数がどのように変化するかを測定したいと思います。 より詳細には、応答変数は多数のサイトでの昆虫種の存在の数です。たとえば、サイトは10回サンプリングされ、この種は4回発生する可能性があります。 これが、これらのサイトの植物の全体的なコミュニティーにおける植物種のグループの比例的な存在と相関関係があるかどうかを確認したいと思います。 これは私のデータが次のように見えることを意味します(これは単なる例です) Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence 1, 5, 10, 0.5 2, 3, 10, 0.3 3, 7, 9, 0.6 4, 0, 9, 0.1 データには、場所のランダムな影響も含まれます。 私は2つの方法を考えました、1つはlmer昆虫を比率に変換した線形モデル()でしょう lmer.model&lt;-lmer(insectCount/NumberOfInsectSamples~ ProportionalPlantGroupPresence+(1|Location),data=Data) 2番目は二項GLMM(glmer)です。 glmer.model &lt;- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~ ProportionalPlantGroupPresence+(1|Location), data=Data,family="binomial") 私は二項グラマーが正しい方法であると信じていますが、それらはかなり異なる結果を生み出します。私はまだ少し不安を感じずにネット上で決定的な答えを見つけることができないようで、間違いを犯さないようにしたいと思います。 これに関する別の方法への助けや洞察は大歓迎です。

1
反復測定における比率のサンプルサイズ
私は科学者がサルモネラ菌の発生に関する研究を設計するのを手助けしようとしています。彼は、養鶏場での実験的な抗菌製剤と塩素(漂白剤)を比較したいと考えています。サルモネラのバックグラウンド率は時間の経過とともに異なるため、治療前と治療後にサルモネラを含む家禽の割合を測定する予定です。したがって、測定値は、実験式と塩素式のサルモネラの前後の差になります。 誰でも必要なサンプルサイズを推定する方法についてアドバイスできますか?バックグラウンド率が50%であるとしましょう。漂白後は20%です。そして、実験的な処方が速度を+/- 10%変更するかどうかを検出したいとします。ありがとうございました 編集:私が苦労しているのは、バックグラウンドレートを組み込む方法です。それらをそれぞれ漂白剤と実験サンプルの「前」のサルモネラ菌率であるp3とp4と呼びましょう。したがって、推定される統計は差の差です:実験的(事後)-ブリーチ(事後)=(p0-p2)-(p3-p1)。サンプルサイズの計算で「前」のレートp2とp3のサンプリング変動を完全に説明するには、p0(1-p0)+ p1(1-p1)+ p2(1-p2)を使用するのと同じくらい簡単です。 + p3(1-p3)サンプルサイズの式に変動項がある場合はどこですか?すべてのサンプルサイズを等しくします(n1 = n2 = n)。

1
AB検定と帰無仮説の検定
違いを理解しようとしています 帰無仮説のテスト(つまり、Rのprop.testと同様に、「目標」の確率が2つの異なる母集団で同じであることのテスト) ここで説明されているようなベイジアン式を使用したA / Bテスト:http : //www.evanmiller.org/bayesian-ab-testing.html 違いはありますか?どちらが望ましいですか? 私が直面している問題は次のようなものです: コントロールグループには100,000インプレッション、100リアクションテストグループには50,000インプレッションと55リアクション

1
R-A / Bテストでのpower.prop.test、prop.test、および等しくないサンプルサイズ
成功の2つの比率の差が統計的に有意であるかどうかを判断しようとしている実験に必要なサンプルサイズを知りたいとしましょう。これが私の現在のプロセスです: 履歴データを見て、ベースライン予測を確立します。過去に、行動を起こすと10%の成功率になり、行動しないと9%の成功率になると言います。これらの結論は統計的に検証されていませんが、比較的大量のデータ(10,000以上の観測)に基づいていると仮定します。 これらの仮定をpower.prop.testにプラグインして、以下を取得します。 power.prop.test(p1=.1,p2=.11,power=.9) Two-sample comparison of proportions power calculation n = 19746.62 p1 = 0.1 p2 = 0.11 sig.level = 0.05 power = 0.9 alternative = two.sided したがって、これは、比率間の有意差を検出するために、A / Bテストの各グループで最大20000のサンプルサイズが必要になることを示しています。 次のステップは、各グループで20,000の観測値を使用して実験を実行することです。グループB(アクションなし)は20,000回の観測のうち2300回の成功を収めていますが、グループA(アクションを実行)は20,000回の観測のうち2200回の成功を収めています。 prop.testを実行する prop.test(c(2300,2100),c(20000,20000)) 2-sample test for equality of proportions with continuity correction data: c(2300, 2100) out of c(20000, 20000) …

2
比率である従属変数をロジスティック回帰に適合させることは技術的に「有効」ですか?
いくつかの投稿(hereとhere)は、従属変数が自然に0と1の間にある場合にベータ回帰がより適切であることを示唆しています。Rは警告をスローしますが、結果を生成します。 応答変数がバイナリではなく比例している場合、尤度関数は有効な尤度ではないように見えますが、数学的には、最小化して解を得ることができます。ロジスティック回帰を比例データに当てはめるときに、違反/間違いがある場合はどうなるのでしょうか。

2
2つの比率を比較するためのプールされていないz検定の使用を正当化するリファレンスはありますか?
2つの比率を比較するz検定は、。通常それは定義されますz=p^1−p^2Var(p^1−p^2)√z=p^1−p^2Var(p^1−p^2)\newcommand{\p}{\hat{p}}\newcommand{\v}{\mathrm{Var}} z=\frac{\p_1-\p_2}{\sqrt{\v(\p_1-\p_2)}} Var(p^1−p^2)=p^(1−p^)(1/n1+1/n2),Var(p^1−p^2)=p^(1−p^)(1/n1+1/n2),\v(\p_1-\p_2)=\p(1-\hat{p})(1/n_1+1/n_2), どこ p^=n1p^1+n2p^2n1+n2.p^=n1p^1+n2p^2n1+n2.\p=\frac{n_1 \p_1+n_2 \p_2}{n_1+n_2}. 代わりにプールされていない差異を使用するために私を正当化する書面による参照はありますか? Var(p^1−p^2)=p^1(1−p^1)n1+p^2(1−p^2)n2?Var(p^1−p^2)=p^1(1−p^1)n1+p^2(1−p^2)n2?\v(\p_1-\p_2)=\frac{\p_1(1-\p_1)}{n_1}+\frac{\p_2(1-\p_2)}{n_2}?

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?

1
ロジスティック回帰の適合値と確率
従属変数 [0,1]の範囲の依存値があります。意味0と1、およびその間のすべての値が含まれます。したがって、これはたとえば農家が受精させる土地の割合などの比例値です。 型番 私が現在注力しているモデルは、ロジスティックモデルです。 ただし、出力として、モデルによって従属変数がどのように予測されるかを確認したいと思います(実際の値と推定値を比較するため)。 ただし、ロジスティック回帰は通常、出力として「確率」を示します。その結果、私は今少し混乱しています。 私のモデル= out &lt;- glm(cbind(fertilized, total_land-fertilized) ~ X-variables, family=binomial(cloglog), data=Alldata) 私が使用する受精地の推定割合を予測するには Alldata$estimated_fertilized&lt;-predict(out,data=newdata,type="response")) これは正しいです?または、この線は予測されたパーセンテージの代わりに確率を与えますか?正しくない場合、必要なものを取得するにはどうすればよいですか? 更新 選択したモデルの正確性について質問があるという事実を踏まえて、いくつかの追加情報を提供します。 従属変数の分布(これは0-1、0、1を含む比率です)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.