タグ付けされた質問 「proportion」

比率は、特定の種類の合計の割合です。(i)合計数のうちの1つのタイプの事物の数として、または(ii)連続変数の構成要素として。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
カイ二乗検定と等比率検定の関係は何ですか?
相互に排他的な4つの特性を持つ3つの母集団があるとします。各母集団からランダムサンプルを取得し、測定する特性のクロス集計表または頻度表を作成します。私はそれを言って正しいですか: 母集団と特性の間に関係があるかどうかをテストしたい場合(たとえば、ある母集団が特性のいずれかの頻度が高いかどうか)、カイ2乗検定を実行して、結果が有意であるかどうかを確認します。 カイ2乗検定が重要な場合、母集団と特性の間に何らかの関係があることのみが示されますが、それらの関係は示されません。 さらに、すべての特性を母集団に関連付ける必要はありません。たとえば、異なる母集団の特性AとBの分布が有意に異なるが、CとDの分布が異なる場合、カイ2乗検定は再び有意である可能性があります。 特定の特性が母集団の影響を受けているかどうかを測定したい場合は、その特性だけで等しい比率のテストを実行できます(これはz検定と呼ばれprop.test()ていますR)。 言い換えるとprop.test()、カイ二乗検定で有意な関係があると言われたときに、2つのカテゴリセット間の関係の性質をより正確に判断するためにを使用するのが適切でしょうか?

4
Rの正確な2つのサンプル比率の二項検定(およびいくつかの奇妙なp値)
私は次の質問を解決しようとしています: プレーヤーAは25ゲーム中17勝、プレーヤーBは20ゲーム中8勝-両方の比率に大きな違いはありますか? Rで頭に浮かぶことは次のとおりです。 > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 したがって、このテストでは、95%の信頼レベルでは差は有意ではないと述べています。 prop.test()近似のみを使用していることがわかっているので、正確な二項検定を使用してより正確にしたい-と私は両方の方法でそれを行う: > …

6
平均値のパラドックス-これは何と呼ばれていますか?
データセットがあります。言うの観測と変数を:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 それは各カテゴリで顧客が購入()した(していない)と言う。そこにはあるので、これら顧客は平均で製品カテゴリに購入します。10101010A, B, C1616161010101.61.61.6 顧客は、A、B、Cのいずれかを購入できます。 私は購入者のみを見ればA、そこにあるに購入している顧客それはですので、製品カテゴリは、平均で。5559991.81.81.8 …

3
A / Bテストのサンプルサイズを安全に決定する
私は、A / Bテストツールの構築を検討しているソフトウェアエンジニアです。統計のバックグラウンドはしっかりしていませんが、ここ数日間はかなりの読書をしています。 ここで説明する方法論に従い、関連するポイントを以下にまとめます。 このツールにより、デザイナーとドメインエキスパートは、特定のURLで受信したトラフィックを2つ以上のURLに分割するようにWebサイトを構成できます。たとえば、http://example.com/hello1に到着するトラフィックは、http://example.com/hello1とhttp://example.com/hello2に分割できます。トラフィックはターゲットURL間で均等に分割され、各ターゲットURLでのマーケティングプロセスのパフォーマンスが比較されます。 この実験では、サンプルサイズNは訪問者に対応します。このテストでは、訪問者がマーケティングプロセスで特定のアクションをいつ実行するかを表す用語である「コンバージョン」を測定します。コンバージョンはパーセンテージで表され、より高いコンバージョン率が望まれます。これにより、テストは独立した比率の比較になります。このツールは、安全な結果のテストを作成するために簡単に使用できる必要があります。の適切な値を選択することNが重要です。 上記のリンクされた記事では、2つの独立した比率の検出力分析を使用してを見つけていますN。この方法では、コントロールの変換率を事前に把握し、目標とする変換改善を指定する必要があります。また、有意水準95%および統計的検出力80%を指定します。 質問: N音を決定するこの方法はありますか?その場合、テストを開始する前にコントロールの変換率を決定する最も安全な方法は何ですか? Nコントロールの変換率を事前に知る必要のない適切な判断方法はありますか? リンクされた記事の方法論は適切ですか?そうでない場合、私にリンクできるアクセス可能な簡単に消化できる方法はありますか?

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
どのレベルでテストは検定のプロポーションと数学的に同じですか?
背景:安全にスキップ-それは参照のため、そして質問を正当化するためにここにあります。 この論文の冒頭には次のように書かれています。 「カールピアソンの有名なカイ2乗偶発性検定は、正規分布に基づくz統計と呼ばれる別の統計から導出されます。の最も単純なバージョンは、同等のz検定と数学的に同一であることがわかります。すべての意図と目的において、「chi-squared」は「z-squared」と呼ばれます。1自由度の臨界値は、zの対応する臨界値の2乗です。χ2χ2\chi^2χ2χ2\chi^2 これはCVで複数回アサートされています(here、here、here、その他)。 そして確かに、はと同等であることを証明できます。χ21dfχ1df2\chi^2_{1\,df}X2X2X^2X∼N(0,1)X∼N(0,1)X\sim N(0,1) レッツ言うとそのとの密度見つけ使用して方法を:X∼N(0,1)X∼N(0,1)X \sim N(0,1)Y=X2Y=X2Y=X^2YYYcdfcdfcdf p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y})。問題は、正規分布の密度を密接な形で統合できないことです。しかし、私たちはそれを表現することができます: FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}).デリバティブを取る: fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. 通常のpdfの値pdfpdfpdfは対称であるため: fX(y)=F′X(y√)1y√fX(y)=FX′(y)1y f_X(y)= F_X'(\sqrt{y})\,\frac{1}{\sqrt{y}}。これを等しくするpdfpdfpdf(現在は通常のxxxでpdfpdfpdfあろうy√y\sqrt{y}に差し込まれるべきe−x22e−x22e^{-\frac{x^2}{2}}正常の一部pdfpdfpdf)。そして中に思い出すことが挙げられる1y√1y\frac{1}{\sqrt{y}}終わりには: fX(y)=F′X(y√)1y√=12π−−√e−y21y√=12π−−√e−y2y12−1fX(y)=FX′(y)1y=12πe−y21y=12πe−y2y12−1 f_X(y)= F_X'(\sqrt[]{y})\,\frac{1}{\sqrt[]{y}}= \frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, \frac{1}{\sqrt[]{y}}=\frac{1}{\sqrt{2\pi}}\,e^{-\frac{y}{2}}\, y^{\frac{1}{2}- 1} カイ二乗のpdfと比較してください: fX(x)=12ν/2Γ(ν2)e−x2xν2−1fX(x)=12ν/2Γ(ν2)e−x2xν2−1 f_X(x)= \frac{1}{2^{\nu/2}\Gamma(\frac{\nu}{2})}e^{\frac{-x}{2}}x^{\frac{\nu}{2}-1} ので、のために DF、我々は正確に導出したカイ二乗を。 1つのpdはFΓ(1/2)=π−−√Γ(1/2)=π\Gamma(1/2)=\sqrt{\pi}111pdfpdfpdf さらに、prop.test()Rで関数を呼び出すと、を決定する場合と同じテストを呼び出します。χ2χ2\chi^2chisq.test() 質問: …

5
カイ二乗を使用して比率を比較できますか?
カイ二乗検定は、サンプルが期待値のセットと大きく異なるかどうかを確認するのに役立ちます。 たとえば、ここに人々のお気に入りの色に関する調査の結果の表があります(n = 15 + 13 + 10 + 17 = 55回答者): red,blue,green,yellow 15,13,10,17 カイ二乗検定は、このサンプルが、各色を好む人々の等しい確率の帰無仮説と有意に異なるかどうかを教えてくれます。 質問:特定の色を好む回答者の合計の割合でテストを実行できますか?以下のように: red,blue,green,yellow 0.273,0.236,0.182,0.309 もちろん、0.273 + 0.236 + 0.182 + 0.309 = 1です。 この場合、カイ二乗検定が適切でない場合、どのような検定になりますか?ありがとう! 編集:私は以下の@RomanLuštrikの答えを試して、次の出力を得ました、なぜp値が得られないのですか?なぜRは「カイ二乗近似が間違っている可能性がある」と言うのですか? > chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared test for given probabilities data: c(0, 0, 0, 8, 6, 2, 0, 0) X-squared = NaN, …

1
「カウント比率」と「連続比率」の違いは何ですか?
別の質問へのコメントでは、議論中のトピックが「割合のカウント」か「継続的な割合」かを明確に尋ね、フォローアップにより、差が重要な情報であることが示されました(ロジスティック/二項対ベータ回帰のトピック)。 この2つの違いは何ですか?どこで区別が重要ですか?「割合を数える」作業と「継続的な割合」を使用する場合の留意点は何ですか?

2
2サンプルの比率検定にlmを使用する
私はしばらくの間、線形モデルを使用して2サンプルの比率テストを実行していましたが、完全に正しいとは限りません。一般化線形モデルと二項族+同一性リンクを使用すると、プールされていない2サンプル比率検定結果が正確に得られるようです。ただし、線形モデル(またはガウスファミリのglm)を使用すると、わずかに異なる結果が得られます。これは、Rが2項対ガウスの家族のglmをどのように解くかによるのかもしれませんが、別の原因があるのでしょうか? ## prop.test gives pooled 2-sample proportion result ## glm w/ binomial family gives unpooled 2-sample proportion result ## lm and glm w/ gaussian family give unknown result library(dplyr) library(broom) set.seed(12345) ## set up dataframe ------------------------- n_A <- 5000 n_B <- 5000 outcome <- rbinom( n = n_A + n_B, …

1
比率が独立変数である場合、比率を変換する最も適切な方法は何ですか?
私はこの問題を理解したと思っていましたが、今は確信が持てず、先に進む前に他の人に確認したいと思います。 私には2つの変数がXありYます。Yは比率であり、0と1に制限されず、通常正規分布します。Xは割合であり、0と1で区切られます(0.0から0.6まで実行されます)。の線形回帰を実行するY ~ Xと、それが判明しX、Y大幅に線形に関連しています。ここまでは順調ですね。 しかし、その後、さらに調査し、多分Xand Yの関係は線形より曲線的であると考え始めます。私には、それは関係のように見えるXとYに近いかもしれないY ~ log(X)、Y ~ sqrt(X)またはY ~ X + X^2、またはそのような何か。関係が曲線的であると仮定する経験的理由がありますが、ある非線形関係が他より優れていると仮定する理由はありません。 ここから関連する質問がいくつかあります。最初に、X変数は4つの値(0、0.2、0.4、および0.6)を取ります。これらのデータを対数変換または平方根変換すると、これらの値の間隔がゆがんで、0の値が他のすべての値からはるかに離れます。より良い質問方法がないため、これは私が望むものですか?そうではないと思います。なぜなら、私が受け入れる歪みのレベルに応じて非常に異なる結果が得られるからです。これが私が望むものではない場合、どうすればそれを避けるべきですか? 第二に、これらのデータを対数変換Xするには、0の対数を取ることができないため、各値にいくらかの量を追加する必要があります。より多く、たとえば1を追加しても、歪みはほとんどありません。X変数に追加する「正しい」量はありますか?または、代替の変換(キューブルートなど)またはモデル(ロジスティック回帰など)を選択する代わりに、変数に何かを追加することは不適切Xですか? この問題に関して私が見つけられたことはほとんどないので、慎重に踏み込む必要があると感じています。仲間のRユーザーの場合、このコードは、私のものと同様の構造を持つデータを作成します。 X = rep(c(0, 0.2,0.4,0.6), each = 20) Y1 = runif(20, 6, 10) Y2 = runif(20, 6, 9.5) Y3 = runif(20, 6, 9) Y4 = runif(20, 6, 8.5) Y = c(Y4, Y3, Y2, Y1) …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
非数学者向けのクロッパー・ピアソン
Clopper-Pearson CIを超えてプロポーションについて直感を説明できる人がいるかどうか疑問に思っていました。 私の知る限り、すべてのCIには差異が含まれています。ただし、比率については、私の比率が0または1(0%または100%)であっても、クロッパーピアソンCIを計算できます。数式を見てみたところ、二項分布のパーセンタイルを持つものがあることを理解し、CIを見つけるには反復が必要であることを理解していますが、「単純な言葉」で、または最小限の数学で、論理と合理性を説明できる人はいないかと思いました?

2
2つのグループで風邪を引く確率を比較するためのテストとテスト
興味深い実験(残念ながらソースはありません)について、かなり尊敬される(人気のある)科学雑誌(ドイツのPM、2013年2月、36ページ)を読みました。直感的に結果の重要性を疑ったので、それが私の注意を引きましたが、提供された情報は統計的検定を再現するのに十分でした。 研究者は、寒い気候で寒くなると風邪をひく確率が高くなるのではないかと考えました。そのため、180人の学生のグループをランダムに2つのグループに分割しました。1つのグループは、足を冷水に20分間保持しなければなりませんでした。もう一人は靴を履き続けた。ちょっとおかしな操作だと思いますが、一方で私は医者ではなく、医者はおもしろいと思います。倫理的な問題は別として。 とにかく、5日後、治療グループの学生のうち13人は風邪をひいていましたが、靴を履いたグループでは5人しかいませんでした。したがって、この実験のオッズ比は2.87です。 サンプルサイズがかなり小さいことを考えると、この違いが大きいのではないかと思い始めました。そこで、2つのテストを実施しました。 最初に、正規近似を使用した比率の等価性の簡単なテスト。このテストは、で。私の推測では、これは研究者がテストしたものです。これは本当に重要なことです。ただし、このz検定は、通常の近似のために間違えない限り、大きなサンプルでのみ有効です。さらに、有病率はかなり小さく、これが効果の信頼区間のカバー率に影響を与えないのではないかと思います。z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 2番目の試みは、モンテカルロシミュレーションと標準のピアソンカイ2乗の両方を使用したカイ2乗独立性検定でした。ここで、についての値を見つけます。p=.082p=.082p=.082 今では、結果についてそれほど安心しているわけではありません。このデータをテストするためのオプションが他にあるかどうか、2つのテストについてのあなたの考えは何か(特に、最初の重要なテストの仮定)

1
合計が1になる比率を線形回帰の独立変数として解釈する
共線性を回避するために、1つのレベルをベースラインとしてフィットできるようにする、カテゴリ変数とそれぞれのダミー変数コーディングの概念に精通しています。また、そのようなモデルからのパラメーター推定値を解釈する方法にも精通しています。ベースラインカテゴリと比較した、カテゴリカル予測子の特定の近似レベルの結果の予測される変化。 わからないのは、合計が1になる比率である一連の独立変数をどのように解釈するかです。モデルのすべての比率を当てはめると、再び共線性が得られるため、おそらく1つのカテゴリをベースラインとして除外する必要があります。私はまた、この変数の重要性の全体的なテストのためにタイプIII SSを見ることを想定しています。ただし、これらのレベルのパラメーター推定値は、モデルに適合するか、ベースラインと見なされたものとどのように解釈しますか? 例:郵便番号レベルでは、独立変数は変成岩、火成岩、堆積岩の比率です。ご存知かもしれませんが、これらは3つの主要な岩石タイプであり、すべての岩石はこれらの岩石の1つとして分類されます。そのため、3つすべての比率の合計は1になります。結果は、それぞれの郵便番号の平均ラドンレベルです。 モデルの予測因子として変成岩と火成岩の比率を当てはめ、堆積物をベースラインとして残した場合、2つの適合レベルの全体的なタイプIII SS F検定は、全体として岩のタイプが重要かどうかを示します。結果の予測因子(平均ラドンレベル)。次に、個々のp値(t分布に基づく)を見て、一方または両方の岩石タイプがベースラインと大幅に異なるかどうかを判断できます。 ただし、パラメーターの見積もりになると、私の脳はそれらを純粋にグループ(ロックタイプ)間の結果の予測される変化として解釈することを望み続け、それらが比率として当てはまるという事実を組み込む方法を理解していません。 場合はの推定値変成岩はあったが、0.43、言う、解釈は岩が変成対の堆積岩であるとき、0.43単位で予測平均ラドンレベルが増加するということだけではありません。ただし、この解釈は、変成岩タイプの比率のある種の単位増加(たとえば、0.1)の単純なものでもありません。これは、ベースライン(堆積物)にも関連しているという事実を反映していないためです。割合変成岩は、本質的に、モデル内の他のロック・レベルのフィット感、の割合に変更火成岩を。ββ\beta そのようなモデルの解釈を提供するソースを持っている人はいますか、そうでなければここに簡単な例を提供できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.