タグ付けされた質問 「sample-size」

このタグは非常にあいまいです。質問がサンプルサイズに関するもので、[小さいサンプル]、[大きいデータ]、[パワー分析]、[パワー]、[未定]、または[アンバランスクラス]のどれも適切でない場合に使用します。

1
比率の2標本比較、標本サイズ推定:RとStata
比率の2標本比較、標本サイズ推定:RとStata 次のように、サンプルサイズの結果が異なります。 でR power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) 結果:各グループの(つまり 161)。n=160.7777n=160.7777n = 160.7777 Stata sampsi 0.70 0.85, power(0.90) alpha(0.05) 結果:各グループで。n=174n=174n = 174 なぜ違いがあるのですか?ありがとう。 ところで、私はSAS JMPで同じサンプルサイズ計算を実行しました。結果は(Rの結果とほとんど同じです)。n=160n=160n = 160

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
2つのグループのサンプルサイズが小さく、バランスが悪い-どうすればよいですか?
比較したい2つのグループ(つまり、サンプル)のデータがありますが、サンプルの合計サイズは小さく(n = 29)、非常に不均衡です(n = 22 vs n = 7)。 これらのデータはロジスティックに収集するのが困難でコストがかかるため、明らかな解決策としての「より多くのデータの収集」はこの場合は役に立ちません。 いくつかの異なる変数(出発日、到着日、移行期間など)が測定されたため、複数のテストがあり、その一部は分散が大きく異なります(小さいサンプルほど分散が大きくなります)。 最初に同僚がこれらのデータに対してt検定を実行しましたが、一部はP <0.001で統計的に有意であり、別の者はP = 0.069で有意ではありませんでした。一部のサンプルは正規分布していましたが、その他は分布していませんでした。一部のテストでは、「等しい」分散からの大きな逸脱が含まれていました。 いくつか質問があります。 ここでt検定は適切ですか?そうでない場合、なぜですか?これは、分散の正規性と平等性の仮定が満たされているテストにのみ適用されますか? 適切な代替案は何ですか?おそらく順列検定ですか? 不等分散はタイプIのエラーを膨らませますが、どうやって?そして、小さな不均衡なサンプルサイズはタイプIエラーにどのような影響を与えますか?

2
大規模な全体的なデータセットから代表的なサンプルセットを作成するにはどうすればよいですか?
(既知の信頼レベルで)母集団全体を表すサンプルセットを作成するための統計手法は何ですか? また、 サンプルがデータセット全体に適合する場合、検証方法は? データセット全体(何十億ものレコードになる可能性があります)を解析せずにそれは可能ですか?

3
マルコフ連鎖モンテカルロサンプルの数
あり、多くの文献には、そこに診断で最も人気のGelman-Rubin氏を含むマルコフ連鎖モンテカルロ(MCMC)収束診断について。ただし、これらはすべてマルコフ連鎖の収束を評価し、バーンインの問題に対処します。 バーンインがわかったら、推定プロセスを続行するのに十分な数のMCMCサンプルをどのように決定すればよいですか?MCMCを使用するほとんどの論文は、マルコフ連鎖を回反復して実行したと述べていますが、その数を選択した理由/方法については何も述べていません。んnnんnn さらに、マルコフ連鎖における相関は問題ごとに大きく異なるため、1つの望ましいサンプルサイズがすべてのサンプラーの答えになるわけではありません。それで、必要なサンプルの数を見つけるための規則はありますか?

2
1%未満のオブジェクトが不良である可能性を95%にしたい場合、いくつのサンプルが必要ですか?
XMLサイトマップのゴミ(リンク切れ)が未満であることを確認する必要があります。URLのリストは数十万にのぼり、それらすべてを1つずつテストすることが可能であるとしても、多くの理由で、私はむしろそうではありません。1%1%1\% 1 - Saved bandwidth 2 - Faster traffic for real clients 3 - Less noise in visitor statistics (because my test would count as a visit) 5 - I could go on... ランダムなサブセットを取るだけで十分だと思います。問題は確率がわからないことです。 使えるシンプルな機能はありますか? それが役立つ場合は、リンクが実行全体で壊れる可能性に関する事前情報があると仮定できます。実行全体で、特定のリンクが切断されるのにあるとしましょう。0.75%0.75%0.75\%

1
ブートストラップサンプルが元のサンプルとまったく同じである可能性
何らかの理由を確認したいだけです。 私の元のサンプルがサイズあり、それをブートストラップする場合、私の思考プロセスは次のとおりです。nnn は、元のサンプルから得られた観測の確率です。次の描画が以前にサンプリングされた観測ではないことを確認するために、サンプルサイズをn−1に制限します。したがって、次のパターンが得られます。1n1n\frac{1}{n}n−1n−1n-1 1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!.1n⋅1n−1⋅1n−2⋯1n−(n−1)=1n!. \frac{1}{n} \cdot \frac{1}{n-1} \cdot \frac{1}{n-2} \cdots \frac{1}{n-(n-1)} = \frac{1}{n!}. これは正しいです?それができない理由につまずく代わりに。(1n)n(1n)n(\frac{1}{n})^n

4
分布がわからない場合のサンプリング方法
私は統計学(初心者レベルの少数のUniコース)にかなり慣れていないので、未知の分布からのサンプリングについて疑問に思っていました。具体的には、基になるディストリビューションがわからない場合、代表的なサンプルを取得することを「保証」する方法はありますか? 説明する例:富のグローバルな分布を把握しようとしているとしましょう。特定の個人について、あなたはどういうわけか彼らの正確な富を見つけることができます。しかし、地球上のすべての人を「サンプリング」することはできません。したがって、n = 1000人をランダムにサンプリングするとします。 サンプルにビルゲイツが含まれていない場合、億万長者は存在しないと思うかもしれません。 サンプルにビルゲイツが含まれていた場合、億万長者が実際よりも一般的であると考えるかもしれません。 どちらの場合でも、億万長者がどれほど一般的またはまれであるかを実際に知ることはできません。存在するかどうかさえわからないかもしれません。 このような場合には、より良いサンプリングメカニズムが存在しますか? 使用するサンプリング手順(および必要なサンプル数)をアプリオリにどのように伝えますか? 合理的な確実性に近づくと、知るには人口の大部分を「サンプリング」する必要があるかもしれません。これは、億万長者が地球上にどの程度いるか、または珍しいかであり、これは基礎となる分布が少し難しいためです。一緒に働きます。

3
信頼区間とサンプルサイズ
私は統計と信頼区間のフィールドにまったく新しいです。したがって、これは非常に些細なことであるか、または愚かでさえあるかもしれません。このことをよりよく説明している文献/テキスト/ブログを理解したり、指摘したりしていただければ幸いです。 CNN、Foxニュース、Politicoなどのさまざまなニュースサイトで、2012年の米国大統領レースに関する投票について調べています。各機関は、いくつかの投票を実施し、フォームの統計を報告しています。 CNN:オバマ氏の人気はX%で、誤差は+/- x1%です。サンプルサイズ600。FOX:オバマ氏の人気はY%で、誤差は+/- y1%です。サンプルサイズ800。XYZ:オバマ氏の人気はZ%で、誤差は+/- z1%です。サンプルサイズ300。 ここに私の疑問があります: どれを信頼するかをどうやって決めるのですか?それは信頼区間に基づくべきですか、それともFoxのサンプルサイズが大きいため、推定値の信頼性が高いと思いますか?信頼度とサンプルサイズの間に暗黙の関係があり、一方を指定すると他方を指定する必要がなくなりますか? 信頼区間から標準偏差を決定できますか?もしそうなら、それは常に有効ですか、それとも特定の分布(Gaussianなど)に対してのみ有効ですか? 上記の3つの推定値を「マージ」または「結合」して、信頼区間とともに独自の推定値を取得する方法はありますか?その場合、どのサンプルサイズを請求する必要がありますか? CNN / Foxについては、私の例をわかりやすく説明するためにのみ言及しました。私はここで民主党対共和党論争を始めるつもりはありません。 私が提起した問題を理解するのを手伝ってください。

3
非常に低いエラー率を確認する方法
センサーのエラー率が非常に低い(1,000,000回の試行でエラーが1つ以下)ことをテストして実証しようとすることに直面しています。実験を行う時間は限られているため、約4,000回を超える試行を取得することはできません。センサーが要件を満たしていないことを示す問題はありません。4,000回の試行で1つのエラーでも、0.000001を超える下限でエラー率の95%信頼区間が得られるためです。ただし、それが要件を満たしていることを示すことは問題です。4,000回の試行でエラーが0であっても、下限は0.000001より大きくなります。任意の提案をいただければ幸いです。

1
反復測定における比率のサンプルサイズ
私は科学者がサルモネラ菌の発生に関する研究を設計するのを手助けしようとしています。彼は、養鶏場での実験的な抗菌製剤と塩素(漂白剤)を比較したいと考えています。サルモネラのバックグラウンド率は時間の経過とともに異なるため、治療前と治療後にサルモネラを含む家禽の割合を測定する予定です。したがって、測定値は、実験式と塩素式のサルモネラの前後の差になります。 誰でも必要なサンプルサイズを推定する方法についてアドバイスできますか?バックグラウンド率が50%であるとしましょう。漂白後は20%です。そして、実験的な処方が速度を+/- 10%変更するかどうかを検出したいとします。ありがとうございました 編集:私が苦労しているのは、バックグラウンドレートを組み込む方法です。それらをそれぞれ漂白剤と実験サンプルの「前」のサルモネラ菌率であるp3とp4と呼びましょう。したがって、推定される統計は差の差です:実験的(事後)-ブリーチ(事後)=(p0-p2)-(p3-p1)。サンプルサイズの計算で「前」のレートp2とp3のサンプリング変動を完全に説明するには、p0(1-p0)+ p1(1-p1)+ p2(1-p2)を使用するのと同じくらい簡単です。 + p3(1-p3)サンプルサイズの式に変動項がある場合はどこですか?すべてのサンプルサイズを等しくします(n1 = n2 = n)。

2
平均を推定するために必要なサンプル数の動的計算
私はサンプリングを介して多かれ少なかれガウス分布の平均を推定しようとしています。その平均や分散についての予備知識はありません。各サンプルの入手には費用がかかります。特定のレベルの信頼性/精度を得るために必要なサンプル数を動的に決定するにはどうすればよいですか?または、サンプルの採取をいつ停止できるかを知るにはどうすればよいですか? 私が見つけることができるこのような質問へのすべての回答は、差異についてのある程度の知識を推定しているように見えますが、私は途中でそれも発見する必要があります。他の人は投票を取ることを目的としており、それが一般化する方法は私(初心者)にははっきりしていません。 これはおそらくよく知られている答えのある簡単な質問だと思いますが、私のGoogle-fuは私を失敗させています。何を検索すればいいのか教えてもらえると助かります。

2
2つの異なる最小nを生成する不等サイズグループのt検定電力分析を実行できますか?
通常、Power Analysisを計算するためにaを実行するのは簡単ですminimum sample size。特に、私のお気に入りの統計計算環境であるRでは、簡単です。 ただし、私が行ったものやオンラインで参照できるものとは少し異なる電力分析を実施するように求められています。私が求められていることがさらに可能/有効かどうか疑問に思っています。 プロジェクトには基本的に2つunequal groupsの状態があり、これらの2つのグループは結果変数(顧客への電話の継続時間)に関して大幅に異なるという仮説があります。「コントロール」グループは40の州で構成され、約2,500の観測を生成しました。「テスト」グループには、約10の州と500の観測があります。 最初に、を計算するために使用したグループmeans+ を見つけましpooled standard deviationたEffect Size。それから私はと呼ばれるパッケージを使用pwr中にR、私は0.05意義と0.8パワー与えられたグループごとに約135の観測の最小サンプルサイズを、必要なことがわかりました。 ただし、現在のように1つのグループを他のグループよりも大きくしたいため、グループごとに2つの異なる観測値の最小数または状態数の観点からの人口の最小%または「テスト」グループに入らなければならない観察。 2つのサンプルt検定(R関数pwr.t2n.test)のパワー分析が表示されますが、少なくとも1つのサンプルサイズを指定する必要がありますが、両方のグループの最小サンプルサイズを(数値またはパーセンテージ)とこの関数は、2つのグループの標準偏差の違いを反映していません。 これは可能ですか、それとも機能しないことを伝えますか?

1
電力分析でサンプルを決定した後のサンプルサイズの超過の結果
チャレンジ 私たちのオフィスでは、サンプルサイズとそのエフェクトサイズへの影響について話し合いました。私を助けてさらに説明してもらえますか? ベース 電力分析を実行するとき、特定の設計における特定の効果サイズのサンプルサイズを決定できます。 問題/ディスカッション どうなり先験的にはサンプルサイズを超えた決定(電力解析では例えば、決定サンプルだった、我々は得ることができた)?N = 1000N=100N=100N=100N=1000N=1000N=1000 ポジション1: 大きなサンプルサイズは、エフェクトサイズを切り刻む/破壊します。電力分析で決定されたよりも大きいサンプルを使用すると、「すべてが重要になる」という危険が発生します(軽微で、実際には無関係な影響も)。したがって、電力分析から決定されたサンプルに依存する必要があります。そうすることで、「実際の/関連する」効果を明らかにすることができます。 または ポジション2: サンプルサイズの決定は、所定の効果を明らかにするために必要な最小サンプルサイズを指します。大きなサンプルサイズは、たとえば測定誤差が減少するため、有益です。したがって、実際の効果をより簡単に明らかにすることができます。事後効果サイズの計算は、効果の関連性に関する情報を提供します。 または 位置3: 位置1と位置2はスタディデザインによって異なります(たとえば、「関連性のある影響」を求めるためt検定では位置1ですが、CFA / SEMでは位置2でより安定した信頼できる結果が得られます)。 または 位置4: 別の説明として考えられる別の位置。

1
データテーブルのレコードの正誤を検証するためのサンプルサイズを計算する方法
CrossValidatedで既存の回答を読みましたが(オンラインで他の場所でも)、探しているものが見つかりませんが、見逃した場合は既存のソースを参照してください。 N = 1000レコードのデータセットがあるとします。各レコードは手動でサンプリングし、「有効」または「無効」(または真/偽、右/間違っなど)としてラベル付けできます。 データセット内のすべてのレコードが有効であるという一定のレベルの信頼を実現したいと考えています。レコードをサンプリングするときに、無効なレコードが1つ見つかった場合は、戻ってデータセットの作成方法を修正し、その問題と同様の問題を修正します。 したがって、無効なものを特定し、データセットを修正して再作成した後、有効なレコードのみを含むサンプリングを行います。すべてのレコードが有効であることを(たとえば)99%または95%確認したい場合、サンプルはどのくらいの大きさでなければなりませんか?(理想的にはNの関数として。) 私は超幾何テスト(http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test)をいじってみました-そのコンテキストではkが何であるか知りたいのですが、Kの固定値を持っていません。むしろ、KがNに等しくなるようにkを選択したいのですが、K = Nを設定すると、明らかに1の確率になります。ベイジアンアプローチを使用する必要があるかどうかも疑問に思っていますが、ベイジアン統計を十分に理解していません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.