タグ付けされた質問 「sample-size」

このタグは非常にあいまいです。質問がサンプルサイズに関するもので、[小さいサンプル]、[大きいデータ]、[パワー分析]、[パワー]、[未定]、または[アンバランスクラス]のどれも適切でない場合に使用します。

14
大規模なデータセットは仮説検定に不適切ですか?
では最近の記事のAmstatニュース宣言します- 、作者(マーク・ファン・デル・ラーンとシェリー・ローズは)我々は十分に大きなサンプルサイズのために、効果なしの帰無仮説が真であるすべての研究-を含むものがあることを知っている」と述べました統計的に有意な効果。」。 まあ、私はそれを知りませんでした。これは本当ですか?大規模なデータセットに対して仮説検定は価値がないということですか?

3
ロジスティック回帰を行う場合、不均衡なサンプルは重要ですか?
さて、20:1の経験則を考慮して、十分なサンプルがあると思います:合計7つの予測変数のかなり大きなサンプル(N = 374)。 私の問題は次のとおりです。使用する予測変数のセットが何であれ、100%の特異性と0%の感度よりも分類が良くなることはありません。満足のいくものではありませんが、候補予測変数のセット(これから逸脱することはできません)を考えると、これは実際には最良の結果になる可能性があります。 しかし、私はもっと良くできると思わずにはいられなかったので、従属変数のカテゴリはほぼ4:1の非常に不均一なバランスであることに気付きました。よりバランスのとれたサブサンプルで分類を改善できますか?

7
重回帰の最小サンプルサイズの経験則
社会科学の研究提案の文脈の中で、私は次の質問をされました。 重回帰の最小サンプルサイズを決定するときは、常に100 + m(mは予測子の数)になりました。これは適切ですか? 同様の質問が頻繁に出ますが、多くの場合、経験則が異なります。また、さまざまな教科書でそのような経験則をかなり読みました。引用に関するルールの人気は、基準がどれだけ低く設定されているかに基づいているのかと疑問に思うことがあります。ただし、意思決定を簡素化する上での優れたヒューリスティックの価値も認識しています。 質問: 調査研究を設計する応用研究者の文脈の中で、最小サンプルサイズの単純な経験則の有用性は何ですか? 重回帰の最小サンプルサイズの代替経験則を提案しますか? あるいは、重回帰の最小サンプルサイズを決定するために、どのような代替戦略を提案しますか?特に、非統計学者が戦略を容易に適用できる程度に値が割り当てられるとよいでしょう。

10
t検定を有効にするために必要な最小サンプルサイズはありますか?
現在、準実験的な研究論文に取り組んでいます。選択したエリア内の人口が少ないため、サンプルサイズは15のみで、基準に適合するのは15のみです。15は、t検定とF検定で計算する最小サンプルサイズですか?もしそうなら、この小さなサンプルサイズをサポートする記事や本はどこで入手できますか? この論文は先週の月曜日にすでに弁護されており、パネルの1人は、私のサンプルサイズが小さすぎるため、支持する参考文献を求めました。彼は、少なくとも40人の回答者がいるべきだったと言った。

2
異なるサンプルサイズの平均の比較をどのように解釈する必要がありますか?
ウェブサイトでの書籍の評価の場合を考えてみましょう。本Aは、平均評価4.25、分散で、10,000人によって評価されています。同様に、Book Bの評価は100人で、評価は4.5でです。σ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 ブックAのサンプルサイズが大きいため、「平均安定化」は4.25になりました。現在、100人の場合、より多くの人がブックBを読んだ場合、平均評価は4または4.25に落ちる可能性があります。 異なるサンプルからの平均の比較をどのように解釈するべきか、また、できる/すべき最良の結論は何ですか? たとえば、書籍Bは書籍Aよりも優れていると言えるでしょうか。

5
サンプルサイズ1から母集団について何と言うことができますか?
母集団の平均値について、もしあるとすれば何と言えるのか、1つの測定値y 1(サンプルサイズ1)だけでとき、μを疑問に思います。明らかに、より多くの測定値が必要ですが、それらを取得することはできません。μμ\muy1y1y_1 これは、サンプルの平均のでように思わに自明等しいY 1、次いで、E [ ˉ Y ] = E [ Y 1 ] = μ。しかし、1のサンプルサイズで、サンプル分散が定義されていないため、使用中に私たちの自信ˉ Yの推定量としてμは、正しい、定義されていませんか?μの推定値を制限する方法はありますか?y¯y¯\bar{y}y1y1y_1E[ y¯] = E[ y1] = μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

10
1000のうち600が10のうち6よりも説得力があるのはなぜですか?
「スタディスキルハンドブック」、Palgrave、2012年、Stella Cottrell著、155ページからのこの抜粋をご覧ください。 パーセンテージパーセンテージが与えられると通知します。 代わりに、上記のステートメントが次のようになっているとします: 60%の人がオレンジを好んだ。40%がリンゴを好むと答えました。 これは説得力があるように見えます:数値が与えられています。しかし、60%と40%の違いは重要ですか?ここでは、何人の人が尋ねられたかを知る必要があります。1000人が600人のオレンジを好む人を尋ねられた場合、その数は説得力があるでしょう。ただし、10人だけが質問された場合、60%は6人がオレンジを好んだことを意味します。「60%」は、「10のうち6」ではできない方法で説得力があるように聞こえます。重要な読者として、不十分なデータを印象的に見えるようにするために使用されているパーセンテージを監視する必要があります。 統計でこの特性は何と呼ばれますか?私はそれについてもっと読みたいです。

4
30を十分な大きさのサンプルサイズとして使用することをサポートするには、どの参考文献を引用する必要がありますか
少なくとも30単位のサンプルサイズが「大きなサンプル」と見なされることを何度も読んだり聞いたりしました(通常、CLTにより平均値の正規性の仮定が成り立つ...)。したがって、私の実験では、通常30ユニットのサンプルを生成します。サンプルサイズ30を使用する際に引用する必要がある参考資料を教えてください。

2
ブートストラップ法に必要なサンプルサイズの決定/提案法
これは、誰も実際に簡単な答えを出すことができない、かなりホットなトピックであることを知っています。それにもかかわらず、次のアプローチが役に立たないのではないかと思っています。 ブートストラップ法は、サンプルが元の母集団とほぼ同じ分布をたどる(正確に読む)場合にのみ役立ちます。これを確実にするには、サンプルサイズを十分に大きくする必要があります。しかし、十分な大きさは何ですか? 私の前提が正しければ、中央限界定理を使用して母平均を決定するときに同じ問題が生じます。サンプルサイズが十分に大きい場合にのみ、サンプル平均の母集団が正規分布(母集団平均付近)であることを確認できます。言い換えると、サンプルは母集団(分布)を十分に表す必要があります。しかし、再び、何が十分な大きさですか? 私の場合(管理プロセス:需要を完了するのに必要な時間対需要の量)私はマルチモーダル分布(2011年に終了するすべての需要)のある人口を持っています。人口よりも通常分布している(現在の日と過去の日の間で終了するすべての要求、理想的にはこのタイムスパンはできるだけ小さい)研究したい。 2011年の人口は、サンプルサイズサンプルを作成するのに十分な単位ではありません。値を選択し、 ()と仮定します。ここで、試行錯誤を行って適切なサンプルサイズを決定します。を取り、サンプル平均母集団がKolmogorov-Smirnovを使用して正規分布しているかどうかを確認します。そうであれば、サンプルサイズで同じ手順を繰り返しますが、サンプルサイズ(など)で繰り返しません。バツバツxnnnバツバツx101010x = 10バツ=10x=10n = 50n=50n=50404040606060 しばらくして、2011年の母集団を多かれ少なかれ適切に表現するために、が絶対最小サンプルサイズであると結論付けました。関心のある母集団(現在の日と過去の日の間に終了するすべての要求)のばらつきが少ないことがわかっているため、ブートストラップにサンプルサイズを安全に使用できます。(間接的に、はタイムスパンのサイズを決定します:要求を完了するのに必要な時間。)n = 45n=45n=45n = 45n=45n=45n = 45n=45n=45454545 要するに、これは私の考えです。しかし、私は統計学者ではなく、統計学の授業がその先の日に行われたエンジニアなので、多くのゴミを生成した可能性を排除することはできません:-)。皆さんはどう思いますか?私の前提が理にかなっている場合、より大きいを選択する必要がありますか?あなたの答え次第です(恥ずかしいと思う必要がありますか?:-)さらにディスカッションのアイデアを投稿します。バツバツx101010 最初の回答に対する回答返信いただきありがとうございます。あなたの回答は、特に本のリンクに関して非常に役に立ちました。 しかし、私は情報を提供しようとして、質問を完全に曇らせたことに不満を感じています。ブートストラップサンプルが母集団サンプルの分布を引き継ぐことを知っています。私は完全にあなたに従いますが... 元の母集団サンプルは、母集団サンプルの分布が母集団の「実際の」分布に対応する(等しい)ことをある程度確実にするのに十分な大きさである必要があります。 これは、サンプル分布が母集団分布と一致することを合理的に確認するために、元のサンプルサイズがどれだけ大きくする必要があるかを判断する方法に関する単なるアイデアです。 二峰性の人口分布があり、一方の頂点が他方の頂点よりもはるかに大きいとします。サンプルサイズが5の場合、5つのユニットすべてが大きなトップに非常に近い値を持つ可能性が高くなります(ユニットをランダムに描画する広告のチャンスは最大です)。この場合、サンプル分布はモノモーダルになります。 サンプルサイズが100の場合、サンプル分布もバイモーダルである可能性ははるかに大きくなります!! ブートストラップの問題は、サンプルが1つしかないことです(そして、そのサンプルをさらにビルドします)。サンプル分布が実際に母集団分布と一致しない場合、問題が発生しています。これは、サンプルサイズを無限に大きくすることなく、「悪いサンプル分布」の可能性をできるだけ低くするためのアイデアです。

5
なぜ政治世論調査のサンプル数がこれほど多いのですか?
ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。

4
PCAまたはFAの最小サンプルサイズは、主な目標が数個のコンポーネントのみを推定することである場合ですか?
観測値と個の変数(次元)を含むデータセットがあり、通常は小さい()、は小さい()からおそらくはるかに大きい()。p n n = 12 − 16 p p = 4 − 10 p = 30 − 50nnnpppnnnn = 12 − 16n=12−16n=12-16pppp = 4 − 10p=4−10p = 4-10p = 30 − 50p=30−50p= 30-50 主成分分析(PCA)または因子分析(FA)を実行するには、がよりもはるかに大きい必要があることを覚えていますが、これは私のデータではそうではないようです。私の目的では、PC2を過ぎた主要コンポーネントにはほとんど興味がないことに注意してください。pnnnppp 質問: PCAを使用しても問題ない場合とそうでない場合の最小サンプルサイズの経験則は何ですか? またはあっても最初の数台のPCを使用しても大丈夫ですか?n &lt; pn=pn=pn=pn&lt;pn&lt;pn<p これに関する参照はありますか? あなたの主な目標がPC1とおそらくPC2を使用することであるかどうかは重要ですか? 単にグラフィカルに、または 次に、合成変数として回帰で使用されますか?

6
ロジスティック回帰のサンプルサイズは?
調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数(3つの連続変数と4つの名義変数)があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています(Agresti、2007)。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。 私は正しいですか?そうでない場合は、独立変数の数を決定する方法を教えてください?

7
ランダム効果因子のグループの最小推奨数は何ですか?
R(lme4)で混合モデルを使用して、いくつかの反復測定データを分析しています。応答変数(糞の繊維含有量)と3つの固定効果(体重など)があります。私の研究には参加者が6人しかいませんが、各参加者に対して16回の反復測定があります(ただし、2回の反復は12回のみです)。被験者は、異なる「治療」で異なる組み合わせの食物を与えられたトカゲです。 私の質問は、サブジェクトIDをランダム効果として使用できますか? これは、被験者のランダムにサンプリングされた性質と被験者間の観察が被験者間の観察より密接に相関するという事実を考慮するための、縦方向の混合効果モデルにおける通常の行動コースであることを知っています。ただし、サブジェクトIDをランダム効果として扱うには、この変数の平均と分散を推定する必要があります。 被験者は6人(この因子の6つのレベル)のみであるため、これは平均と分散の正確な特性を得るのに十分ですか? この点に関して、各被験者について非常に多くの反復測定があるという事実は、この点で役立ちますか(それがどのように重要であるかわかりません)。 最後に、サブジェクトIDをランダムエフェクトとして使用できない場合、固定エフェクトとしてサブジェクトIDを含めることで、繰り返し測定しているという事実を制御できますか? 編集:私は、「できます」と言ったときに、サブジェクトIDをランダム効果として使用することを意味します。わずか2レベルの係数でモデルを適合できることは知っていますが、これは確実に防御できないでしょうか?被験者をランダムな効果として扱うことを考えるのは、どの時点で賢明になりますか?文献では、5〜6レベルが下限であるとアドバイスされているようです。ランダム効果の平均と分散の推定値は、15以上の因子レベルが存在するまではあまり正確ではないと思われます。

3
健全性チェック:p値はどのくらい低くできますか?
2つのサンプル()の中央値を比較するためにランクサムテストを使用しており、それらが以下と大きく異なることがわかりました。このような小さな値を疑うべきですか、それとも非常に大きなサンプルを持つことに関連する高い統計的検出力に起因するのでしょうか?疑わしいほど低い値などはありますか?n = 120000n=120000n=120000p = 1.12E-207pppppp

9
ping応答時間に関するこのデータがどのような分布を表しているのかを知るにはどうすればよいですか?
ネットワークping時間の実世界のプロセスをサンプリングしました。「往復時間」はミリ秒単位で測定されます。結果はヒストグラムにプロットされます。 ping時間には最小値がありますが、長い上側の尾があります。 これがどのような統計分布であり、そのパラメーターを推定する方法を知りたいです。 ディストリビューションは通常のディストリビューションではありませんが、達成しようとしていることを示すことができます。 正規分布は次の関数を使用します。 2つのパラメーター μ(平均) σ 2 (分散) パラメータ推定 2つのパラメーターを推定する式は次のとおりです。 Excelにあるデータに対してこれらの式を適用すると、次のようになります。 μ= 10.9558(平均) σ 2 = 67.4578(分散) これらのパラメーターを使用すると、サンプリングしたデータの上に「正規」分布をプロットできます。 明らかに正規分布ではありません。正規分布は、無限の上部および下部テールを持ち、対称です。この分布は対称ではありません。 どの原則を適用しますか。これがどのような分布であるかを判断するために、どのフローチャートを適用しますか? 分布に負のテールがなく、長い正のテールがある場合、どの分布がそれに一致しますか? あなたが取っている観測値に分布を一致させる参照はありますか? そして、簡単に言えば、この分布の式は何ですか?また、そのパラメーターを推定する式は何ですか? 「平均」値と「スプレッド」を取得できるように、分布を取得したい: 私は実際にソフトウェアでヒストグラムをプロットしており、理論的な分布をオーバーレイしたい: 注:math.stackexchange.comからクロスポスト 更新:160,000サンプル: 月と月、および無数のサンプリングセッションは、すべて同じ分布を提供します。数学的表現が必要です。 Harveyは、データをログスケールにすることを提案しました。対数スケールでの確率密度は次のとおりです。 タグ:サンプリング、統計、パラメーター推定、正規分布 それは答えではなく、質問の補遺です。これが配布バケットです。もっと冒険好きな人は、Excel(またはあなたが知っているプログラム)にそれらを貼り付けて、分布を見つけることができると思います。 値は正規化されます Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 59.5 0.0729476844872482 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.