データフィッティング分布のサンプルサイズを最小20にすることを検討するようにアドバイスした参考文献があります。
これには意味がありますか?
ありがとう
データフィッティング分布のサンプルサイズを最小20にすることを検討するようにアドバイスした参考文献があります。
これには意味がありますか?
ありがとう
回答:
サンプルサイズのマジックナンバーは1,000だと思いました。これは、約3%の誤差を生成するために、ほとんどの米国の国民の世論調査が持っているものです:
わずか20の観測値では、技術的には非常に高い歪度と尖度(もちろん、サンプルの標準偏差で正規化)を 取得できません モーメント法で分布を近似する場合、1に相当する典型的なログの分散をもつ対数正規分布とは当てはまらないことは明らかです(中高所得の不平等国、米国、ブラジル、南アフリカ、ロシアでは、111の驚くほど大きな尖度があるため、すべての対数所得の分散が高くなります。もちろん、モーメント法で対数正規分布に適合させるのはばかげていますが、実世界の分布が20個の観測で説明できるものよりも複雑になる可能性があります。
分布フィッティング上の別のビューをカーネル密度推定により採取することができる:サイズのサンプルについて、最も人気のあるルールは、帯域幅が得られる H = 1.06 σ N - 1 / 5 = 0.58 効果的に全体の分布にまたがりますガウスカーネルを使用します。言い換えれば、サイズ20のほとんどのサンプルは、顕著な尖度を明確に持たない限り、カーネル密度推定を実行すると正常に見えます(つまり、カーネル密度に個別のバンプとして現れるいくつかの外れた観測があることを意味します)プロット)。
いや。リモートではありません。
このように考えてみてください:10次元の空間(人類)があり、どんな方法(20人)でも20個のサンプルを引き出した場合、それらの情報を使用して、地球上のすべての人を合理的に理解できますか?リモートではありません。天の川銀河には1000億個の星があります。(ランダムに)20個を選ぶことで、銀河天文学のすべてを理解できますか?ありえない。
1次元空間には、いくつかのヒューリスティックがあり、ほとんどの場合有効な経験則が役立ちます。これは、取得する測定の数を示します。それらにはさまざまな程度の有用性と正当化が含まれますが、ある意味では「20」よりも防御力があります。それらには、「近似方程式の変数ごとに5つの測定」、「ガウス密度関数の少なくとも35サンプル」、および「二項関数の少なくとも300サンプル」が含まれます。私のようなオタク爆撃機ではなく実際の統計学者は、特定の信頼区間と第一原理からの不確実性を計算機なしで関連付けることができます。
「最高」は「良さの尺度」を持たない無意味なアイデアであることを忘れないでください。最適なパスは何ですか?あなたが運命に行くなら、おそらく非常に長くて楽しいものです。自分のcor冠式に行く場合は、短くて壮大なものかもしれません。砂漠を通って歩いているなら、涼しい日陰のものです。「最適な」サンプル数とは何ですか?それはあなたの問題に驚くほど依存しているので、その前に権威で答えられ始めることはできません。それらのすべて?できるだけ多くですか?それらは少しだけ意味があります。はい、それは部分的に死んでいるか妊娠しているようなものです。部分的に無意味であることは、非常に不十分な問題の結果です。
飛行機の気流を正確に予測しようとしていますか?ボールパークに入るには、数百万の測定が必要になる場合があります。自分の身長を知りたい場合は、1人か2人が仕事をするかもしれません。
これは、「空間を広げる」および「パラメータ推定値の分散を最小化する場所でサンプリングする」という重要な点をもたらしませんが、質問は、新入生レベルの答えが関連することを示唆しました。これらのことは、実装する前に問題の性質についてもっと知る必要があります。
注:提案ごとに改善するために編集されました。
おそらく、t検定またはANOVARを実行しているコンテキスト(基本的な統計アプリケーションではかなり一般的なコンテキスト)については、各グループの平均がほぼ信頼できるようにするために各グループに必要なサンプルサイズの前後です。分布が多かれ少なかれユニモーダルで極端なピークではないと想定できる場合、(中央極限定理に従って)通常分布します。ラウンド数であるため、19または21ではありません。
主題に関するいくつかの記事については、ラスレンズの検出力とサンプルサイズのページを確認してください(ページ中央のアドバイスセクション)。
サンプルに含まれる個人の最小数は、母集団のサイズ、ディメンションの数(データをカテゴリに分けている場合)、および測定(サンプルの個人について継続的な測定を行っている場合)、サイズユニバース、使用する分析手法(これは非常に重要なポイントです-手法は研究の計画中または実験計画中に定義され、決して後ではありません)、および以前の研究で示された複雑さ。
そして、「まれな病気」や「実験心理学」(彼の仕事でポパーが定義した精神)の主題以外の真剣な研究には20は十分ではありません。
そして、確率分布のフィッティングを伴う「まれな病気」や「実験心理学」(彼の研究でポパーが定義した精神)の主題以外の深刻な研究には20は十分ではありません。
そして、いや、あなたは大きなサンプルサイズを得るために人々を中毒し続けるべきではありません。常識とシーケンシャルテストは停止するように命じます。