タグ付けされた質問 「sample-size」

このタグは非常にあいまいです。質問がサンプルサイズに関するもので、[小さいサンプル]、[大きいデータ]、[パワー分析]、[パワー]、[未定]、または[アンバランスクラス]のどれも適切でない場合に使用します。

1
なぜ分散のサンプリング分布はカイ二乗分布なのですか?
声明 サンプル分散のサンプリング分布は、自由度が等しいカイ二乗分布です。ここで、はサンプルサイズです(対象のランダム変数が正規分布している場合)。nn−1n−1n-1nnn ソース 私の直感 1)カイ2乗検定は2乗和のように見えるため、2)カイ2乗分布は2乗正規分布の和にすぎないため、直感的に理解できます。それでも、私はそれをよく理解していません。 質問 ステートメントは本当ですか?どうして?

1
5人の被験者の100個の測定値が、100人の被験者の5個の測定値よりもはるかに少ない情報を提供することを示す
会議で、私は次の声明を耳にしました。 5人の被験者の100の測定値は、100人の被験者の5つの測定値よりもはるかに少ない情報を提供します。 これが本当であることは明らかですが、数学的にどのように証明できるのか疑問に思っていました...線形混合モデルを使用できると思います。ただし、それらの推定に使用される数学についてはあまり知りません(lmer4LMMおよびGLMMで実行するだけbmrsです)。これが真実である例を教えてください。Rの一部のコードよりも、いくつかの式を使用した回答を希望します。たとえば、正規分布のランダムインターセプトとスロープを持つ線形混合モデルなど、簡単な設定を想定してください。 PS LMMを含まない数学ベースの回答も大丈夫でしょう。LMMは、より多くの被験者からのより少ない測定値が少数の被験者からのより多くの測定値よりも優れている理由を説明するための自然なツールのように思えたため、LMMについて考えました。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
中心極限定理に大きなサンプルサイズが必要な分布の例
一部の書籍では、中心極限定理が適切に近似するために、サイズ30以上のサンプルサイズが必要であると述べてい。 X¯X¯\bar{X} これはすべてのディストリビューションに十分ではないことを知っています。 サンプルサイズが大きい場合(おそらく100、1000、またはそれ以上)でも、サンプル平均の分布がかなり歪んでいる分布の例をいくつか見たいと思います。 私は以前にそのような例を見たことがあることを知っていますが、どこにあるか思い出せず、見つけることができません。

1
サイズ1とサイズ3の2つのサンプルを比較する統計的検定はありますか?
エコロジープロジェクトの場合、私の研究室グループは、等量の池の水を含む4つのタンクに、酢を追加しました。酢を加える目的は、pHを下げることでした。仮説は、エロデアを持つタンクが通常のpHに速く戻るというものでした。確かにそうでした。各タンクのpHを約2週間毎日測定しました。最終的にすべてのタンクが元のpHに戻りましたが、これにかかる時間は、エロデアを備えたタンクの方がはるかに短かったです。 教授に実験計画について話したとき、コントロールと治療を比較するためにデータに対して実行できる統計的検定は存在しないと彼は言いました。これは、コントロールの複製がないため(コントロールタンクを1つだけ使用したため)、分散を計算できず、コントロールと処理のサンプル平均を比較できないためです。私の質問は、これは本当ですか?彼が何を意味するのか、私は間違いなく理解しています。たとえば、1人の男性と1人の女性の身長を考慮した場合、それぞれの人口について結論を出すことはできません。しかし、3回の治療を行い、分散は小さかった。コントロールの分散が似ていると仮定するのは理にかなっていますか? 更新: すばらしい答えをありがとう。湿地からより多くの水とエロデアを得て、より小さなタンクで実験を再度実行することにしましたが、今回は5つのコントロールと5つの処理を行います。これを元のデータと組み合わせるつもりでしたが、タンクの開始pHが十分に異なっていたため、元の実験と同じ母集団から新しい実験をサンプリングすることを考慮するのは妥当ではないようです。 さまざまな量のエロデアを追加し、pH修復の速度(pHが元の値に戻るまでの時間として測定される)をエロデアの量と相関させることを検討しましたが、必要ではないと判断しました。私たちの目的は、pHが異なる量のElodeaにどのように反応するかを正確に予測する何らかのモデルを構築することではなく、Elodeaが正の違いをもたらすことを示すことだけです。エロデアの最適量を決定することは興味深いでしょうが、それはおそらく生き残ることができる最大量にすぎません。データに回帰曲線を当てはめようとしても、大量に追加するとコミュニティにさまざまな複雑な変更が発生するため、特に意味がありません。エロデアは死に、分解し、新しい生物が支配し始めます。

1
サンプルサイズをランダム変数にすることはどういう意味ですか?
Frank Harrellがブログ(統計的思考)を開始しました。彼の最高の投稿では、彼の統計哲学のいくつかの重要な特徴をリストしています。他のアイテムの中で、含まれるもの: 可能な場合、サンプルサイズをランダム変数にする 「サンプルサイズをランダム変数にする」とはどういう意味ですか? これを行う利点は何ですか?なぜそれが好ましいのでしょうか?



4
必要なサンプルサイズ、分散推定の精度を計算していますか?
バックグラウンド 分布が不明な変数があります。 500個のサンプルがありますが、分散を計算できる精度を実証したいと思います。たとえば、サンプルサイズ500で十分だと主張します。また、分散を精度で推定するために必要な最小サンプルサイズを知ることに興味があります。X%X%X\% ご質問 どうすれば計算できますか サンプルサイズ所与分散の私の推定値の精度??n=500n=500n=500n=Nn=Nn=N 精度で分散を推定するために必要なサンプルの最小数を計算するにはどうすればよいですか?XXX 例 図1 500サンプルに基づくパラメーターの密度推定。 図2これは、x軸のサンプルサイズと、500のサンプルのサブサンプルを使用して計算したy軸の分散の推定値のプロットです。nが増加すると、推定値は真の分散に収束します。 。 ただし、分散を推定するために使用されるサンプルは互いに独立していないか、分散を計算するために使用されるサンプルとはN ∈ [ 20 、40 、80 ]n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

8
対応のないt検定の最小サンプルサイズ
t検定を有効にするために必要な最小サンプルサイズを決定する「ルール」はありますか? たとえば、2つの母集団の平均間で比較を実行する必要があります。一方の母集団には7つのデータポイントがあり、もう一方の母集団には2つのデータポイントしかありません。残念ながら、実験は非常に高価で時間がかかり、より多くのデータを取得することは現実的ではありません。 T検定を使用できますか?なぜですか?詳細を入力してください(母集団の分散と分布は不明です)。T検定を使用できない場合、ノンパラメトリック検定(Mann Whitney)を使用できますか?なぜですか?

2
大きなデータセットの有意水準を選択する方法は?
Nが約200,000のデータセットを使用しています。回帰では、r = 0.028などの非常に小さな効果サイズに関連する非常に小さな有意値<< 0.001が見られます。私が知りたいのは、サンプルサイズに関連して適切な有意性閾値を決定する原則的な方法がありますか?このような大きなサンプルを使用してエフェクトサイズを解釈する際に、他に重要な考慮事項はありますか?

3
大規模な母集団をポーリングするときに、サンプルサイズをどのように決定しますか?
オーストラリアは現在選挙を行っており、当然のことながらメディアは毎日新しい政治投票の結果を報告しています。2200万の国では、統計的に有効な結果を得るために、人口の何パーセントをサンプリングする必要がありますか? 大きすぎるサンプルを使用すると結果に影響する可能性がありますか、それとも統計的妥当性がサンプルサイズとともに単調に増加する可能性はありますか?

3
ブートストラップ:オーバーフィットの問題
元の観測値からそれぞれサイズサンプルを置き換えて描画することにより、いわゆるノンパラメトリックブートストラップを実行するとします。この手順は、経験累積分布関数による累積分布関数の推定と同等であると思います。BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function そして、連続した推定累積分布関数回から回の観測値をシミュレートして、ブートストラップサンプルを取得します。nnnBBB 私がこれに正しければ、経験的累積分布関数には約N個のパラメーターがあるため、過剰適合の問題に対処する必要があります。もちろん、漸近的に母集団cdfに収束しますが、有限サンプルについてはどうでしょうか?たとえば、100個の観測値があり、2つのパラメーターを使用してcdfをとして推定する場合、心配する必要はありません。ただし、パラメーターの数が100に達する場合、まったく妥当とは思えません。N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) 同様に、標準の多重線形回帰を使用する場合、誤差項の分布はとして推定されます。残差のブートストラップに切り替えることにした場合、エラー項の分布を処理するためだけに約 n個のパラメーターが使用されることに気づかなければなりません。N(0,σ2)N(0,σ2)N(0, \sigma^2)nnn この問題に明示的に対処しているいくつかの情報源を教えてもらえますか、間違っていると思われる場合はなぜ問題ではないのか教えてください。

2
サンプルサイズが等しくない:呼び出すタイミングが終了する
私は学術雑誌の記事を査読していますが、著者は推論統計を報告しないことの正当性として次のように書いています(2つのグループの性質を明確にしました)。 合計で、2,349人中25人(1.1%)がXを報告しました。グループXとグループY(他の2,324人の参加者)を統計的に比較する分析を提示することは適切に控えます。これらの結果は偶然によって大きく引き起こされる可能性があるためです。 私の質問は、この研究の著者は、グループの比較に関してタオルを投げ入れることを正当化するのか?そうでない場合、私は彼らに何をお勧めしますか?

7
短い時系列はモデリングする価値がありますか?
ここにいくつかのコンテキストがあります。2つの環境変数(温度、栄養素レベル)が11年間の応答変数の平均値にどのように影響するかを調べることに興味があります。毎年、10万を超える場所からのデータがあります。 目標は、11年間で、応答変数の平均値が環境変数の変化に応答したかどうかを判断することです(たとえば、気温が上がる+栄養素が増える=応答が大きくなる)。 残念なことに、応答は平均値であるため(平均値を見ずに、定期的な経年変動だけで信号が圧倒される)、回帰は2つの説明変数を持つ11データポイント(1年に1平均値)になります。私にとって、線形の正の回帰でさえ、データセットが非常に小さいことを考えると、意味があると考えるのは難しいでしょう(関係が非常に強い場合を除き、名目上の40ポイント/変数さえ満たしません)。 私はこの仮定をする権利がありますか?誰かが私が見逃しているかもしれない他の考え/視点を提供できますか? PS:いくつかの警告:追加の年を待たずに、より多くのデータを取得する方法はありません。したがって、利用可能なデータは、私たちが本当に取り組まなければならないものです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.