タグ付けされた質問 「small-sample」

データが少ないことによる統計的な複雑化または問題を指します。変数の数に比べて小さなサンプルに関する質問の場合は、代わりに[underdetermined]タグを使用してください。

3
ブートストラップ:オーバーフィットの問題
元の観測値からそれぞれサイズサンプルを置き換えて描画することにより、いわゆるノンパラメトリックブートストラップを実行するとします。この手順は、経験累積分布関数による累積分布関数の推定と同等であると思います。BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function そして、連続した推定累積分布関数回から回の観測値をシミュレートして、ブートストラップサンプルを取得します。nnnBBB 私がこれに正しければ、経験的累積分布関数には約N個のパラメーターがあるため、過剰適合の問題に対処する必要があります。もちろん、漸近的に母集団cdfに収束しますが、有限サンプルについてはどうでしょうか?たとえば、100個の観測値があり、2つのパラメーターを使用してcdfをとして推定する場合、心配する必要はありません。ただし、パラメーターの数が100に達する場合、まったく妥当とは思えません。N(μ,σ2)N(μ,σ2)N(\mu, \sigma^2) 同様に、標準の多重線形回帰を使用する場合、誤差項の分布はとして推定されます。残差のブートストラップに切り替えることにした場合、エラー項の分布を処理するためだけに約 n個のパラメーターが使用されることに気づかなければなりません。N(0,σ2)N(0,σ2)N(0, \sigma^2)nnn この問題に明示的に対処しているいくつかの情報源を教えてもらえますか、間違っていると思われる場合はなぜ問題ではないのか教えてください。

7
短い時系列はモデリングする価値がありますか?
ここにいくつかのコンテキストがあります。2つの環境変数(温度、栄養素レベル)が11年間の応答変数の平均値にどのように影響するかを調べることに興味があります。毎年、10万を超える場所からのデータがあります。 目標は、11年間で、応答変数の平均値が環境変数の変化に応答したかどうかを判断することです(たとえば、気温が上がる+栄養素が増える=応答が大きくなる)。 残念なことに、応答は平均値であるため(平均値を見ずに、定期的な経年変動だけで信号が圧倒される)、回帰は2つの説明変数を持つ11データポイント(1年に1平均値)になります。私にとって、線形の正の回帰でさえ、データセットが非常に小さいことを考えると、意味があると考えるのは難しいでしょう(関係が非常に強い場合を除き、名目上の40ポイント/変数さえ満たしません)。 私はこの仮定をする権利がありますか?誰かが私が見逃しているかもしれない他の考え/視点を提供できますか? PS:いくつかの警告:追加の年を待たずに、より多くのデータを取得する方法はありません。したがって、利用可能なデータは、私たちが本当に取り組まなければならないものです。

4
小さなサンプルのグラフ化
タスクを完了するために、14回の個別の小さなデータセットがあります。しかし、データをグラフ化するために使用する適切なグラフを見つけることが困難です。サンプルが大きかった場合、ボックスプロットまたはヒストグラムを使用しますが、サンプルが非常に小さいときにこの場合に使用するのが適切かどうかはわかりません。 更新:時間は5.2、3.9、5.6、4.2、3.8、4.1、6.0、5.6、4.4、4.5、4.9、4.5、4.9、4.2です

1
ハルトン系列対ソボル系列?
前の質問の回答から、均一なサンプル空間をほぼ均等にカバーする一連のベクトルを作成するために、ハルトンシーケンスに向けられました。しかし、ウィキペディアのページでは、特に上位の素数はシリーズの早い段階で非常に相関していることが多いと述べています。これは、サンプルサイズが比較的短い高素数のペアの場合に当てはまるようです。変数が相関していない場合でも、サンプル空間は均等にサンプリングされず、空間全体に高いサンプル密度の対角バンドがあります。 。 私は長さ6以上のベクトルを使用しているため、これが問題であるいくつかの素数を使用する必要があります(上記の例ほど悪くはありませんが)、変数のいくつかのペアは不均一にサンプリングされますサンプル平面。Sobolのシーケンスを使用して同様のセットを生成することは、グラフを見るだけで、比較的少数のサンプルでも、より均等に分布する変数のペア間でサンプルを生成するように思えます。これははるかに便利に思えるので、Haltonシーケンスがより有益になるのはいつかと思いますか?それとも、Haltonシーケンスを計算する方が簡単ですか? 注:他の多次元低不一致シーケンスの議論も歓迎します。

2
ランダムフォレストは非常に小さなデータセットに適していますか?
24行の月次データで構成されるデータセットがあります。機能は、GDP、空港到着、月、およびその他いくつかです。従属変数は、人気のある観光地への訪問者の数です。ランダムフォレストはそのような問題に適していますか? データは非公開なので、サンプルを投稿できません。

1
ANOVA:グループごとのサンプル数が少ない多くのグループの正規性の仮定のテスト
次の状況を想定します。 小さいグループサイズ(たとえばn = 3)で多数(たとえば20)があります。均一な分布から値を生成すると、エラー分布が均一であっても残差がほぼ正規に見えることに気付きました。次のRコードは、この動作を示しています。 n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) 3つのグループのサンプルの残差を見ると、動作の理由は明らかです。 r1= x1− 平均(x 1 、x 2 、x 3 )= x 1 − x1+ x2+ x33= 23バツ1− x2− …

1
検定vs検定?
私は検定と検定の違いを正確に理解しようとしています。tttzzz 私の知る限りでは、両方のクラスのテストに対して、同じテスト統計を使用します。 b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} ここで、はサンプル統計、は参照(位置)定数(テストの詳細に依存)、およびは標準ですエラー。b^b^\hat{b}CCCseˆ(b^)se^(b^)\widehat{\operatorname{se}}(\hat{b})b^b^\hat{b} 次に、これら2つのクラスのテストの唯一の違いは、検定の場合、上記の検定統計量は分布に従う(一部のサンプルで決定された自由度の場合)のに対し、検定。同じ検定統計量は標準正規分布従います。(これは、またはの選択が、サンプルが十分に大きいかどうかによって左右されることを示唆しています。)ttttttdddzzzN(0,1)N(0,1)\mathcal{N}(0, 1)zzzttt これは正しいです?

2
ランダム化は小さなサンプルで信頼できますか?
ジェローム・コーンフィールドは書いている: フィッシャー革命の最もすばらしい成果の1つはランダム化のアイデアであり、他のいくつかのことに同意する統計学者は少なくともこれに同意しています。しかし、この合意にもかかわらず、臨床やその他の実験形式でのランダム化された割り当て手順の広範な使用にもかかわらず、その論理的なステータス、つまり、それが実行する正確な機能は依然として不明です。 コーンフィールド、ジェローム(1976)。「臨床試験への最近の方法論的貢献」。American Journal of Epidemiology 104(4):408–421。 このサイト全体とさまざまな文献で、私はランダム化の力について自信のある主張を一貫して見ています。「交絡変数の問題を排除する」などの強力な用語が一般的です。たとえば、こちらをご覧ください。ただし、実際的/倫理的な理由から、小さなサンプル(グループあたり3〜10サンプル)で何度も実験が行われます。これは、動物や細胞培養を使用した前臨床研究では非常に一般的であり、研究者は一般に、それらの結論を裏付けるp値を報告します。 これにより、交絡のバランスをとる上でのランダム化はどの程度優れているのかと思いました。このプロットでは、50と50の確率で2つの値をとることができる1つの交絡(たとえば、type1 / type2、male / female)で処理グループとコントロールグループを比較する状況をモデル化しました。さまざまな小さなサンプルサイズの研究における「%不均衡」(処理サンプルとコントロールサンプル間のtype1の#の差をサンプルサイズで割ったもの)の分布を示しています。赤い線と右側の軸はecdfを示します。 小さいサンプルサイズのランダム化におけるさまざまな程度のバランスの確率: このプロットから2つのことは明らかです(私がどこかで失敗した場合を除きます)。 1)サンプルサイズが大きくなると、正確にバランスの取れたサンプルが得られる確率は低くなります。 2)サンプルサイズが大きくなると、非常に不均衡なサンプルが得られる確率が低くなります。 3)両方のグループでn = 3の場合、完全に不均衡なグループのセット(コントロールのすべてのタイプ1、治療のすべてのタイプ2)を取得する可能性は3%です。N = 3は分子生物学実験で一般的です(例:PCRでmRNAを測定する、またはウエスタンブロットでタンパク質を測定する) さらにn = 3の場合を調べたところ、これらの条件下でp値の奇妙な動作が観察されました。左側は、type2サブグループのさまざまな平均の条件下でt検定を使用して計算するp値の全体的な分布を示しています。type1の平均は0で、両方のグループでsd = 1でした。右側のパネルは、0.05から.0001までの名目上の「有意なカットオフ」に対応する偽陽性率を示しています。 t検定(10000モンテカルロラン)で比較した場合の2つのサブグループと2番目のサブグループの異なる平均を使用したn = 3のp値の分布: 両方のグループのn = 4の結果は次のとおりです。 両方のグループでn = 5の場合: 両方のグループでn = 10の場合: 上のグラフからわかるように、標本サイズとサブグループ間の差の間に相互作用があり、帰無仮説のもとでさまざまなp値の分布が均一にならないように見えます。 それで、サンプルサイズが小さい適切にランダム化および制御された実験では、p値は信頼できないと結論付けることができますか? 最初のプロットのRコード require(gtools) #pdf("sim.pdf") par(mfrow=c(4,2)) for(n in c(3,4,5,6,7,8,9,10)){ #n<-3 p<-permutations(2, …

3
小さなn、大きなpの問題におけるツリーベースのアンサンブル法の制限?
ランダムフォレストなどのツリーベースのアンサンブルメソッド、およびその後の派生物(条件付きフォレストなど)はすべて、相対的な変数の重要度を特定するために、いわゆる「小さなn、大きなp」の問題で役立つとされています。実際、これは事実であるように見えますが、私の質問は、この能力をどこまでとることができるかということです。たとえば、30の観測値と100の変数を持つことができますか?そのようなアプローチの限界は何ですか?存在する適切な経験則はありますか?シミュレートされたデータセットまたは実際のデータセットのいずれかを使用して、実際の証拠(推測ではない)へのリンクに裏付けられた回答を希望し、受け入れます。後者についてはあまり知りませんでした(こことここ)、それであなたの考え/アドバイス/(トピックに関する)参照提案は大歓迎です!

1
サンプルサイズが非常に小さい回帰
4から5の説明変数を使用して回帰を実行したいのですが、観測値が15しかありません。これらの変数が正規分布しているとは想定できませんが、ノンパラメトリックまたは他の有効な回帰方法はありますか?

1
コルモゴロフスミルノフZ対マンホイットニーU小サンプルサイズn = 15?
サンプルサイズが15と小さいです。2つの独立変数、グループ1 n = 11、グループ2 n = 4の間で栄養素摂取量に違いがあるかどうかを確認したいと思います。データは正規分布していません。Mann Whitney UとKolmogorov-Smirnov Zのどちらのテストがより適切ですか?Andy FieldのSPSSを使用したDiscovering Statisticsは、KS Zは小さなサンプルサイズに使用する必要があると述べています。 Kolmogorov-Smirnov Z:第5章では、サンプルが正規分布母集団からのものであるかどうかをテストするKolmogorov–Smirnovテストに出会いました。これは別のテストです!実際、2つのグループが同じ母集団から引き出されているかどうかをテストします(その母集団が何であるかに関係なく)。つまり、これはマンホイットニー検定とほぼ同じことを意味します。ただし、このテストは、サンプルサイズがグループあたり約25未満の場合、マンホイットニー検定よりも優れたパワーを持つ傾向があるため、そうである場合は選択する価値があります。 また、p値とともに摂取量を報告する場合、データはノンパラメトリックなので、平均値と標準偏差または中央値とIQRを使用する必要がありますか? 何かアドバイスをいただければ幸いです。

1
FDRを使用した適度な数のテスト(10〜20)での複数のテストの修正?
False Discovery Rate(Benjamini-Hochberg)は、通常、数百のテストを使用した遺伝子研究などの「ビッグデータ」で使用されます。しかし、それは少数のテストでも使用できますか?たとえば、2つのグループ(男性と女性)の結果を、たとえば10〜20の異なるアンケートで調べます。これらの場合、FDR手順は価値/意味/能力を失いますか?

2
正規母集団の小さなサンプルのサンプリング分布は正規ですか、それともt分布ですか?[閉まっている]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 5年前休業。 母集団が正規分布していることを知っていて、この母集団から小さなサンプルを取得する場合、サンプリング分布が正常であるか、または代わりにt分布に従うと主張する方が正しいですか? 小さなサンプルはt分布する傾向があることを理解していますが、これは、基になる人口分布が不明な場合にのみ適用されますか? ありがとう!

3
非常に小さいサンプルサイズの次元削減手法
私は21の社会経済的および態度のマクロレベルの変数を持っています(24歳から54歳の母親の就業していない割合、3歳から5歳の子供の保育園の割合など)。私はまた、集中的な保育を提供した祖父母の割合に関するデータも持っています。私が選択したほとんどの社会経済変数は、保育提供と高い相関があります(たとえば、パートタイムで雇用されている母親の割合と祖父母保育の提供の間には負の相関があります)。 理想的には、さまざまな国の類型を作成したいと思います。私の希望は、コンポーネントや要素が直感的に理解できるようなある種の次元削減手法を使用することです(たとえば、家族や性別に対する態度、労働市場構造、家族政策)。または、代わりに、21のマクロレベルの指標のうちどれが国全体の保育規定の変動性を最もよく説明するかを評価します。 私の主な問題は、ヨーロッパの国が12か国しかないことです。PCAと因子分析は、少数のケースで適切な手法ではないと思います。私は正しいですか?質的比較分析または多重対応分析の使用を試みるように言われましたが、私の理解では、後者の手法はバイナリ(またはカテゴリ)マクロレベルのインジケーターに適しています(マイニングはパーセンテージまたは連続変数です)。

1
小さなデータセットによる重回帰
私は、政府機関が意思決定活動をサポートするための新しいタイプの調査方法のプロジェクトケーススタディのデータセットを持っています。私の仕事は、見積もりの​​目的で、将来のプロジェクトの過去の経験に基づいた見積もり方法を開発することです。 私のデータセットは50ケースに制限されています。30以上の(潜在的な)予測変数と1つの応答変数(つまり、プロジェクトの完了に要した時間)を記録しています。 すべての予測変数が重要なわけではありません。段階的な選択手法を使用すると、予測変数の数が5〜10の変数範囲になると予想しています。PASW(SPSS)のようなツールの標準的なアプローチを使用して予測子セットを取得するのに苦労していますが。 私は、サンプルサイズと予測変数とケースの比率の経験則に関するすべての資料をよく知っています。私のジレンマは、50ケースをそのまま収集するのに10年近くかかるので、それはできる限り良いことです。 私の質問は、この小さなサンプルセットを最大限に活用するにはどうすればよいですか? それは小さなサンプルセットを扱うための良い参考資料ですか?p値の有意性の変化?段階的選択アプローチへの変更?センタリングやログなどの変換の使用? 任意のアドバイスをいただければ幸いです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.