タグ付けされた質問 「population」

母集団は、サンプルが抽出される単位のセット全体です。

12
95%信頼区間(CI)が95%の平均を含む可能性を意味しないのはなぜですか?
ここで関連するさまざまな質問を通じて、「95%信頼区間」と呼ばれる「95%」の部分は、サンプリングとCI計算の手順を何度も正確に複製するという事実に言及しているというコンセンサスがあるようです。 、こうして計算されたCIの95%に母平均が含まれます。また、この定義はそうではないというコンセンサスのようです単一の95%CIから、平均がCI内のどこかに落ちる可能性が95%あると結論付けることを許可します。ただし、95%の人口が人口の平均を含むと多くのCIを想像している限り、前者が後者を暗示していないことを理解していません(実際に計算されたCIが人口を含むかどうかに関して意味するかどうか)想像されるケースのベースレート(95%)を、実際のケースにCIが含まれる確率の推定値として使用することを強制しますか? 「実際に計算されたCIには母集団の平均が含まれているか含まれていないため、確率は1または0である」という行に沿って議論している記事を見ましたが、これは依存する確率の奇妙な定義を暗示しているようです未知の状態(つまり、友人が公正なコインを裏返し、結果を非表示にし、50%の可能性があると言ってはいけません)。 確かに私は間違っていますが、私のロジックがどこでおかしくなったのかわかりません...

25
自由に利用可能なデータサンプルの検索
私は、データセットを分析および解析して、サブグループの特性を知らずに母集団のサブグループを特定および分離する新しい方法に取り組んでいます。この方法は、人工データサンプル(つまり、母集団のサブセットを識別および分離するために特別に作成されたデータセット)で十分に機能しますが、ライブデータでテストしてみたいと思います。 私が探しているのは、自由に利用できる(つまり、非機密、非専有)データソースです。好ましくは、バイモーダルまたはマルチモーダル分布を含むもの、または明らかに従来の手段では簡単に分解できない複数のサブセットで構成されるものです。そのような情報はどこで入手できますか?

5
母集団分散の計算におけるNとN-1の違いは何ですか?
私はそこにある理由を取得していないNとN-1母分散を計算しながら。我々は、使用している場合N、我々は、使用している場合N-1? 拡大版はこちらをクリックしてください 人口が非常に大きい場合、NとN-1の間に違いはないが、最初にN-1がある理由はわかりません。 編集:と混同しないでくださいnとn-1推定で使用されています。 編集2:私は人口推定について話していません。

5
サンプルが母集団である場合の統計的推論
毎年、特定のテストを受ける候補者の数について報告する必要があると想像してください。たとえば、対象集団の特異性により、より広い集団で観測された成功率を推測するのはかなり難しいようです。したがって、これらのデータは母集団全体を表していると考えることができます。 テストの結果は、男性と女性の比率が異なることを本当に示していますか?標本全体ではなく母集団全体を考慮するため、観察された割合と理論上の割合を比較するテストは正しいものと思われますか?


3
最小/最大値のみがわかっているデータの統計的方法
正確な値が不明なデータを扱う統計のブランチはありますが、各個人について、値の上限または下限を知っていますか? 私の問題の主な原因は、統計用語で表現するのに苦労しているという事実にあると思われますが、例を挙げて説明するとわかりやすくなります。 ある時点でAのメンバーがBに「遷移」できるように、2つの連結された集団AAAとBBBがあるとしますAAABBBが、その逆は不可能です。遷移のタイミングは可変ですが、ランダムではありません。たとえば、AAAは「子孫のない個人」であり、BBB「少なくとも1人の子孫を持つ個人」です。この進行が起こる年齢に興味がありますが、断面データしかありません。任意の個人について、それらがAAAまたはに属しているかどうかを確認できますBBB。これらの個人の年齢も知っています。母集団Aの各個人についてAAA、移行時の年齢が現在の年齢よりも大きくなることを知っています。同様に、メンバーのBBB場合、移行時の年齢が現在の年齢よりも低いことを知っています。しかし、私は正確な値を知りません。 移行の時代と比較したい他の要因があるとしましょう。たとえば、私は個人の亜種や体の大きさが最初の子孫の年齢に影響するかどうかを知りたいです。私は間違いなくそれらの質問に役立ついくつかの有用な情報を持っています。平均して、の個人のうちAAA、高齢の個人は後の移行を持っています。しかし、特に若い個人にとっては、情報は不完全です。また、母集団についても同様ですBBB。 この種のデータを処理する確立された方法はありますか?適切な場所から始めるために、このような分析を実行するための完全な方法、必ずしもいくつかの検索用語または有用なリソースが必要なわけではありません! 警告:AAAからへの移行BBBは瞬間的であるという単純な仮定を立てています。また、ほとんどの人は、十分な長さの生活をしていると仮定して、ある時点でBBBに進むと想定しています。そして、縦断的なデータは非常に役立つことを理解していますが、この場合は利用できないと想定しています。 私が言ったように、これが重複している場合はおologiesび申し上げますが、私の問題の一部は、何を検索すべきかわからないことです。同じ理由で、必要に応じて他のタグを追加してください。 サンプルデータセット:Sspは、2つの亜種またはYのいずれかを示します。子孫は、子孫なし(A)または少なくとも1人の子孫(B)を示しますXXXYYYAAABBB age ssp offsp 21 Y A 20 Y B 26 X B 33 X B 33 X A 24 X B 34 Y B 22 Y B 10 Y B 20 Y A 44 X B 18 Y A 11 Y B …

3
サンプリングされた重複および一意の頻度から母集団サイズを推定する
ランダムなアイテムに関する情報を要求できるWebサービスがあります。リクエストごとに、各アイテムが返される可能性が等しくなります。 アイテムをリクエストし続け、重複の数と一意の数を記録できます。このデータを使用してアイテムの総数を推定するにはどうすればよいですか?


4
母集団の定量的特性は「パラメータ」ですか?
統計とパラメーターという用語の区別については比較的よく知っています。統計は、サンプルデータに関数を適用して得られた値として表示されます。ただし、パラメーターのほとんどの例は、パラメトリック分布の定義に関連しています。一般的な例は、正規分布をパラメーター化する平均と標準偏差、または線形回帰をパラメーター化する係数と誤差分散です。 ただし、人口分布のその他の多くの値はプロトタイプではありません(たとえば、最小、最大、重回帰のr平方、.25変位値、中央値、非ゼロ係数の予測子の数、歪度、数.3を超える相関行列の相関関係など)。 したがって、私の質問は次のとおりです。 母集団の定量的特性に「パラメータ」というラベルを付ける必要がありますか? はいの場合、なぜですか? いいえの場合、パラメータにラベル付けしない特性は何ですか?それらは何にラベル付けされるべきですか?なぜ? 混乱に関する詳細 推定量に関するウィキペディアの記事には、次のように記載されています。 「推定器」または「点推定」は、統計モデルの未知のパラメーターの値を推測するために使用される統計(つまり、データの関数)です。 しかし、未知の値を.25分位として定義し、その未知の推定量を開発できます。つまり、母集団のすべての量的特性が、平均とsdが正規分布のパラメーターであると同じようにパラメーターであるわけではありませんが、量的母集団特性を推定しようとするのは正当です。

1
GBMパッケージとGBMを使用したキャレット
私はを使用してモデルのチューニングを行ってきましたがcaret、gbmパッケージを使用してモデルを再実行しています。caretパッケージが使用gbmし、出力が同じである必要があることは私の理解です。ただし、を使用した簡単なテスト実行でdata(iris)は、評価指標としてRMSEとR ^ 2を使用したモデルで約5%の不一致が示されています。を使用して最適なモデルのパフォーマンスを見つけたいが、部分的な依存関係プロットを利用するためにcaret再実行しgbmます。再現性のために以下のコード。 私の質問は次のとおりです。 1)これらの2つのパッケージは同じであっても違いがあるのはなぜですか(確率的ですが、5%がやや大きな違いであることがわかります。特に、次のような素晴らしいデータセットを使用していない場合 iris、モデリングの) 。 2)両方のパッケージを使用する利点または欠点はありますか? 3)無関係:irisデータセットを使用した場合、最適な値interaction.depthは5ですが、読み取り値が最大値floor(sqrt(ncol(iris)))である2 を超えるはずです。これは厳密な経験則ですか、それとも非常に柔軟ですか。 library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) …

1
男性と女性のチェスプレーヤー-分布の末尾で予想される差異
2009年のこの論文の調査結果に興味があります。 (最高の)女性はなぜチェスが得意なのですか?知的領域における参加率と性差 このペーパーでは、最高の男性チェスプレーヤーが最高の女性プレーヤーよりもはるかに優れているように見える理由を説明しようとしています(女性は世界最高の1000プレーヤーのわずか2%を占めています)。具体的には、最高の男性と最高の女性のチェスプレーヤーの大きな不一致は、2つの事実によって完全に説明されていると主張しています。 女性のチェスプレーヤーの15倍以上の男性がいます この比率は、完全に統計的な理由から、分布の極端な部分で悪化すると予想されます。論文を引用するには: 2つのグループの平均(平均)と変動(sd)が同じ場合でも、最もパフォーマンスの高い個人は、より大きなグループから来る可能性が高くなります。2つのグループ間のサイズの差が大きいほど、2つのグループのトップパフォーマー間で予想される差は大きくなります。 そしてまた、 この調査は、男性と女性のチェスプレーヤーの最高のパフォーマンスの大きな不一致が、単純な統計的事実に大きく起因していることを示しています。 そのため、著者によると、チェスプレイヤーの6%だけが女性である場合、上位1000人のうち2%しか期待できないため、生物学的な違いや社会的バイアスに関する他の説明は必要ありません。 私の質問 分布の両端で人口規模のわずかな違いが悪化するという考えに頭を悩ますことはできません。特に、この反例の何が問題なのか: 12月のチェスプレーヤーのうち約1人が1月に生まれます。したがって、彼らはすべてのチェスプレイヤーのほんの一部を占めています。これらの統計的手法により、それらは最高レベルで特に過小評価されることが予想されます-1月に生まれるトッププレイヤーのうち30人に1人しかいないでしょう。しかし、もちろんこの同じロジックを毎月適用することもでき、最終的には不合理な結論に達します。 人口を2つのグループに分けると、スケールの両端で同じ比率のパフォーマーを期待するように思えます。 公開された論文の結果と矛盾しているので、私は尋ねなければならないと思います-私は何を間違っていますか?

2
年齢層別のグランドマスタータイトル資格の平均年齢のバイアス?
チェスプレーヤーがグランドマスタータイトルの資格を得ることができた最年少が1950年代から大幅に減少したことはかなり長い間知られており、現在15歳の誕生日の前にグランドマスターになったプレーヤーはほぼ30人です。しかし、チェススタック取引所には、「グランドマスターになる平均年齢はいくらですか?」という質問があります。。 誰かが答えを投稿し、その答えを彼(私は彼だと思います)がグランドマスターの6つのサブセットを見て、次の結果を見つけました。 1945年以降に生まれたプレイヤーの場合、平均は26歳をやや上回っています。 1970年以降に生まれたプレイヤーの場合、平均年齢は23歳をわずかに上回っています。 1975年以降に生まれたプレイヤーの場合、平均年齢は22歳をわずかに上回っています。 1980年以降に生まれたプレイヤーの平均年齢は21歳です。 1985年以降に生まれたプレイヤーの場合、平均年齢は20歳に過ぎません。 1990年以降に生まれたプレーヤーの場合、平均は18.5歳です。 (たとえば、最初のグループに1945年以降に生まれたすべてのグランドマスターが含まれている(次のグループのスーパーセットになっている)か、1945年から1970年の間に生まれたもののみ(年齢バンド)があるかは完全にはわかりません。私の質問は両方の場合に当てはまります。) 問題は、1990年以降に生まれたプレイヤーは、回答が投稿された時点(2015年7月)で26歳未満であったため、平均26歳の「GM年齢」を取得することは不可能であることです。 「古い」サブセットはそうではありませんが、25以上です。これは結果に歪みや偏りがありませんか?(これは選択バイアスの一種ですか?統計の背景がなく、いくつかの関連するウィキペディアのエントリを読むことは助けになりませんでした。)はいの場合、これをどのように(または)軽減する必要がありますか?「古い」グループでは、GMタイトル資格の平均の計算では、26歳より前にタイトルを獲得したプレーヤーのみを考慮すべきですか?

2
母集団全体のデータが利用できる場合、信頼区間を計算し、仮説をテストすることは理にかなっていますか?
母集団全体のデータが利用できる場合、信頼区間を計算し、仮説をテストすることは理にかなっていますか?私の意見では、パラメーターの真の値を正確に計算できるため、答えは「いいえ」です。しかし、それでは、前述の手法を使用できるようにする元の母集団からのデータの最大比率はどのくらいですか?

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
連続してボールを選択してマークすることにより、ボールの数を推定する
バッグにN個のボールがあるとします。最初のドローで、ボールにマークを付けてバッグに戻します。2回目の抽選で、マークされたボールを手に取ったら、バッグに戻します。ただし、マークの付いていないボールを拾った場合は、マークを付けてバッグに戻します。私はこれを何度も引き続けます。ドローの数とマークされた/マークされていないドローの履歴が与えられた場合、バッグ内の予想ボール数はいくつですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.