タグ付けされた質問 「distributions」

分布は、確率または頻度の数学的記述です。


5
サンプリング分布を教えるための戦略
tl; drバージョン 入門的な学部レベルで(たとえばサンプル平均の)サンプリング分布を教えるためにどのような成功した戦略を採用していますか? 背景 9月に、David Moore によるThe Basic Practice of Statisticsを使用して、2年目の社会科学(主に政治学と社会学)の学生向けに統計の入門コースを教えます。私がこのコースを教えたのは5回目であり、私が一貫していた1つの問題は、学生がサンプリング分布の概念に本当に苦労したということです。それは推論の背景としてカバーされており、最初のしゃっくりの後、彼らが問題を抱えていないように見える確率の基本的な紹介に従っています(そして、基本的に、私は基本的なことを意味します-結局のところ、これらの学生の多くは、「数学」のあいまいなヒントでさえも避けようとしたため、特定のコースストリームに自己選択されています。おそらく60%が最低限の理解しか得られずにコースを去り、約25%が原則を理解するが他の概念との関係は理解せず、残りの15%は完全に理解すると思います。 主な問題 学生が抱えていると思われる問題は、アプリケーションにあります。正確な問題が何であるかを説明することは、彼らが単にそれを理解していないと言うこと以外は難しい。前学期に実施したアンケートと試験の回答から、難しさの一部は、2つの関連する類似した発音フレーズ(サンプリング分布とサンプル分布)の混同であると思うので、「サンプル分布」というフレーズは使用しませんもう、しかしこれは確かに、最初は混乱しますが、少しの努力で簡単に把握でき、とにかくサンプリング分布の概念の一般的な混乱を説明することはできません。 (私はそれがあるかもしれないことを認識し、私、私は以来、不快な可能性が行うことが妥当であることを無視して考えるしかし!そしてここでの問題であります私の教え一部の学生がそれと全体的な誰もが非常によくやっているようだ得るように見えるん...) 私が試したこと 私は、学部の学部管理者と議論し、コンピューターラボで必須のセッションを導入し、繰り返しデモを行うことが役立つと考えました(このコースを教える前に、コンピューティングは関係していませんでした)。これは一般的に教材全体を理解するのに役立つと思いますが、この特定のトピックに役立つとは思いません。 私が持っていた一つのアイデアは、いくつかの(例えばによって提唱位置だけですべてでそれを教えないようにするか、それを多くの重量を与えないことであるアンドリュー・ゲルマンを)。最も一般的な分母に教える気配があり、より重要なことは、サンプリングの分布だけでなく、重要な概念がどのように機能するかを本当に理解することから統計的応用についてもっと学びたいと強くてやる気のある学生を拒否するためです。 )。一方、中央値の学生は、たとえばp値を把握しているように見えるため、サンプリング分布を理解する必要はないかもしれません。 質問 サンプリング分布を教えるためにどのような戦略を採用していますか?私は(たとえば、利用可能な材料との議論がある知っているこことここと開き、この論文PDFファイルが)が、私は人々のためにどのような作品のいくつかの具体的な例を得ることができる場合、私はただ思ったんだけど(または私は仕事がなくても、どうなったと思います試さないでください!)。私の今の計画は、9月のコースを計画するとき、ゲルマンのアドバイスに従い、サンプリング分布を「強調しない」ことです。教えますが、これは一種のFYIのみのトピックであり、試験には表示されないことを生徒に保証します(おそらくボーナス質問として!?)。しかし、私は人々が使用している他のアプローチを聞くことに本当に興味があります。


3
ブートストラップ分布の平均を報告してみませんか?
パラメータをブートストラップして標準エラーを取得すると、パラメータの分布が得られます。取得しようとしているパラメーターの結果または推定値として、その分布の平均を使用しないのはなぜですか?分布は実際の分布に近似すべきではありませんか?したがって、「実際の」値の適切な推定値を取得できますか?それでも、サンプルから取得した元のパラメーターを報告します。何故ですか? ありがとう

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

5
なぜ正規分布に従う非常に多くの自然現象があるのか​​についての説明はありますか?
これは魅力的なトピックだと思いますが、完全には理解していません。非常に多くの自然現象が正規分布を持つように物理学の法則はどのようになっていますか?それらが均一に分布していると、より直感的に見えるでしょう。 これを理解するのは私にとって非常に難しく、いくつかの情報が欠けていると感じています。誰かが良い説明で私を助けたり、本/ビデオ/記事にリンクできますか?

4
グラフィカルモデルのグラフ理論はどこにありますか?
グラフィカルモデルの紹介では、それらを「...グラフ理論と確率理論の融合」と説明しています。 確率理論の部分はわかりますが、グラフ理論が正確に当てはまる場所を理解するのは困難です。グラフ理論からの洞察は、不確実性の下での確率分布と意思決定の理解を深めるのに役立ちましたか? PGMを「ツリー」、「二部」、「無向」などに分類するなど、PGMでのグラフ理論用語の明白な使用を超えて、具体的な例を探しています。

3
ポアソン分布は正規分布とどのように異なりますか?
次のように、ポアソン分布を持つベクトルを生成しました。 x = rpois(1000,10) を使用してヒストグラムを作成するhist(x)と、分布はおなじみのベル型の正規分布のように見えます。ただし、Kolmogorov-Smirnoffのテストでks.test(x, 'pnorm',10,3)は、p値が非常に小さいため、分布は正規分布とは大きく異なります。 だから私の質問は次のとおりです。ヒストグラムが正規分布に非常に似ている場合、ポアソン分布は正規分布とどのように異なりますか?

6
シャピロウィルクテストの解釈
私は統計が初めてなので、あなたの助けが必要です。 次のような小さなサンプルがあります。 H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Rを使用してShapiro-Wilkテストを実行しました。 shapiro.test(precisionH4U$H4U) そして、私は次の結果を得ました: W = 0.9502, p-value = 0.6921 ここで、p値よりも0.05の有意水準がalpha(0.6921> 0.05)よりも大きいと仮定すると、正規分布に関する帰無仮説を拒否できませんが、サンプルに正規分布があると言えますか? ありがとう!

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
分布の不均一性をどのように測定しますか?
私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別(および場合によってはその程度を測定)できるようにしたいと思います。 私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。 a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%] b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%] c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%] cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか(標準偏差がゼロに近い?)のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。 …

7
過去のコインフリップの結果が後続のコインフリップに関する信念に影響を与える統計的誤acyの名前は何ですか?
私たちが知っているように、尾を振るのと同じ確率で頭を着陸させるコインをフリップした場合、コインを何度も裏返すと、半分の時間が頭を獲得し、半分の時間が尾を獲得します。 友人とこれを議論するとき、彼らはあなたがコインを1000回ひっくり返して、最初に100回頭に着いたと言ったら、尾を着陸させる機会が増えたと言いました(論理が偏っていない場合、その後、1000回フリップした時点で、約500のヘッドと500のテールが得られるため、テールが発生する可能性が高くなります。 過去の結果は将来の結果に影響を与えないため、誤解であることを知っています。その特定の誤acyの名前はありますか?また、なぜこれが間違っているのかについてのより良い説明はありますか?

1
切り捨てられた分布の最尤推定量
検討NNNの独立した試料SSSランダム変数から得られたXXX(例えばA切り捨て分布に従うと仮定される正規分布を切り捨て既知の(有限の)最小値と最大値の)およびBが、未知パラメータのμ及びσ 2。場合Xは非切り捨て分布に従って、最尤推定量は、μ及びσ 2のためのμ及びσ 2からSは試料の平均であろうμaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i及び試料分散 σ 2=1σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2。しかし、切り捨て分布のために、このように定義されたサンプル分散はで囲まれている(b−a)2(b−a)2(b-a)^2、それは必ずしも一致推定量ではないのでための:σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2、それに対して確率で収束することができませんσ2σ2\sigma^2としてNNN無限大になります。そのようですので、 μ及び σ 2は、の最尤推定量ではありませんμμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muそして、切り捨て配布するため。もちろん、これは以来、予想されるμとσ 2つの切断正規分布のパラメータは、その平均と分散ではありません。σ2σ2\sigma^2μμ\muσ2σ2\sigma^2 それでは、既知の最小値と最大値の切り捨てられた分布のおよびσパラメーターの最尤推定量は何ですか?μμ\muσσ\sigma

3
ガウス比分布:およびの基礎となるデリバティブ
平均と、分散と 2つの独立した正規分布とます。XXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y それらの比率の分布に興味があります。どちらやので、ゼロの平均値を有し、Zはコーシーとして配布されていません。Z=X/YZ=X/YZ=X/YXXXYYYZZZ ZのCDFを見つけてZZZから、μxμx\mu_x、μyμy\mu_y、σ2xσx2\sigma^2_xおよび\ sigma ^ 2_yに関するCDFの導関数を取得する必要がありますσ2yσy2\sigma^2_y。 これらがすでに計算されている論文を知っている人はいますか?または、これを自分で行う方法は? 1969年の論文でCDFの式を見つけましたが、これらの派生物を取得することは間違いなく大きな苦痛です。誰かがすでにそれを行っているか、簡単に行う方法を知っているのでしょうか?私は主にこれらのデリバティブの兆候を知る必要があります。 このペーパーには、YYYがほとんど正の場合の分析的に単純な近似も含まれています。私はその制限を持つことはできません。ただし、パラメータ範囲外であっても、近似値は真の導関数と同じ符号を持つ可能性がありますか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.