統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


6
科学者は正規分布確率密度関数の形状をどのように理解しましたか?
これはおそらくアマチュアの質問ですが、科学者がどのようにして正規分布の確率密度関数の形を思いついたのでしょうか?基本的には、正規分布データの確率関数がベル曲線ではなく二等辺三角形の形状を持っていると、そのような人にどのように証明するのでしょうか?すべての正規分布データは鐘の形をしていますか?実験で?または、いくつかの数学的派生によって? 結局のところ、実際に正規分布データを考慮しているのは何でしょうか?正規分布の確率パターンに従うデータ、または他の何か? 基本的に私の質問は、なぜ正規分布の確率密度関数が他のベル形ではなくベル形になるのかということです。また、科学者は、実験またはさまざまなデータ自体の性質を調べることによって、どの現実のシナリオで正規分布を適用できるかをどのように理解しましたか? したがって、このリンクは正規分布曲線の関数形式の導出を説明するのに非常に役立ち、「なぜ正規分布は他のように見えないのですか?」という質問に答えることがわかりました。少なくとも私にとっては、本当に驚くべき推論です。

1
Metropolis Hastings、Gibbs、Importance、およびRejectionサンプリングの違いは何ですか?
私はMCMCの方法を学ぼうとしており、Metropolis Hastings、Gibbs、Importance、およびRejectionのサンプリングに出会いました。これらの違いの一部は明らかです。つまり、完全な条件式がある場合にGibbsがMetropolis Hastingsの特殊なケースであるのに対し、その他はGibbsサンプラー内でMHを使用する場合など、それほど明白ではありません。これらのそれぞれの違いの大部分を見る簡単な方法は?ありがとう!

1
ネストされた相互検証が本当に必要なのはいつで、実際に違いが出るのでしょうか
クロス検証を使用してモデルの選択(ハイパーパラメーター調整など)を行い、最適なモデルのパフォーマンスを評価する場合、ネストされたクロス検証を使用する必要があります。外側のループはモデルのパフォーマンスを評価することであり、内側のループは最適なモデルを選択することです。モデルは各外部トレーニングセットで選択され(内部CVループを使用)、そのパフォーマンスは対応する外部テストセットで測定されます。 これは多くのスレッドで議論され、説明されています(たとえば、ここでクロス検証後の完全なデータセットを使用したトレーニング?など、@ DikranMarsupialによる回答を参照)。モデル選択とパフォーマンス推定の両方に対して単純な(ネストされていない)交差検証のみを行うと、正にバイアスされたパフォーマンス推定が得られます。@DikranMarsupialには、まさにこのトピックに関する2010年の論文(モデル選択の過剰適合とパフォーマンス評価における後続の選択バイアス)があり、セクション4.3と呼ばれています。-そして、紙は答えがはいであることを示しています。 そうは言っても、私は現在、多変量多重リッジ回帰に取り組んでおり、単純なCVとネストされたCVの間に違いは見られません。私の質問は次のとおりです。単純なCVはどのような条件下で、ネストされたCVで回避される顕著なバイアスを生み出すのでしょうか。ネストされたCVは実際にはいつ重要であり、それほど重要ではありませんか?経験則はありますか? 以下は、実際のデータセットを使用した図です。横軸は、リッジ回帰のです。縦軸は交差検定エラーです。青い線は、単純な(ネストされていない)交差検証に対応しており、50のランダムな90:10トレーニング/テストの分割があります。赤い線は、50のランダムな90:10トレーニング/テストスプリットのネストされたクロス検証に対応します。は、内部クロス検証ループ(50のランダム90:10スプリット)で選択されます。線は50以上のランダムな分割を意味し、網掛けは標準偏差を示します。ログ(λ )log⁡(λ)\log(\lambda)λλ\lambda± 1±1\pm1 赤い線は平坦です。内側のループでが選択されており、外側のループのパフォーマンスがの全範囲にわたって測定されていないためです。単純な相互検証にバイアスがかかっている場合、青い曲線の最小値は赤い線より下になります。しかし、そうではありません。λλ\lambdaλλ\lambda 更新 実際はそうです:-)それは、違いが小さいということです。ズームインは次のとおりです。 ここで誤解を招く可能性のあることの1つは、エラーバー(網掛け)が巨大であるが、ネストされたCVと同じCVが同じトレーニング/テスト分割で実行できることです。コメントの@Dikranが示唆するように、それらの比較はペアになっています。ネストされたCVエラーと単純なCVエラーの違いを見てみましょう(私の青い曲線の最小値に対応するについて)。繰り返しますが、各フォールドで、これら2つのエラーは同じテストセットで計算されます。トレーニング/テストの分割でこの差をプロットすると、次の結果が得られます。λ = 0.002λ=0.002\lambda=0.002505050 ゼロは、内側のCVループもを生成する分割に対応します(ほぼ半分の時間で発生します)。平均して、差は正になる傾向があります。つまり、ネストされたCVのエラーはわずかに高くなります。言い換えれば、単純なCVは非常に小さいが楽観的なバイアスを示しています。λ = 0.002λ=0.002\lambda=0.002 (手順全体を数回実行しましたが、毎回発生します。) 私の質問は、どのような条件下でこのバイアスが非常に小さいと期待できるのか、どのような条件下ではいけないのかということです。

6
共分散推定量の分母がn-1ではなくn-2にならないのはなぜですか?
(不偏)分散推定量の分母はであり、観測値があり、推定されるパラメーターは1つだけです。n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} 同様に、2つのパラメーターを推定するときに共分散の分母をにしないのはなぜでしょうか?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

2
2クラス分類器としてのロジスティック回帰とLDA
私は、線形判別分析とロジスティック回帰の統計的な違いに頭を悩ませようとしています。2クラス分類問題の場合、LDAは交差する線形境界を作成する2つの標準密度関数(各クラスに1つ)を予測しますが、ロジスティック回帰は2つのクラス間の対数奇数関数のみを予測することを理解しています境界を作成しますが、各クラスの密度関数を想定していませんか?

2
エフェクトパッケージを通じてlmerオブジェクトの信頼区間はどの程度信頼できますか?
Effectspackageは、packageを通じて取得した線形混合効果モデルの結果をプロットするための非常に高速で便利な方法を提供しlme4ます。このeffect関数は信頼区間(CI)を非常に迅速に計算しますが、これらの信頼区間はどの程度信頼できますか? 例えば: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), fm1)) ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) + geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"], ymax = effs[effs$batch == …

2
相互検証のどの方法が最適であるかをどのように知ることができますか?
私は自分の状況に最適な相互検証方法を見つけようとしています。 次のデータは、問題を処理するための単なる例です(Rで)が、実際のXデータ(xmat)は相互に関連付けられ、y変数(ymat)でさまざまな程度に関連付けられています。Rコードを提供しましたが、私の質問はRについてではなく、メソッドについてです。XmatX変数V1〜V100がymat含まれ、単一のy変数が含まれます。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") のyすべての変数に基づいて予測するためのモデルを構築したいと思いますxmat。したがって、線形回帰モデルになりy ~ V1 + …

10
生存時間が指数関数的に分布していると仮定されるのはなぜですか?
私はUCLA IDREに関するこの投稿から生存分析を学んでおり、セクション1.2.1でトリップしました。チュートリアルには次のように書かれています: ...生存時間が指数関数的に分布していることがわかっている場合、生存時間を観察する確率... 生存時間が指数関数的に分布していると仮定されるのはなぜですか?私には非常に不自然に思えます。 なぜ普通に配布されないのですか?特定の条件(日数など)でクリーチャーの寿命を調査していると仮定します。ある分散(100日と分散3日)を中心にすべきでしょうか。 時間を厳密に正にしたい場合は、平均が高く分散が非常に小さい正規分布を作成してください(負の数を取得する機会はほとんどありません)。

5
p値は本質的に役に立たず、使用するには危険ですか?
NY Timesのこの記事「The Odds、Continually Updated」たまたま私の注目を集めました。簡潔に言うと、 [ベイジアン統計]は、2013年に沿岸警備隊が行方不明の漁師ジョン・アルドリッジを見つけるために使用した検索など、複雑な問題へのアプローチに特に有用であることが証明されています(これまでのところ、マレーシア航空370便の捜索ではありません)。 ......、ベイジアン統計は、物理学からがん研究、生態学から心理学まで、あらゆるものを波打っています... この記事では、次のような頻度主義者のp値に関する批判もあります。 p値が5パーセント未満の場合、結果は通常「統計的に有意」とみなされます。しかし、この伝統には危険があります、とコロンビアの統計学教授アンドリュー・ゲルマンは言いました。科学者が常に正しく計算を行っていたとしても、そうではないと彼は主張します。p値が5%のすべてを受け入れるということは、20の「統計的に有意な」結果の1つがランダムノイズに他ならないことを意味します。 上記のほかに、おそらくp値を批判する最も有名な論文はこれです-NatureのRegina Nuzzoによる「科学的方法:統計誤差」では、再現性の懸念など、 p値ハッキングなど 統計的妥当性の「ゴールドスタンダード」であるP値は、多くの科学者が想定しているほど信頼性が高くありません。......おそらく、最悪の誤theは、ペンシルベニア大学の心理学者Uri Simonsohnと彼の同僚がPハッキングという用語を広めた一種の自己欺ceptionです。データのred、スヌーピング、釣り、重要度追跡、ダブルディップとしても知られています。「P-hacking」はサイモンソン氏は言います。「意図した結果が得られるまで、複数のことを試みています」。......「その発見はPハッキングによって得られたようです。著者は、全体のp値が.05未満になるように条件の1つを下げました」と「彼女はpハッカーであり、彼女は収集中のデータを常に監視しています。」 別のことは、プロットについてのコメント付きの、ここから続く興味深いプロットです: 効果がどれほど小さくても、p <.05のしきい値を渡すために、常にデータを収集するという大変な作業を行うことができます。調査している効果が存在しない限り、p値はデータ収集にどれだけの労力を費やしたかを測定するだけです。 上記のすべてについて、私の質問は次のとおりです。 2番目のブロック引用でのAndrew Gelmanの議論は正確に何を意味するのでしょうか?なぜ彼は5%のp値を「統計的に有意な結果の20分の1が注目に値するがランダムなノイズ」と解釈したのですか?私にとって、p値は1つの研究の推論に使用されるため、私は確信していません。彼のポイントは複数のテストに関連しているようです。 更新: Andrew Gelmanのこれについてのブログを確認してください:いいえ、私はそれを言わなかった!(@ Scortchi、@ whuberへのクレジット)。 p値についての批判と、モデルの重要性を評価するためのAIC、BIC、Mallowの(したがって変数)のような多くの情報基準があるため、変数選択にp値を使用しないでくださいそれらのモデル選択基準を使用する以外はすべて?CpCpC_p より信頼性の高い研究結果につながる可能性のある統計分析にp値を使用する実用的なガイダンスはありますか? 統計学者が主張するように、ベイジアンモデリングフレームワークは追求するより良い方法でしょうか?具体的には、ベイジアンアプローチは、データの問題の誤検出や操作を解決する可能性が高いでしょうか?事前のアプローチはベイジアンのアプローチでは非常に主観的であるため、ここでも納得できません。ベイジアンのアプローチが頻度主義者のp値よりも優れていることを示す実用的で有名な研究はありますか、少なくとも特定のケースではありますか? 更新:ベイジアンアプローチが頻度主義者のp値アプローチよりも信頼できる場合があるかどうかに特に興味があります。「信頼できる」とは、ベイジアンアプローチが望ましい結果を得るためにデータを操作する可能性が低いことを意味します。助言がありますか? アップデート6/9/2015 ニュースに気付いたばかりで、議論のためにここに置いておくといいと思いました。 心理学ジャーナルはP値を禁止 少なくとも1つのジャーナルで、物議を醸す統計テストが最終的に終わりました。今月初め、Basic and Applied Social Psychology(BASP)の編集者は、統計が低品質の研究をサポートするためにあまりにも頻繁に使用されたため、P値を含む論文を出版しないと発表しました。 Natureの P値についての最近の論文「気まぐれなP値は再現性のない結果を生成します」に加えて 2016年5月8日更新 3月に、米国統計協会(ASA)は統計的有意性とp値に関する声明を発表しました。「.... ASAの声明は、研究を「ポストp <0.05時代」に導くことを目的としています」 このステートメントには、p値の誤用に対処する6つの原則が含まれています。 P値は、データが指定された統計モデルとどの程度互換性がないかを示すことができます。 P値は、調査した仮説が真である確率、またはデータがランダムチャンスのみによって生成された確率を測定しません。 科学的結論とビジネスまたは政策決定は、p値が特定のしきい値を超えるかどうかだけに基づいてはなりません。 適切な推論には、完全なレポートと透明性が必要です。 p値または統計的有意性は、効果の大きさや結果の重要性を測定しません。 p値自体は、モデルまたは仮説に関する証拠の適切な尺度を提供しません。 詳細: …

1
異分散データに対する一元配置分散分析の代替
異なるサイズのサンプル(n_A = 15、n_B = 13、n_C = 12)を含む藻類バイオマスの3つのグループ(、B、C)からのデータがあり、これらのグループが同じ母集団からのものかどうかを比較したいと思います。BAAABBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 一元配置分散分析は間違いなく進むべき道ですが、私のデータに対して正規性テストを実施する際には、ヘテロスケダシティーが主な問題のようです。私の生データは、変換なしで、臨界値(F _ {\ rm crit} = 4.16)より非常に高い分散比(Fmax=19.1Fmax=19.1F_{\max} = 19.1)を生成したため、一元配置分散分析を実行できません。Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 また、データを正規化するための変換も試みました。さまざまな変換(対数、平方根、平方)の試行後でも、\ log_ {10}変換による変換後に生成された最低のF _ {\ max}は7.16であり、F _ {\ rm crit}と比較して依然として高かった。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} ここから誰がここからどこに行くべきかをアドバイスできますか?データで正規化する他の変換方法は考えられません。一元配置分散分析に代わるものはありますか? PS:私の生データは以下の通りです: A: 0.178 0.195 0.225 0.294 0.315 0.341 …

5
FDR制御に通常の方法を使用するための条件としての「正の依存関係」の意味
BenjaminiとHochbergは、False Discovery Rate(FDR)を制御するための最初の(そして今でも最も広く使用されていると思う)メソッドを開発しました。 それぞれ異なる比較のためのP値の束から始め、どの値が「ディスカバリー」と呼ばれるほど低いかを判断し、FDRを指定された値(たとえば10%)に制御します。通常の方法の仮定の1つは、比較のセットが独立しているか「正の依存関係」を持っていることですが、P値のセットを分析する文脈でそのフレーズが何を意味するか正確にはわかりません。

4
多項式モデルの近似から係数を解釈する方法は?
私が持っているいくつかのデータに適合する二次多項式を作成しようとしています。この適合をプロットするとしましょうggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 私は得る: したがって、2次近似は非常にうまく機能します。Rで計算します。 summary(lm(data$bar ~ poly(data$foo, 2))) そして私は得る: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 0.206 # poly(data$foo, …


3
仮説検定でのp値の解釈
私は最近、「ヌル仮説の有意性試験の無意味」という論文、ジェフ・ギル(1999)に出会いました。著者は、仮説検定とp値に関するいくつかの一般的な誤解を提起しました。 p値は技術的にはであり、論文で指摘されているように、一般にについては何も教えません。 「日常的な」仮説検定ではめったにないような、限界分布を知っている場合を除きます。小さなp値を取得し、「帰無仮説を拒否」すると、について何も言えないので、作成している確率論的ステートメントは正確に何ですか?P (H 0 | o b s e r v a t i o n)P (H 0 | o b s e r v a t i o n)P(o b s e r v a t i o n | H0)P(observat私on|H0)P({\rm observation}|H_{0})P(H0| o b s e r v …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.