統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
経験的優先順位の問題は何ですか?
文献では、データ自体に依存する事前確率(たとえば、Zellners g-prior)を選択することは、理論的な観点から批判される可能性があるという発言に時々足を踏み入れます。事前確率がデータから独立して選択されていない場合、問題は正確にどこにありますか?

1
Hartigansのディップテストの解釈
経験的に得たいくつかの分布の双峰性の強度を定量化する方法を見つけたいと思います。私が読んだことから、二峰性を定量化する方法についてはまだ議論があります。私は、Rで唯一利用できると思われるHartigansのディップテストを使用することを選択しました(元の論文:http : //www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf)。Hartigansのディップテストは、次のように定義されます。「ディップテストは、経験的分布関数とその最大差を最小化する単峰性分布関数との間のすべてのサンプルポイントでの最大差によって、サンプルのマルチモダリティを測定します」。 この統計を使用する前にどのように解釈すべきかを完全に理解したいと思います。分布がマルチモーダルの場合、ディップテストが増加することを期待していました(「ユニモーダル分布との最大差」として定義されているため)。しかし、マルチモーダル分布に関するウィキペディアのページで、「0.05未満の値は有意な二峰性を示し、0.05を超え0.10未満の値は限界的有意性のある二峰性を示唆している」と読むことができます。。そのような声明はこの論文から来ています(図2)。この論文によると、分布がバイモーダルの場合、ディップテストインデックスは0に近くなります。それは私を混乱させます。 Hartigansのディップテストを正しく解釈するために、いくつかの分布を作成し(元のコードはこちらから)、exp(mu2)の値を増やしました(これから「Bimodularityの強度」と呼ばれます-編集:「Intensity」と呼ぶ必要があります)二峰性の」)二峰性を取得します。最初のグラフでは、分布の例を見ることができます。次に、これらの異なるシミュレートされた分布に関連付けられたdiptestインデックス(2番目のグラフ)とp値(3番目のグラフ)(パッケージdiptest)を推定しました。使用されるRコードは、私の投稿の最後にあります。 ここで示すのは、分布が二峰性の場合、ディップテストインデックスが高く、P値が低いことです。これは、インターネットで読むことができるものとは反対です。 私は統計学の専門家ではないので、ハルティガンの論文をほとんど理解していませんでした。Hartigansのディップテストを解釈する正しい方法についてのコメントを取得したいと思います。どこか間違ってる? 皆さん、ありがとうございました。よろしく、 TA シミュレートされた分布の例: Hartiganのディップテストインデックスが関連付けられています。 Hartiganのディップテストp.value関連: library(diptest) library(ggplot2) # CONSTANT PARAMETERS sig1 <- log(3) sig2 <- log(3) cpct <- 0.5 N=1000 #CREATING BIMOD DISTRIBUTION bimodalDistFunc <- function (n,cpct, mu1, mu2, sig1, sig2) { y0 <- rlnorm(n,mean=mu1, sd = sig1) y1 <- rlnorm(n,mean=mu2, sd = …
18 r  distributions 

1
なげなわ、リッジ、またはエラスティックネットソリューションのパスが単調になる条件の明確なセットはありますか?
このなげなわプロット(glmnet)の結論は、単調ではないなげなわ推定器の解の経路を示しています。つまり、係数の一部は、縮小する前に絶対値が増加します。 私は、データセットのいくつかの種類にこれらのモデルを適用し、決してこの動作を見て「野生では、」今日は、彼らがいたことを想定していたまできましたいつも単調。 ソリューションパスが単調であることが保証される条件の明確なセットはありますか?パスの方向が変わると、結果の解釈に影響しますか?


1
LOOCV式の証明
統計学習の入門ジェームスら。、リーブワンアウトクロスバリデーション(LOOCV)推定値はによって定義されるCV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i ここMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2。 証明がなければ、方程式(5.2)には、最小二乗回帰または多項式回帰(これが1つの変数のみの回帰に当てはまるかどうかは不明)、 "ここで、Yiがされている私は、元の最小二乗から番目のフィット値(適合しないこの手段が、方法によって何全く考え、それが使用を意味し、すべてのデータセット内のポイントを)および?Hiがにより定義されるてこ」でHiは=1CV(n)=1n∑i=1n(yi−y^i1−hi)2CV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2y^iy^i\hat{y}_iiiihihih_ihi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.hi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.} これをどのように証明しますか? 私の試み:一つは、その注目して開始することができ、Y I = β 0 + k個のΣ iは= 1 β K X K + 程度の一部多項式の項 ≥ 2 が、これとは別に(私は思い出す場合、ための、式hはiが唯一であると単純な線形回帰の場合...)、ここから先に進む方法がわかりません。y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2\hat{y}_i = \beta_0 + …

2
スムージング-使用する場合と使用しない場合
William Briggsのブログにはかなり古い記事があり、データを平滑化し、その平滑化されたデータを分析に落とし込む落とし穴を調べています。キー引数は次のとおりです。 狂気の瞬間に、スムーズな時系列データを実行し、それを他の分析への入力として使用すると、自分をだます確率が劇的に増加します!これは、スムージングがスプリアス信号を誘発するためです。これは、他の分析方法では本物に見える信号です。どんなに最終結果を確信していても! しかし、私はいつスムーズにすべきか、そうでないべきかについて包括的な議論を見つけるのに苦労しています。 その平滑化されたデータを他の分析への入力として使用する場合にのみ平滑化することに眉をひそめていますか、または平滑化が推奨されない他の状況がありますか?逆に、平滑化が推奨される状況はありますか?

5
極値理論を使用する理由
私は土木工学から来ています。GEV分布のような極値理論を使用して、最大風速のような特定のイベントの値、つまり風速の 98.5%が低い値を予測します。 私の質問は、なぜそのような極値分布を使用するのかということです。全体の分布を使用して、98.5%の確率の値を取得する方が簡単ではないでしょうか?

1
PCAバイプロット上の矢印の配置
JavaScriptで主成分分析(PCA)のバイプロットを実装したいと考えています。私の質問は、データ行列の特異ベクトル分解(SVD)の出力から矢印の座標をどのように決定するのですか?U,V,DU,V,DU,V,D Rが生成するバイプロットの例を次に示します。 biplot(prcomp(iris[,1:4])) 私はそれを見上げてみましたバイプロット上のWikipediaの記事が、それは非常に便利ではありません。または修正します。どっちがわからない。
18 pca  svd  biplot 

5
ベイジアン思考の背後にある哲学についての良い本は何ですか?
ベイジアン哲学、主観主義者と客観主義者の対比、ベイジアン統計の知識の状態としての確率の見解などについての良い本とは何ですか?たぶんサベージの本? 最初は、Berger(1986)はうまくいくと思っていましたが、私が探しているものではありません。そのような本を検索しても、私が探している結果には至りません。


3
明らかに2つあるにもかかわらず、k-meansのギャップ統計が1つのクラスターを示唆するのはなぜですか?
K-meansを使用してデータをクラスター化し、「最適な」クラスター番号を提案する方法を探していました。ギャップ統計は、適切なクラスター番号を見つける一般的な方法のようです。 何らかの理由で最適なクラスター番号として1を返しますが、データを見ると2つのクラスターがあることが明らかです。 これは私がRのギャップを呼び出す方法です: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 結果セット: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …

2
非対称ヌル分布の両側検定のP値
私の状況は次のとおりです:モンテカルロ研究を通じて、推定パラメーターの統計的有意性について2つの異なる検定の値を比較したい(nullは「効果なし-パラメーターはゼロ」、暗黙の代替は「パラメータはゼロではありません」)。テストAは標準の「平均値の等価性に関する独立した2標本t検定」であり、nullの下で等しい分散を持ちます。 ppp テストB自分で構築しました。ここで、使用されるヌル分布は非対称の一般的な離散分布です。しかし、Rohatgi&Saleh(2001、2nd ed、p。462)で次のコメントを見つけました。 「分布が対称でない場合、多くの著者は片側の値を2倍にすることを推奨していますが、両側のケースでは値は明確に定義されていませんpppppp。」 著者は、これについてさらに議論することも、片側値を2倍にする「多くの著者の提案」についてコメントすることもしません。(これにより、「どちらの側の値を2倍にしますか?そして、なぜこの側であり、もう一方ではありませんか?」という質問が作成されます。)pppppp この問題全体について、他のコメント、意見、結果を見つけることができませんでした。非対称分布では、パラメーターの値に関して帰無仮説の周りに対称な区間を考えることができますが、確率質量配分の2番目の通常の対称性はないことを理解しています。しかし、これが値を「十分に定義されていない」ものにする理由がわかりません 。個人的には、推定量の値に対して帰無仮説の周りに対称な区間を使用することにより、定義がありませんppp「ヌル分布が、この区間の境界に等しい値またはこの区間の外側の値を生成する確率はXXです」という問題。一方の側の確率質量が他方の側の確率質量と異なるという事実は、少なくとも私の目的では、問題を引き起こすようには見えません。しかし、Rohatgi&Salehが私が知らないことを知っていることよりもむしろありそうです。 だからこれは私の質問です:ヌル分布が対称ではない両側検定の場合、値はどのような意味で「十分に定義されていない」(または定義される可能性があります)か?ppp おそらく重要な注意事項:私は漁師の精神でより多くの問題にアプローチします、私はネイマン・ピアソンの意味で厳格な決定ルールを取得しようとはしていません。推論を行うために他の情報と一緒に値の情報を使用するのは、テストのユーザーに任されています。ppp

1
多重比較文献における「依存」テストと「独立」テストの平易な言葉の意味は?
家族ごとのエラー率(FWER)と誤発見率(FDR)の両方の文献で、FWERまたはFDRを制御する特定の方法は、依存テストまたは独立テストに適していると言われています。たとえば、1979年の論文「A Simple Sequentially Rejective Multiple Test Procedure」では、ホルムはステップアップシダック法とステップアップボンフェローニ制御法を対比するために次のように書いています。 テスト統計が独立している場合、同じ計算上の単純さが得られます。 BenjaminiとHochbergによる「偽発見率の制御」(1995)で、著者は次のように書いています。 定理1のための独立した検定統計量及び偽ヌル仮説の任意の構成のために、上記の手順コントロールFDRにおいて。q∗q∗q^{*} その後、2001年に、ベンジャミニとイェクティエリは次のように書いています。 1.3。問題。実際にはFDRのアプローチを使用しようとすると、依存テスト統計はより頻繁に遭遇している独立したもの、その好例であること上記の複数のエンドポイントの例。 これらの著者は、扶養家族のどの特定の意味を使用していますか?テストが明確な言語の説明を伴う場合、テストを相互に依存または独立させるものの正式な定義に満足しています。 考えられるいくつかの異なる意味を考えることができますが、もしあれば、それらは次のようになるかもしれません: 「従属」とは、多変量検定(つまり、同じまたは類似の予測子を持つ多くの従属変数)を意味します。独立とは、単変量テスト(つまり、多くの独立変数、1つの従属変数)を意味します。 「依存」とは、ペアになった/一致した被験者に基づくテスト(ペアになったt検定、反復測定ANOVAなど)を意味します。「独立」とは、対応のない/独立したサンプル研究デザインを意味します。 「依存」とは、テストが拒否される確率が別のテストが拒否される確率と相関することを意味し、「正の依存」とは、この相関が正であることを意味します。「独立」とは、拒否確率が無相関であることを意味します。 参照 Benjamini、Y。およびHochberg、Y。(1995)。誤検出率の制御:複数のテストに対する実用的かつ強力なアプローチ。王立統計学会誌。シリーズB(方法論)、57(1):289–300。 Benjamini、Y。およびYekutieli、D。(2001)。依存関係にある複数のテストでの偽発見率の制御。統計学年報、29(4):1165–1188。 ホルム、S。(1979)。単純な連続的に拒絶する複数のテスト手順。Scandinavian Journal of Statistics、6(65-70):1979。

1
H0の下でブートストラップを使用して、2つの手段の違いのテストを実行します。グループ内またはプールされたサンプル内の置換
2つの独立したグループを持つデータがあるとします。 g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …

6
10代未満で10代の仮説検定を説明する方法は?
1年以上の間、私は1時間の「統計の味」クラスを提供してきました。子どもたちの異なるグループが来るたびに、私は彼らにクラスを与えます。 クラスのテーマは、コカコーラを飲むのが好きな10人の子供にコカコーラとペプシの2つの(マークのない)カップを与える実験を実行することです。子供たちは、味と香りに基づいて、どのカップにコカコーラ飲料が入っているかを検出するように求められます。 次に、子供たちが推測しているのかどうか、または(少なくとも少なくとも十分な)子供たちが違いを味わう能力を本当に持っているかどうかを判断する方法を説明する必要があります。10回の成功のうち10回で十分ですか?10のうち7はどうですか? このクラスを数十回(さまざまなバリエーションで)行った後でも、ほとんどのクラスがそれを取得する方法で概念を理解する方法がわからないと感じています。 仮説検定、帰無仮説、対立仮説、棄却域などの概念を、シンプルな(!)直感的な方法で説明する方法についてアイデアがあれば、その方法を知りたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.