統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
Rを使用した次元削減のためのt-SNEとPCAの何が問題になっていますか?
336x256の浮動小数点数(336の細菌ゲノム(列)x 256の正規化されたテトラヌクレオチド頻度(行)の行列があります。たとえば、各列の合計は1です)。 主成分分析を使用して分析を実行すると、素晴らしい結果が得られます。最初にデータのkmeansクラスターを計算してから、PCAを実行し、2Dおよび3Dの初期kmeansクラスタリングに基づいてデータポイントを色付けします。 library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with 5 centers and iterations =10000 km <- kmeans(mydata,5,10000) # run principle component analysis pc<-prcomp(mydata) # plot dots plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16) # plot …
27 r  pca  tsne 


4
実験計画の落とし穴:死んだ実験の回避
私はこの引用に何度も出くわしました: 実験が終了した後に統計学者に相談することは、多くの場合、単に死後検査を行うように彼に求めることです。彼はおそらく実験が何で死んだかを言うことができます。- ロナルドフィッシャー(1938) 私には、それはおそらく少し誇張されているようです。優れたデザインなしで実験がどのように死ぬかを説明した唯一の例は、コントロールの欠如またはコントロールの悪さです。たとえば、肥料の散布を制御するが、散布に必要な環境を制御できない実験。多分それは私だけかもしれませんが、フィッシャーの設計原則に関するウィキペディアのセクションを一読するだけで、ほとんどの基盤がカバーされるようです。 統計学者として、データに関する実験関連の問題の設計をどのくらいの頻度で見ますか?フィッシャーが言及したこれらの少数の要因に常に関係しているのか、それとも統計的に訓練されていない科学者が注目すべき重大な落とし穴があるのか​​?


7
相関は関連付けと同等ですか?
私の統計学教授は、「相関」という言葉は変量間の線形関係に厳密に適用されるのに対し、「連合」という言葉はあらゆるタイプの関係に広く適用されると主張しています。言い換えれば、彼は「非線形相関」という用語は矛盾表現であると主張している。 「相関と依存関係」に関するウィキペディアの記事のこのセクションで作成できることから、ピアソン相関係数は2つの変量間の関係の「線形性」の程度を説明しています。これは、「相関」という用語が実際には線形関係にのみ適用されることを示唆しています。 一方、「非線形相関」をグーグルですばやく検索すると、この用語を使用する多くの公開論文が見つかります。 私の教授は正しいですか、それとも「相関関係」は単に「連合」の同義語ですか?

4
PCAまたはFAの最小サンプルサイズは、主な目標が数個のコンポーネントのみを推定することである場合ですか?
観測値と個の変数(次元)を含むデータセットがあり、通常は小さい()、は小さい()からおそらくはるかに大きい()。p n n = 12 − 16 p p = 4 − 10 p = 30 − 50nnnpppnnnn = 12 − 16n=12−16n=12-16pppp = 4 − 10p=4−10p = 4-10p = 30 − 50p=30−50p= 30-50 主成分分析(PCA)または因子分析(FA)を実行するには、がよりもはるかに大きい必要があることを覚えていますが、これは私のデータではそうではないようです。私の目的では、PC2を過ぎた主要コンポーネントにはほとんど興味がないことに注意してください。pnnnppp 質問: PCAを使用しても問題ない場合とそうでない場合の最小サンプルサイズの経験則は何ですか? またはあっても最初の数台のPCを使用しても大丈夫ですか?n &lt; pn=pn=pn=pn&lt;pn&lt;pn<p これに関する参照はありますか? あなたの主な目標がPC1とおそらくPC2を使用することであるかどうかは重要ですか? 単にグラフィカルに、または 次に、合成変数として回帰で使用されますか?

2
中央値間の差の95%信頼区間を作成する方法は?
私の問題:主要な結果の非常に右斜めの分布を持つ並行グループ無作為化試験。正規性を前提とせず、正規ベースの95%CIを使用します(1.96 X SEを使用) 中心傾向の尺度を中央値として表現するのは問題ありませんが、私の質問は、2つのグループ間の中央値の差の95%CIをどのように構築するかです。 最初に思い浮かぶのは、ブートストラップです(置換でリサンプリングし、2つのグループそれぞれの中央値を決定し、一方を他方から減算し、1000回繰り返し、バイアス補正済み95%CIを使用します)。これは正しいアプローチですか?他の提案はありますか?

3
p <.05での公開されたp値の分布の不連続の原因は何ですか?
最近の論文で、Masicampo and Lalande(ML)は、多くの異なる研究で発表された多数のp値を収集しました。彼らは、正準臨界レベル5%でp値のヒストグラムに奇妙なジャンプを観察しました。 Wasserman教授のブログで、このML現象についての素晴らしい議論があります。 http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ 彼のブログには、ヒストグラムがあります。 5%レベルは自然法則であり、自然法則ではないため、公開されたp値の経験的分布のこの動作の原因は何ですか? 選択バイアス、正準臨界レベルのすぐ上のp値の体系的な「調整」、または何?

2
ARIMAの値p、d、qは何ですか?
arimaR の関数では、どういうorder(1, 0, 12)意味ですか?割り当てることができる値どのようなものがありp、d、q、およびそれらの値を見つけるためのプロセスは何ですか?
27 r  time-series  arima 

5
PCAが分類器の結果を悪化させる原因は何ですか?
クロスバリデーションを行っている分類子と、機能の最適な組み合わせを見つけるために前方選択を行っている100個程度の機能があります。また、これをPCAで同じ実験を実行した場合と比較します。PCAでは、潜在的な特徴を取り、SVDを適用し、元の信号を新しい座標空間に変換し、前方選択プロセスで上位特徴を使用します。kkk 私の直感では、信号は元の機能よりも「有益」であるため、PCAは結果を改善します。PCAに対する私の素朴な理解は、私をトラブルに導きますか?PCAが特定の状況では結果を改善するが、他の状況では結果を悪化させる一般的な理由のいくつかを提案できますか?

3
最高の盗賊アルゴリズム?
最もよく知られているバンディットアルゴリズムは、このクラスのアルゴリズムを普及させた信頼限界(UCB)です。それ以来、より良いアルゴリズムがあると思います。現在の最良のアルゴリズムは何ですか(経験的性能または理論的限界のいずれかに関して)?このアルゴリズムはある意味で最適ですか?

1
モデルから項を削除した後の適切な残留自由度
この質問に関する議論、特にフランク・ハレルのコメントについて、縮小モデル(つまり、多くの説明変数がテストされ、棄却されたモデル)の分散の推定には、Yeの一般化された自由度を使用する必要があると考えています。ハレル教授は、これが最終モデル(多くの変数が拒否された)からのものよりも、元の「完全な」モデル(すべての変数を含む)の残留自由度にはるかに近いと指摘します。 質問1.縮約モデルからのすべての標準的な要約と統計に適切なアプローチを使用したい場合(ただし、一般化された自由度の完全な実装が不足している場合)、残差分散などの推定における完全なモデル? 質問2.上記が真実で、私がそれをやりたいなら、R設定と同じくらい簡単かもしれません finalModel$df.residual &lt;- fullModel$df.residual モデル適合の演習のある時点で、finalModelとfullModelがlm()または同様の関数で作成されました。その後、summary()やconfint()などの関数が目的のdf.residualで動作するように見えますが、誰かが明らかにfinalModelオブジェクトをいじったというエラーメッセージを返します。

2
マルチレベルモデルで、ランダム効果相関パラメーターを推定する場合と推定しない場合の実際的な意味は何ですか?
マルチレベルモデルで、ランダム効果相関パラメーターを推定する場合と推定しない場合の実際的および解釈関連の意味は何ですか?これを尋ねる実際的な理由は、Rのlmerフレームワークでは、パラメーター間の相関のモデルで推定が行われる場合、MCMC手法を介してp値を推定する実装された方法がないことです。 たとえば、この例を見ると(以下に引用する部分)、M2対M3の実際的な意味は何ですか。明らかに、あるケースではP5が推定されず、別のケースではP5が推定されます。 ご質問 実用的な理由(MCMC手法でp値を取得したいという願望)のため、P5が実質的にゼロでなくても、変量効果間の相関なしにモデルを近似したい場合があります。これを行い、MCMC手法を介してp値を推定する場合、結果は解釈可能ですか?(私は@Ben Bolkerが以前と言及している知っている「私はそうする衝動を理解するものの、MCMCで有意性検定を組み合わせること(信頼区間を得ることがよりサポート可能である)、統計的に、少し支離滅裂である」それはあなたがよく眠れるようになりますもしそうなら、夜のふりで信頼区間を言った。) P5を推定できない場合、それは0であると断定することと同じですか? P5が実際にゼロ以外の場合、P1-P4の推定値はどのように影響を受けますか? P5が実際にゼロ以外の場合、P1-P4の誤差の推定値はどのように影響を受けますか? P5が実際にゼロ以外の場合、モデルの解釈にP5が含まれていないのはどのような点ですか? @Mike Lawrenceの答えから借ります(これを自由に完全なモデル表記に置き換えるよりも知識が豊富な人は、合理的な忠実度でこれを行うことができるとは完全に確信していません): M2:( V1 ~ (1|V2) + V3 + (0+V3|V2)推定値P1-P4) M3:( V1 ~ (1+V3|V2) + V3推定P1-P5) 推定される可能性のあるパラメーター: P1:グローバルインターセプト P2:V2のランダム効果インターセプト(つまり、V2の各レベルに対して、そのレベルのインターセプトのグローバルインターセプトからの偏差) P3:V3の効果(勾配)の単一のグローバル推定 P4:V2の各レベル内のV3の効果(より具体的には、特定のレベル内のV3効果がV3のグローバル効果から逸脱する程度) V2の。 P5:V2のレベル全体のインターセプト偏差とV3偏差の相関 lmerを使用したRの付随コードに加えて、十分に大規模で幅広いシミュレーションから得られた回答は受け入れられます。

5
生物学、心理学、医学でlmerを使用した混合モデル分析のレポート例は?
一般的なコンセンサスはlmer()、古典的なANOVAの代わりにRを介して混合モデルを使用することであると思われるため(不均衡な設計、交差ランダム効果など、よく引用される理由により)、データで試してみたいと思います。ただし、スーパーバイザー(最終的にp値を使用した従来の分析を期待している)または後でレビューアーにこのアプローチを「販売」できるかどうか心配です。 混合モデルを使用したりlmer()、フィールド生物学、心理学、医学の反復測定や複数の被験者内および被験者間設計などの異なる設計に使用した、公開された記事の良い例をお勧めしますか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.