統計とビッグデータ

2

データが非常に少ない非常に大きな正行列（65M x 3.4M）の特異値分解（SVD）を計算する最良の方法は何ですか？行列の0.1％未満はゼロではありません。次の方法が必要です。メモリに収まります（オンラインメソッドが存在することを知っています）妥当な時間で計算されます：3,4日精度は十分に向上しますが、精度は私の主な関心事ではなく、投入するリソースの量を制御できるようにしたいと考えています。それを実装するHaskell、Python、C＃などのライブラリがあれば素晴らしいでしょう。私はmathlabやRを使用していませんが、必要に応じてRを使用できます。

26 svd numerics

2

判別分析の3つのバージョン：違いとその使用方法

誰もが違いを説明し、これらの3つの分析を使用する方法を特定の例を与えることができますか？ LDA-線形判別分析 FDA-フィッシャーの判別分析 QDA-二次判別分析私はどこでも検索しましたが、実際の値のない実際の例を見つけることはできませんでした。これらの分析がどのように使用され、計算されるかを確認できませんでした。私が理解しようとしたとき、どの方程式/式がLDAに属し、どの方程式/ FDAに属するかを区別するのは困難でした。たとえば、そのようなデータがあるとしましょう： x1 x2 class 1 2 a 1 3 a 2 3 a 3 3 a 1 0 b 2 1 b 2 2 b そして、いくつかのテストデータを考えてみましょう： x1 x2 2 4 3 5 3 6 では、これら3つのアプローチすべてでこのようなデータを使用する方法は？背後ですべてを計算する数学パッケージを使用するのではなく、すべてを手動で計算する方法を確認することをお勧めします。：PS私はこのチュートリアル見つけhttp://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDAを。LDAの使用方法を示します。

26 classification discriminant-analysis

2

相互作用項が含まれる場合にのみ問題となる共線性診断

米国の郡で回帰分析を実行し、「独立」変数の共線性をチェックしています。Belsley、Kuh、およびWelschの回帰診断では、Condition IndexおよびVariance Decomposition Proportionsを調べることを推奨しています。 library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 0.000 0.000 0.002 0.053 0.011 …

26 r multicollinearity vif variance-decomposition

2

「ダブル投げ縄」を行うか、投げ縄を2回実行する利点

元々の変数セット（S1など）で投げ縄を実行し、S2という名前のスパースセットを取得してから、セットS2で再度投げ縄を実行してセットS3を取得する、投げ縄を2回使用する方法（ダブル投げ縄など）を聞いたことがあります。これに方法論的な用語はありますか？また、投げ縄を2回行う利点は何ですか？

26 regression lasso regularization shrinkage lars

2

Rの重回帰の変数の変換

で重回帰を実行しようとしていますR。ただし、私の従属変数には次のプロットがあります。すべての変数を含む散布図行列です（WAR従属変数です）。この変数（およびおそらく独立変数も）で変換を実行する必要があることは知っていますが、必要な正確な変換についてはわかりません。誰かが私を正しい方向に向けることができますか？独立変数と従属変数の関係に関する追加情報を提供できればうれしいです。私の回帰からの診断グラフィックは次のように見えます。編集 Yeo-Johnson変換を使用して従属変数と独立変数を変換すると、診断プロットは次のようになります。ログリンクでGLMを使用する場合、診断グラフィックは次のとおりです。

26 r regression multiple-regression data-transformation

3

トピックモデルと単語の共起法

LDAのような人気のあるトピックモデルは通常、同じトピック（クラスター）に共起する傾向がある単語をクラスター化します。このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか？（PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。）

26 machine-learning text-mining natural-language topic-models

1

Mantelテストを非対称行列に拡張できますか？

マンテル検定は通常、対称距離/差分行列に適用されます。私が理解している限り、テストの前提は、差を定義するために使用される尺度が少なくとも半メトリックでなければならないということです（メトリックの標準要件を満たしますが、三角形の不等式は満たしません）。対称性の仮定を緩和することができますか（事前測定基準を与える）？この場合、完全行列を使用して置換テストを適用することはできますか？

26 statistical-significance assumptions distance

6

正弦波項をデータに適合させる

私はこの投稿を読みましたが、これを自分のデータに適用する方法がまだわからず、誰かが私を助けてくれることを願っています。次のデータがあります。 y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …

26 r regression fitting

2

ペナルティ付き線形回帰の幾何学的解釈

線形回帰は「すべての点に垂直に最も近い線」と考えることができることを知っています。しかし、列係数を「係数行列の列がまたがる空間への投影」として視覚化することで、それを見る別の方法があります。私の質問は、これら2つの解釈において、リッジ回帰やLASSOなどのペナルティ付き線形回帰を使用するとどうなりますか？最初の解釈の行はどうなりますか？そして、2番目の解釈の投影はどうなりますか？更新：コメントの@JohnSmithは、係数のスペースでペナルティが発生するという事実を持ち出しました。この空間にも解釈はありますか？

26 regression intuition geometry

5

さまざまな対象者に高度な統計を導入するための戦略

私は主に医学、社会科学、教育などの分野の非統計学者と仕事をしています。大学院生と相談したり、研究者の記事を手伝ったり、雑誌の記事をレビューしたりするときは、誰か（クライアント、著者、論文委員会、ジャーナル編集者）が比較的よく知られているテクニックを使用したいという問題がよくあります。不適切か、より良いがあまり知られていない方法が存在する場合。多くの場合、別の手法について説明しますが、「誰もが別の方法で行う」と言われます。他の人がこの種の困難にどのように対処するかに興味があります。追加 @MichaelChernickはいくつかのストーリーを共有できると提案したので、現在、私は以前の論文を複製し、それが役立つかどうかを確認するために1つの独立変数を追加している1人の人物と協力しています。前の論文は、率直に言ってひどいものです。依存データを独立したものとして扱います。それはとてつもなく過剰であり、他の問題もあります。しかし、彼（私のクライアント）は、論文として以前のバージョンを提出し、学位を取得しただけでなく、研究で広く称賛されました。多くの場合、変数を二分しないように人々を説得しようとしました。これは医学で非常に頻繁に起こります。私は辛抱強く、出生時体重を低および正常（通常2,500 g）に分割することは、2,499 gの赤ちゃんを1,400 gの赤ちゃんのように扱うことを意味することを指摘します。しかし、2,501グラムの赤ちゃんの扱いはまったく異なります。臨床医はこれがばかげていることに同意します。その後、そのように言う。委員会がクラスター分析を主張した大学院生のクライアントがずっと前にいました。学生は方法を理解せず、方法は有用な質問に答えませんでしたが、委員会はそれを望んでいたので、彼らはそれを得ました。統計グラフィックスの分野全体は、多くの人にとって「これはおじいちゃんがやった方法」で十分な分野です。次に、ボタンを押すだけのように見える人がいます。アンケート全体とファクター分析を行ったプレゼンテーション（私が手伝った誰かによるものではありません！）を覚えています。彼女が含めた変数の1つはID番号でした！おい

26 consulting

4

グリッド線と灰色の背景はチャートジャンクであり、例外ベースでのみ使用する必要がありますか？

ほとんどの当局は、プロット内の暗いグリッド線または他の顕著なグリッド線は、合理的な定義によって「チャートジャンク」であり、チャートの本文のメッセージから視聴者をそらすことに同意しているようです。そのため、その点について言及することはありません。同様に、視聴者への参照を作成するために淡いグリッド線が必要になる場合があることに同意することができます。この記事で指摘されているように、Tufteは時折グリッド線の必要性を主張しました。そして、あなたがそれらを使用する必要があるときに、淡い灰色の背景にそのようなグリッド線を白にするというggplot2のHadley Wickhamのアプローチに同意します。しかし、私が不確かなのは、そのようなグリッド線と灰色の背景がggplot2のようにデフォルトであるかどうかです。たとえば、灰色の背景に白いグリッド線を浮き彫りにする以外の理由はないようです-これは、どちらかが必要かどうかの質問をさらに頼みます。私は最近、ほとんどのグラフィックニーズにggplot2の使用を開始し、素晴らしいと思いますが、以前使用していたグラフィックに対する「ボックスなし、背景なし、グリッド線なし」アプローチに挑戦しました。gridlines=OFFそれらを追加する特別な理由がない限り、これが私のデフォルトであると考えていました。たとえば、基本的にこの記事で推奨されているアプローチなどです。もちろん、グリッド線と背景の陰影を避けるためにggplot2でテーマを定義するのは簡単ですが（実際、私たちの仕事でこれを行いました）、ggplot2のアプローチは非常に素晴らしく、一般的にそのデフォルトの美的選択は良いのでしょうか？何かが欠けています。だから-私はこの点に関する参考に感謝するでしょう。（例えば、Hadley Wickhamがggplot2のデフォルトを設定することで）よく考えられていて、正しい方向に向けられることに非常に寛容です。私が見つけた中で最高ののは、ggplot2 googleグループ上のリンクのカップルですが、クリーブランドによる最も参考になりそうな参照は、与えられたリンクでは利用できません。

26 data-visualization ggplot2

6

ロジスティック回帰のサンプルサイズは？

調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数（3つの連続変数と4つの名義変数）があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています（Agresti、2007）。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。私は正しいですか？そうでない場合は、独立変数の数を決定する方法を教えてください？

26 logistic sample-size assumptions power unbalanced-classes

1

線形回帰の係数標準誤差の解釈方法は？

Rで表示関数を使用するときに、回帰の係数標準誤差をどのように解釈するのか疑問に思っています。たとえば、次の出力では： lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 より高い標準誤差はより大きな意味を意味しますか？また、残差標準偏差については、値が大きいほど広がりが大きいことを意味しますが、Rの2乗は非常に近い適合を示します。これは矛盾ではありませんか？

26 r regression interpretation

1

標準誤差を標準偏差に変換しますか？

標準誤差を標準偏差に変換することは賢明ですか？もしそうなら、この式は適切ですか？ SE=SDN−−√SE=SDNSE = \frac{SD}{\sqrt{N}}

26 standard-deviation standard-error

2

対応のないt検定の代わりにウィルコクソンのランクサム検定を使用する場合

これは、フランク・ハレルがここに書いたことのフォローアップの質問です。私の経験では、t分布が正確であるために必要なサンプルサイズは、多くの場合、手元のサンプルサイズよりも大きくなります。ウィルコクソンの符号付きランク検定は、あなたが言ったように非常に効率的であり、堅牢であるため、ほとんどの場合、t検定よりもそれを好む私がそれを正しく理解している場合-一致しない2つのサンプルの位置を比較する場合、サンプルサイズが小さい場合、対応のないt検定よりもウィルコクソンのランクサム検定を使用することをお勧めします。 2つのグループのサンプルサイズが比較的大きい場合でも、対応のないt検定よりもウィルコクソンのランクサム検定を好む理論的な状況はありますか？この質問に対する私の動機は、単一サンプルのt検定で、歪んだ分布のそれほど小さくないサンプルにそれを使用すると、誤ったタイプIエラーが生じるという観察から生じています。 n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error

26 t-test wilcoxon-mann-whitney