統計とビッグデータ

3

最小二乗コンテキストでのリッジペナルティに関していくつかの質問があります。 βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1）この式は、Xの共分散行列が対角行列に向かって縮小されることを示唆しています。これは、（変数が手順の前に標準化されると仮定して）入力変数間の相関が低下することを意味します。この解釈は正しいですか？ 2）それは収縮アプリケーションである場合、なぜそれが線で処方されていない(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X)我々が何らかの形で正規化して[0,1]の範囲にラムダを制限することができると仮定すると、。 3）[0,1]のような標準範囲に制限できるように、正規化λλ\lambdaできるもの。 4）対角線に定数を追加すると、すべての固有値に影響します。特異値または特異値に近い値のみを攻撃する方が良いでしょうか？これは、PCAをXに適用し、回帰の前に上位N主成分を保持するのと同じですか、または異なる名前を持っていますか（相互共分散計算を変更しないため）？ 5）我々は、クロス共分散を正則化することも、意味、任意の用途を有するないβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ここで、小さなγγ\gammaは相互共分散を低下させます。これは明らかにすべてのββ\beta等しく低下させますが、おそらく共分散値に応じてハード/ソフトしきい値処理などのよりスマートな方法があります。

25 regression pca regularization ridge-regression

2

PCAとLDAを組み合わせるのは理にかなっていますか？

たとえば、ベイズ分類器を介して、教師付き統計分類タスク用のデータセットがあるとします。このデータセットは20個のフィーチャで構成されており、主成分分析（PCA）や線形判別分析（LDA）などの次元削減手法を使用して2つのフィーチャに要約します。どちらの手法も、データをより小さな特徴部分空間に投影しています。PCAでは、データセットの分散を最大化する方向（コンポーネント）を見つけ（クラスラベルを考慮せず）、LDAでは、 -クラス分離。今、私はこれらの技術を組み合わせることができるのか、どのように、そしてなぜできるのか、それが理にかなっているのか疑問に思っています。例えば： PCAを介してデータセットを変換し、それを新しい2Dサブスペースに投影する LDAを介した（既にPCA変換済みの）データセットの変換クラス内の分離または PCAステップをスキップし、LDAの上位2つのコンポーネントを使用します。または意味のある他の組み合わせ。

25 classification pca regularization discriminant-analysis overfitting

3

偏った最尤推定量の背後にある直感的な推論

偏りのある最尤（ML）推定量に混乱があります。概念全体の数学は私にはかなり明確ですが、その背後にある直感的な推論を理解することはできません。分布からのサンプルを含む特定のデータセットがあり、それ自体が推定するパラメーターの関数である場合、ML推定器は、データセットを生成する可能性が最も高いパラメーターの値になります。バイアス付きML推定量を直感的に理解することはできません。パラメーターの最も可能性のある値は、間違った値へのバイアスを伴うパラメーターの実際の値をどのように予測できるのでしょうか。

25 maximum-likelihood bias

4

ランダムフォレストを回避する場合

ランダムフォレストはさまざまなタスクでかなりよく動作することが知られており、学習方法の革細工人と呼ばれてきました。ランダムフォレストの使用を避けるべき問題や特定の条件はありますか？

25 machine-learning classification random-forest

2

切片と勾配のOLS推定量の相関

単純な回帰モデルでは、 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS推定器とは相関しています。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 2つの推定量の相関関係の式は次のとおりです（正しく導出できた場合）。 Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 質問：相関の存在の直感的な説明は何ですか？相関関係の存在は重要な意味を持ちますか？投稿は編集され、サンプルサイズとともに相関関係がなくなるという主張は削除されました。（@whuberと@ChristophHanckに感謝します。）

25 regression least-squares estimators

7

機械学習科学者の毎日の仕事は何ですか？

私は現在、論文を書いているドイツの大学のマスターCS学生です。私は博士号を継続するか、業界で仕事を見つける必要がある場合、私は非常に難しい決定を下す必要があります2ヶ月で完了します。博士号取得の理由：私は非常に好奇心が強い人だと私は私がまだ欠けていると感じあまり知識を。私は多くのことを学びたいです。博士課程はそのために役立ちます。より良いコースを行い、大量の論文を読み、データマイニングと機械学習の専門家になることができるからです。私は数学が大好きですが、私の学部では得意ではありませんでした（悪い大学）。今、このドイツ語のユニで、私は多くの素晴らしい数学スキルを開発したと感じています。私は本当に数学が大好きなので、それを改善したいと思います！（私は学部生と生涯で数学が本当に悪かったのですが、今ではうまく数学ができると思います！）知的にやりがいのある仕事をします。私は正直に言う必要があり、また、私は私よりも高い学位を持つ他の人に会うことを嫌います。したがって、私が通りを歩いて博士号を持つ人に会ったら、「ああ、この男は私より賢いわ」と言う必要はありません。私は反対側にいることを好む。;）博士号を取得しない理由：私はインターネットで博士号を取得するかしないかについて読みました。ほとんどの場合、博士号を持つ人は、マスターを持つ人と同じような仕事をすることがわかりました。（これはコンピューターサイエンスの一般的な観察であり、ML / DMに関するものではありませんでした）。キャリアを始めて1〜2年で大金を稼ぐことができれば、おそらく自分の会社を始めることができます。まだ明確ではないもの：最後に私の最終目標が何であるかはまだわかりません。それは有名な小さな会社を持つことですか？それとも有名な科学者になることですか？まだこの質問に対する答えがありません。決断を下すために、次の2つのことを知りたいと思います。業界で修士号を取得したデータサイエンティスト/機械学習者として働くことはどのようなものですか？どんな仕事をしていますか？特に、機械学習の科学者としてアマゾンでそれらの広告を読んだとき、私はいつも彼らが何をするのだろうと思います。前と同じ質問ですが、博士号があります。マスターと何か違うことや同じことをしていますか？挑戦的な興味深い問題に対処するつもりですか？または退屈なものですか？ちょっとした注意として：私は機械学習の博士号を持つ男（ドイツ）を見て、機械学習ソフトウェアを宣伝する会社で働いています。私が理解したように、彼の仕事のほとんどは、人々に方法とソフトウェア（意思決定ツリーなど）を使用するように訓練することです。いくつかの有名な良い会社でドイツ/スイスに関連した経験の答えを得ることができれば素晴らしいと思います。

25 machine-learning data-mining careers

5

強い相関が存在する大きなフルランクランダム相関行列を生成する方法

適度に強い相関が存在するように、n × nサイズのランダム相関行列を生成したいと思います。CC\mathbf Cn×nn×nn \times n サイズの正方実対称行列、たとえばn = 100 ;n×nn×nn \times nn=100n=100n=100 正定、つまり、すべての固有値が実数で正数の場合。フルランク; すべての対角要素が等しい。111 非対角要素がなければならない合理的に均一に分布する。正確な分布は重要ではありませんが、適度に大きな値（たとえば、絶対値が0.5以上）をある程度適度に大きく（たとえば10 ％）したいと思います。基本的に、すべての非対角要素≈0でCがほぼ対角線上にないことを確認したいと思います。(−1,1)(−1,1)(-1, 1)10%10%10\%0.50.50.5CC\mathbf C≈0≈0\approx 0 簡単な方法はありますか？目的は、このようなランダム行列を使用して、相関（または共分散）行列を処理するアルゴリズムのベンチマークを行うことです。動作しないメソッド私が知っているランダム相関行列を生成するいくつかの方法を以下に示しますが、ここではうまくいきません。 s × nサイズのランダムなを生成し、中心化し、標準化して、相関行列C = 1を形成します。XX\mathbf Xs×ns×ns \times n。s>nの場合、これにより、通常、すべての非対角相関が0付近になります。もしS«nは、いくつかの相関が強くなりますが、Cはフルランクではありません。C=1s−1X⊤XC=1s−1X⊤X\mathbf C=\frac{1}{s-1}\mathbf X^\top \mathbf Xs>ns>ns>n000s≪ns≪ns\ll nCC\mathbf C 次のいずれかの方法で、ランダムな正定行列を生成します。BB\mathbf B ランダム平方生成対称正定作るB = A Aを ⊤。AA\mathbf AB=AA⊤B=AA⊤\mathbf B = \mathbf A …

25 random-generation covariance-matrix correlation-matrix

5

混合線形モデルで多重共線性をテストして回避する方法は？

現在、いくつかの混合効果線形モデルを実行しています。 Rでパッケージ「lme4」を使用しています。私のモデルの形式は次のとおりです。 model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) モデルを実行する前に、予測子間の可能な多重共線性をチェックしました。私はこれをしました：予測子のデータフレームを作成します dummy_df <- data.frame(predictor1, predictor2) 「cor」関数を使用して、予測子間のピアソン相関を計算します。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 「correl_dummy_df」が0.80より大きい場合、predictor1とpredictor2の相関が高すぎるため、モデルに含まれていないと判断しました。読書を行うと、多重共線性をチェックするより客観的な方法が現れます。誰にもこれに関するアドバイスはありますか？「Variance Inflation Factor（VIF）」は、1つの有効な方法のようです。 VEDは、AEDパッケージ（非クラン）の関数「corvif」を使用して計算できます。パッケージはhttp://www.highstat.com/book2.htmにあります。このパッケージは、次の書籍をサポートしています。 Zuur、AF、Ieno、EN、Walker、N.、Saveliev、AA＆Smith、GM2009。混合効果モデルとエコロジーの拡張、R、第1版。スプリンガー、ニューヨーク。一般的な経験則のように見えますが、VIFが5より大きい場合、予測子間の多重共線性は高くなります。 VIFの使用は、単純なピアソン相関よりも堅牢ですか？更新興味深いブログを見つけました： http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ ブロガーは、lme4パッケージのモデルのVIFを計算するための便利なコードを提供します。コードをテストしましたが、うまく機能します。その後の分析で、モデルの多重共線性は問題ではないことがわかりました（すべてのVIF値<3）。これは、以前にいくつかの予測子間の高いピアソン相関関係を発見したことを考えると、興味深いものでした。

25 r correlation mixed-model lme4-nlme multicollinearity

3

階層クラスター分析の樹状図の解釈方法

以下のRの例を考えてください。 plot( hclust(dist(USArrests), "ave") ) y軸の「高さ」とは正確に何を意味しますか？ノースカロライナ州とカリフォルニア州を見る（むしろ左側）。カリフォルニアはアリゾナよりもノースカロライナに「近い」のでしょうか？この解釈をすることはできますか？ハワイ（右）はかなり遅れてクラスターに参加します。これは他の州よりも「高い」ため、見ることができます。一般に、樹状図のラベルが「高い」または「低い」という事実をどのように解釈できますか？

25 interpretation hierarchical-clustering dendrogram

4

Rでのlmer / lme混合モデルの仮定の確認

3つの異なるタスクで30人の男性と30人の女性をテストする繰り返しデザインを実行しました。男性と女性の行動がどのように異なり、それがタスクにどのように依存するかを理解したいと思います。これを調査するためにlmerとlme4の両方のパッケージを使用しましたが、いずれかの方法の仮定を確認しようとしています。私が実行するコードは lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 相互作用のない単純なモデルと比較し、anovaを実行して、相互作用が最良のモデルであるかどうかを確認しました。 lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) Q1：これらのカテゴリカル予測子を線形混合モデルで使用しても大丈夫ですか？ Q2：結果変数（「振る舞い」）がそれ自体（性別/タスク間）自体に正規分布する必要はないことを正しく理解していますか？ Q3：分散の均一性を確認するにはどうすればよいですか？単純な線形モデルでは、を使用しますplot(LM$fitted.values,rstandard(LM))。plot(reside(lm.base1))十分に使用していますか？ Q4：正常性を確認するには、次のコードを使用しますか？ hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

25 r mixed-model assumptions lme4-nlme

2

R prcompの結果を予測に使用する方法は？

800個のオブジェクトを持つdata.frameがあります。40個の変数を使用し、主成分分析を使用して、予測の結果を改善したいと考えています（これまでに15個の変数を選択してSupport Vector Machineで最適に機能します）。 prcompを使用すると予測を改善できることは理解していますが、prcomp関数の結果の使用方法はわかりません。私は結果を得ます： > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 1.2542 1.1899 1.166 1.1249 1.1082 1.0888 1.0863 1.0805 1.0679 1.0568 1.0520 Proportion of Variance 0.0742 0.0624 …

25 r pca

3

LSAとPCA（ドキュメントクラスタリング）

ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA（主成分分析）およびLSA（潜在的意味分析）に関するいくつかの疑問をクリアしたいと思います。まず、それらの違いは何ですか？PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか？第二-文書クラスタリング手順における彼らの役割は何ですか？これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか？そして、その後、再び正規化する必要がありますか？ 4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか？寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか？何も見つかりませんでした。これらの問題を明確にしてくれてとても感謝しています。

25 clustering pca data-mining svd lsa

1

「カーネル密度推定」は、何の畳み込みですか？

カーネル密度推定の理解を深めようとしています。ウィキペディアの定義を使用：https : //en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) レッツテイク矩形与える関数であるた場合間にあるととさもなければ、及び 1であると（ウィンドウサイズ）。K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 密度は2つの関数の畳み込みであることは理解していますが、これら2つの関数を定義する方法がわかりません。それらの1つは（おそらく）データの関数であり、Rのすべてのポイントに対して、その場所にあるデータポイントの数（ほとんど）を示します。そして、他の関数は、おそらくウィンドウサイズと組み合わされたカーネル関数の何らかの修正であるはずです。しかし、それをどのように定義するのか分かりません。000 助言がありますか？ Bellowは、（私が疑う）上記で定義した設定を（2つのガウスと混合で）複製するRコードの例であり、その上で、畳み込まれる関数が疑わしいという「証明」を見たい。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

25 r kernel-smoothing convolution

1

Calinski＆Harabasz（CH）基準の許容値は何ですか？

Rとkmlパッケージを使用して縦断データをクラスター化しようとするデータ分析を行いました。私のデータには、約400の個別の軌跡が含まれています（この論文で呼ばれています）。次の図に私の結果を見ることができます。対応する論文の 2.2章「最適なクラスター数の選択」を読んだ後、答えが得られませんでした。3つのクラスターを使用することをお勧めしますが、結果は80のCHでまだOKです。実際、CH値が何を表すかさえわかりません。だから私の質問、Calinski＆Harabasz（CH）基準の許容値は何ですか？

25 r clustering panel-data

1

RのGLM後の因子のレベルの比較

ここに私の状況についての少しの背景があります。私のデータは、捕食者が首尾よく食べた獲物の数を参照しています。各トライアルでは獲物の数が限られているため（25個が利用可能）、使用可能な獲物の数を表す「サンプル」列（各トライアルでは25個）と、成功の数である「カウント」何匹の獲物が食べられたか）。プロポーションデータに関するRブック（578ページ）の例に基づいて分析を行いました。説明変数は体温（私は因子として扱った4つのレベル）、および捕食者の性別（明らかに、男性または女性）です。だから私はこのモデルになります： model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) Analysis of Devianceテーブルを取得した後、温度と性別（相互作用ではない）が獲物の消費に大きな影響を与えることがわかりました。さて、私の問題：どの温度が異なるかを知る必要があります。つまり、4つの温度を互いに比較する必要があります。線形モデルがあれば、TukeyHSD関数を使用しますが、GLMを使用しているため、使用できません。パッケージMASSを調べて、コントラストマトリックスを設定しようとしましたが、何らかの理由で機能しません。提案や参考文献はありますか？モデルを明確にするのに役立つ場合は、モデルから取得した要約を次に示します... y <- cbind(data$Count, data$Sample-data$Count) model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) > summary(model) # Call: # glm(formula = y ~ Temperature + Sex + Temperature * Sex, family=quasibinomial, data=data) # Deviance Residuals: # Min 1Q Median 3Q Max …

25 r generalized-linear-model references multiple-comparisons tukey-hsd