統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

8
統計学習の要素の前に読むための本?
この投稿に基づいて、統計学習の要素をダイジェストします。幸いなことに無料で利用でき、私はそれを読み始めました。 私はそれを理解するのに十分な知識を持っていません。本のトピックのより良い紹介である本を推薦できますか?うまくいけば、それを理解するために必要な知識が得られますか? 関連する: 数学の強力なバックグラウンドはMLの必須条件ですか?

6
リッジ回帰は高次元()では役に立たないでしょうか?OLSはどのようにオーバーフィットに失敗しますか?
予測子とサンプルサイズ古き良き回帰問題を考えます。通常の知恵は、OLS推定器がオーバーフィットし、一般的にリッジ回帰推定器よりも優れていることです:クロス検証を使用して最適な正則化パラメーターを見つけるのが標準です。ここでは、10倍のCVを使用します。清澄化更新:とき、Iは"最小ノルムOLSの推定"を理解することによって与えられる"OLS推定量"によってpppβ = (X ⊤ X + λ I )- 1 X ⊤ Y 。λ N &lt; P β OLS = (X ⊤ X )+ X ⊤ Y = X + Y 。nnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdan&lt;pn&lt;pn1000yyyp=50&lt;np=50&lt;np=50npppp=1000p=1000p=1000λ→0λ→0\lambda\to 0は、最適なリッジ回帰と同等の性能を発揮します。λλ\lambda それはどのように可能であり、私のデータセットについて何と言っていますか?明白な何かを見逃していますか、それとも本当に直観に反していますか?両方がよりも大きいとすると、と間に質的な違いはありますか?p = 1000 np=100p=100p=100p=1000p=1000p=1000nnn 最小ノルムOLSソリューションはどのような条件下でオーバーフィットしませんか?n&lt;pn&lt;pn<p 更新:コメントに不信感があったため、を使用した再現可能な例を次に示しglmnetます。私はPythonを使用しますが、Rユーザーはコードを簡単に変更できます。 %matplotlib notebook import numpy …

5
母集団分散の計算におけるNとN-1の違いは何ですか?
私はそこにある理由を取得していないNとN-1母分散を計算しながら。我々は、使用している場合N、我々は、使用している場合N-1? 拡大版はこちらをクリックしてください 人口が非常に大きい場合、NとN-1の間に違いはないが、最初にN-1がある理由はわかりません。 編集:と混同しないでくださいnとn-1推定で使用されています。 編集2:私は人口推定について話していません。


3
「再現可能な研究」をどのように定義していますか?
これは今いくつかの質問で出てきており、私は何かについて疑問に思っていました。フィールド全体は、元のデータと問題のコードの可用性に焦点を当てた「再現性」に移行しましたか? 私はいつも、再現性の核心は必ずしも言及しているように、「実行」をクリックして同じ結果を得る能力ではないと教えられていました。データとコードのアプローチは、データが正しいこと、つまりデータ自体の収集に欠陥がないことを前提としているようです(科学的詐欺の場合は明らかに間違っています)。また、複数の独立したサンプルでの結果の再現性よりも、ターゲット母集団の単一のサンプルに焦点を当てています。 なぜ研究をゼロから複製するのではなく、分析を再実行できることに重点が置かれているのですか? 以下のコメントに記載されている記事はこちらから入手できます。


5
「p-value」の正しいスペル(大文字、斜体、ハイフネーション)
これはつまらなくてささいなことだと思いますが、統計学以外の分野の研究者として、統計学の正式な教育が限られているため、「p-value」を正しく書いているのかといつも思っています。具体的には: 「p」は大文字にする必要がありますか? 「p」は斜体にする必要がありますか?(または数学フォントで、TeXで?) 「p」と「value」の間にハイフンがあるはずですか? あるいは、「p-value」を記述する「適切な」方法はまったくありません。これらのオプションの並べ替えで「value」の隣に「p」を置くだけで、どういう意味か理解できますか?

1
Scikit-learnでのワンホットエンコーディングとダミーエンコーディング
カテゴリー変数をエンコードするには、2つの異なる方法があります。たとえば、1つのカテゴリ変数にn個の値があります。ワンホットエンコーディングに変換してN個の変数ながらダミーコードへと変換し、N-1の変数。カテゴリ変数がk個あり、それぞれにn個の値がある場合。1つのホットエンコーディングはkn変数で終わり、ダミーエンコーディングはkn-k変数で終わります。 ワンホットエンコーディングの場合、インターセプトにより共線性の問題が発生し、モデルが正常に機能しないことがあります。誰かがそれを「ダミー変数トラップ」と呼びます。 私の質問: Scikit-learnの線形回帰モデルにより、ユーザーはインターセプトを無効にできます。ワンホットエンコーディングの場合、常にfit_intercept = Falseを設定する必要がありますか?ダミーエンコーディングの場合、fit_interceptは常にTrueに設定する必要がありますか?ウェブサイトに「警告」は表示されません。 ワンホットエンコーディングではより多くの変数が生成されるため、ダミーエンコーディングよりも自由度が高くなりますか?

3
SVDの背後にある直感とは何ですか?
特異値分解(SVD)について読みました。ほとんどすべての教科書では、指定された仕様で行列を3つの行列に分解することが言及されています。 しかし、そのような形式でマトリックスを分割する背後にある直観は何ですか?次元削減のためのPCAおよびその他のアルゴリズムは、アルゴリズムに優れた視覚化特性があるという意味で直感的ですが、SVDではそうではありません。

3
K-MeansとEMを使用したクラスタリング:それらはどのように関連していますか?
データのクラスタリング(教師なし学習)アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます: k-meansはEMの変形であり、クラスターが球形であるという仮定があります。 誰かが上記の文を説明できますか?1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。 また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか?またはEMクラスタリングを使用しますか?

2
重回帰の他の変数を「制御する」と「無視する」の間に違いはありますか?
重回帰の説明変数の係数は、その説明変数と従属変数の関係を示しています。これらすべては、他の説明変数を「制御」します。 これまでの表示方法: 各係数が計算されている間、他の変数は考慮されないため、それらは無視されると考えます。 「制御された」と「無視された」という用語は同じ意味で使用できると思いますか?

1
ロジスティック回帰モデルの近似から予測値(Y = 1または0)を取得する
クラスのオブジェクトglm(ロジスティック回帰モデルに対応)がありpredict.glm、引数type="response"を使用して与えられた予測確率をバイナリ応答、つまりまたはY = 0に変換したいとします。Rでこれを行う最も速く、最も標準的な方法は何ですか?Y= 1Y=1Y=1Y= 0Y=0Y=0 、再び、私の知る一方でpredict.glm、私は場所を正確にカットオフ値を知らない住んでいる-と私は、これはここに私のメインのつまずきであると思います。P(Y私= 1 | バツ^私)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

4
SVMをフィッティングするときに二重の問題に悩まされるのはなぜですか?
与えられたデータ点はとラベルY 1、... 、Y N ∈ { - 1 、1 }、ハードマージンSVMプライマル問題ですx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 これは、i制約に対して最適化される変数を含む2次プログラムです。デュアルd+1d+1d+1iii S。T.maximizeα∑i=1nαi−12∑i=1n∑j=1nyiyjαiαjxTixjmaximizeα∑i=1nαi−12∑i=1n∑j=1nyiyjαiαjxiTxj \text{maximize}_{\alpha} \quad \sum_{i=1}^{n}{\alpha_i} - \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{y_i y_j \alpha_i \alpha_j …
50 svm 

16
実験計画に関する推奨本?
実験計画に関する本に対するパネルの推奨事項は何ですか? 理想的には、本はまだ印刷されているか、電子的に入手可能であるべきですが、それは常に実現可能ではありません。あなたがこの本の何が素晴らしいのかについていくつかの言葉を付け加えたいと思うなら、それも素晴らしいでしょう。 また、投票ごとに提案を分類できるように、回答ごとに1冊の本を目指してください。 (コミュニティWiki、改善できる場合は質問を編集してください!)

4
ANOVAが線形回帰と同等なのはなぜですか?
ANOVAと線形回帰は同じものだと読みました。ANOVAの出力が値と値であり、これに基づいてサンプルが異なるサンプル全体で同じか異なるかを判断すると、どのようになりますか。pFFFppp しかし、平均が等しくないと仮定すると(帰無仮説を棄却)、ANOVAは線形モデルの係数については何も伝えません。では、線形回帰はどのように分散分析と同じですか?
50 regression  anova 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.