統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

7
Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか?
今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました: してみましょう(例えば正または負など)クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素(不明)を追加します。UNKUNKUNK 定義P(w | c )= カウント(w 、c )+ 1カウント(c )+ | V| +1、P(w|c)=カウント(w、c)+1カウント(c)+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …

4
標準偏差を使用した外れ値の検出
ここでの質問に続いて、外れ値を検出するための標準偏差の使用について、または反対の強い見解があるのではないかと考えています(たとえば、2標準偏差を超えるデータポイントは外れ値です)。 これは研究の文脈に依存していることを知っています。例えば、データポイントの48kgは確かに赤ちゃんの体重の研究では外れ値になりますが、大人の体重の研究ではそうではありません。 外れ値は、データ入力ミスなどの多くの要因の結果です。私の場合、これらのプロセスは堅牢です。 私が尋ねている質問は、標準偏差を使用して外れ値を検出するための適切な方法ですか?
27 outliers 

1
類似度行列を(ユークリッド)距離行列に変換する
ランダムフォレストアルゴリズムでは、Breiman(著者)は次のように類似度行列を作成します。 すべての学習例をフォレスト内の各ツリーに送信します 2つの例が同じ葉にある場合、類似度マトリックスの対応する要素を1ずつ増やします。 木の数で行列を正規化する 彼は言い​​ます: ケースnとkの間の近接性は、行列{prox(n、k)}を形成します。それらの定義から、この行列が対称で正定であり、1に等しい対角要素で上に1で区切られていることを示すのは簡単です。値1-prox(n、k)はユークリッドの平方距離ケースの数以下の次元の空間。ソース 彼の実装では、彼はsqrt(1-prox)を使用します。ここで、proxは類似度行列で、距離行列に変換します。これは、上記の「ユークリッド空間での二乗距離」と関係があると思います。 1プロキシがユークリッド空間の平方距離である理由と、平方根を使用して距離行列を取得する理由を誰かが少し明らかにすることはできますか?

3
次元の2つのランダムな単位ベクトルのスカラー積の分布
場合と内の2つの独立したランダムな単位ベクトルでありそれらのスカラー積(内積)の分布が何であるか(均一単位球面上に分布)、?、Y のR D X ⋅ Yバツバツ\mathbf{x}yy\mathbf{y}RDRD\mathbb{R}^DX ⋅ Yバツ⋅y\mathbf x \cdot \mathbf y ように私は推測迅速に配布を成長より高い次元でゼロと正常になる平均及び分散減少(?)しかしのための明示的な公式がある\ sigma ^ 2(D)?DDDリムD → ∞σ2(D )→ 0 、リムD→∞σ2(D)→0、\lim_{D\to\infty}\sigma^2(D) \to 0,σ2(D )σ2(D)\sigma^2(D) 更新 簡単なシミュレーションをいくつか実行しました。最初に、D = 1000のランダムな単位ベクトルの10000ペアを生成D = 1000D=1000D=1000すると、それらのドット積の分布が完全にガウス分布であることが簡単にわかります(実際、すでにD = 100の場合はかなりガウス分布ですD = 100D=100D=100)。左側のサブプロットを参照してください。次に、1から10000までの各Dに対してDDD(ステップを増やしながら)1000ペアを生成し、分散を計算しました。ログ-ログプロットは右側に示されており、式が1 / Dで非常によく近似されていることは明らかです1 / D1/D1/D。D = 1D=1D=1およびD = 2D=2D=2この式で正確な結果が得られることにも注意してください(ただし、後で何が起こるかわかりません)。

2
k分割交差検定の分散推定
K分割交差検定を使用して、特定の分類器の一般化機能を推定できます。分散のより良い推定値を取得するために、すべての検証実行からプールされた分散を計算することもできますか? そうでない場合、なぜですか? クロス検証の実行全体でプールされた標準偏差を使用する論文を見つけました。また、検証分散の普遍的な推定量がないことを明示的に述べた論文を見つけました。しかし、一般化エラーの分散推定量を示す論文も見つけました(これを読んで理解しようとしています)。人々は実際に実際に何をする(または報告する)のか? 編集: CVを使用して大まかな分類エラーを測定する場合(つまり、サンプルに正しくラベルが付けられているか、ラベルが付けられていない、たとえばtrueまたはfalse)、プールされた分散について話すのは意味がない場合があります。ただし、推定している統計に分散が定義されている場合について説明しています。そのため、特定の分割について、統計値と分散推定値の両方が得られます。この情報を破棄して平均統計のみを考慮するのは適切ではないようです。そして、私はブートストラップ法を使用して分散推定値を作成できることを知っていますが(そうでない場合)、フォールド分散を無視し、統計推定値のみを考慮します(さらに多くの計算能力が必要です)。

3
ホワイトニングは常に良いですか?
機械学習アルゴリズムの一般的な前処理手順は、データのホワイトニングです。 データを無相関化し、モデル化をより簡単にするため、ホワイトニングを行うことは常に良いようです。 ホワイトニングが推奨されない場合 注:私はデータの非相関性に言及しています。

1
一般化推定方程式とGLMMの違いは何ですか?
ロジットリンクを使用して、3レベルの不均衡データでGEEを実行しています。これは、混合効果(GLMM)とロジットリンクを備えたGLMと(描画できる結論と係数の意味に関して)どのように異なりますか? 詳細:観察は単一ベルヌーイ試験です。それらは教室と学校にクラスター化されます。Rの使用。NAのケースワイズ省略。6予測子も相互作用項。 (私は子供たちがヘッズアップで着地するかどうかを確認するためにひっくり返していません。) 係数をオッズ比に累乗する傾向があります。これは両方で同じ意味を持っていますか? GEEモデルの「限界的手段」について、私の心の奥に何かが潜んでいます。私にそのビットを説明する必要があります。 ありがとう。

2
forループで変数名のリストを生成し、それらに値を割り当てます
forループを使用して変数のリストを作成し、その値を与える簡単な方法があるのだろうか。 for(i in 1:3) { noquote(paste("a",i,sep=""))=i } 上記のコードでは、私が作成しようとa1、a2、a3ただし、Rは、エラーメッセージを表示します1、2、3の値にどの割り当てます。ご協力いただきありがとうございます。
27 r 

3
生データまたは残差の正常性を確認する必要がありますか?
生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか? 残差はとして計算されますか?バツ私− 平均バツ私−平均X_i - \text{mean} 私のデータと設計については、この前の質問をご覧ください。

5
99パーセンタイルまたは100パーセンタイルはありますか?そして、それらは数字のグループなのでしょうか、それとも個々の数字への区切りやポインターなのでしょうか?
99パーセンタイルまたは100パーセンタイルはありますか?そして、それらは数字のグループ、または分割線、または個々の数字へのポインターですか? 同じ質問が四分位数や分位数にも当てはまると思います。 特定のパーセンタイル(p)の数値のインデックスは、n個のアイテムが与えられた場合、 i = (p / 100) * n これは、100パーセンタイルがあることを示唆しています。100個の数値(i = 1〜i = 100)があると仮定すると、それぞれにインデックス(1〜100)が付けられます。 200個の数字がある場合、100パーセンタイルがありますが、それぞれが2つの数字のグループを参照します。または、左端または右端の仕切りを除く100個の仕切り 'cosを使用しないと、101個の仕切りが得られます。または、個々の数値へのポインター。最初のパーセンタイルが2番目の数値を参照し、(1/100)* 200 = 2そして100パーセンタイルが200番目の数値を参照します(100/100)* 200 = 200 私は時々99パーセンタイルがあると聞いたことがあります。 Googleは、パーセンタイルについて述べているオックスフォード辞書を示しています-「特定の変数の値の分布に従って母集団を分割できる100の等しいグループのそれぞれ」。そして、「頻度分布を100のそのようなグループに分けるランダム変数の99個の中間値のそれぞれ」。 ウィキペディアによると、「20パーセンタイルは観測値の20%が検出される値以下です」が、実際には「観測値の20%が検出される可能性がある値以下の値」、つまり「20の値値の%は<=それです」。<=ではなく<である場合、その理由から、100パーセンタイルは、100%の値がそれよりも低い値になります。100パーセンタイルはありえないという議論として聞いたことがあります。なぜなら、その下にある数字の100%がある数字を得ることができないからです。しかし、100パーセンタイルを持つことはできないという議論は誤りであり、パーセンタイルの定義には<=ではなく<が含まれるというエラーに基づいていると思います。(または> = not>)。したがって、100パーセンタイルは最終的な数値であり、>
27 quantiles 

2
分散と平均二乗誤差の違いは何ですか?
これが以前に聞かれたことがないことに驚いていますが、stats.stackexchangeで質問を見つけることができません。 これは、正規分布のサンプルの分散を計算する式です。 ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} これは、単純な線形回帰で観測値の二乗平均誤差を計算する式です。 ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} これらの2つの式の違いは何ですか?私が見ることができる唯一の違いは、MSEが使用することです。それが唯一の違いであるなら、なぜそれらを両方の分散として参照するのではなく、異なる自由度で?n−2n−2n-2
27 variance  error 



4
確率表記の意味および
多くの本や論文で一般的に使用されている表記と意味の違いは何ですか?P (z | d 、w )P(z; d、w )P(z;d,w)P(z;d,w)P(z| d、w )P(z|d,w)P(z|d,w)

2
ダイス係数損失関数とクロスエントロピー
完全たたみ込みネットワークなどのピクセルセグメンテーションニューラルネットワークをトレーニングする場合、クロスエントロピー損失関数とダイス係数損失関数のどちらを使用するかをどのように決定しますか? これは短い質問ですが、他にどのような情報を提供すべきかはよくわかりません。2つの損失関数に関する多くのドキュメントを見ましたが、どちらを使用するかを直感的に理解することはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.