統計とビッグデータ

2

ペアワイズ統計の事後推論などの多重比較シナリオ、または合計比較を行う多重回帰のようなシナリオがとします。また、信頼区間を使用してこれらの倍数での推論をサポートしたいとします。mmm 1. CIに複数の比較調整を適用しますか？これは、複数の比較がの再定義強要と同じように、あるのいずれかに家族的なエラー率（FWER）または偽発見率（FDR）の意味ない自信（または信頼性1、または不確実性、または予測を、または推測...間隔を選択してください）複数の比較によって同様に変更されますか？ここで否定的な答えをすると、残りの質問が無意味になることがわかります。αα\alpha 2.仮説検定から区間推定への多重比較調整手順の簡単な翻訳はありますか？たとえば、信頼区間内の項の変更に焦点を合わせます：？CIレベルCIレベル\text{CI-level}CIθ= （θ^± t（1 − CIレベル）/ 2σ^θ）CIθ=（θ^±t（1−CIレベル）/ 2σ^θ）\text{CI}_{\theta} = (\hat{\theta} \pm t_{(1-\text{CI-level)/2}}\hat{\sigma}_{\theta}) 3. CIのステップアップまたはステップダウン制御手順にどのように対処しますか？仮説テストアプローチから推論への家族ごとのエラー率調整の一部は、静的なものであり、個々の推論に対してまったく同じ調整が行われます。たとえば、Bonferroniの調整は、拒否基準を以下から変更することにより行われます。が次の場合に拒否します：P ≤α2p≤α2p\le \frac{\alpha}{2} であれば拒否P ≤ α2mp≤α2mp\le \frac{\frac{\alpha}{2}}{m} しかし、ホルム-ボンフェローニのステップアップ調整は「静的」ではなく、次の方法で行われます。最初に値を最小から最大に並べ、次にppp 場合、（は値の順序をインデックス付けします）まで拒否しますp ≤ 1 - （1 - α2）1m + 1 − ip≤1−（1−α2）1m+1−私p\le 1 - (1- \frac{\alpha}{2})^{\frac{1}{m+1-i}}私私ippp 帰無仮説を棄却できず、その後のすべての帰無仮説を自動的に棄却できません。 CIで拒否/拒否の失敗は発生しないため（より正式には、以下の参照を参照）、それはステップワイズプロシージャが変換されないことを意味します（つまり、すべてのFDRメソッドを含む）。ここで、CIを仮説検定に変換する方法を尋ねていないことに注意する必要があります（以下に引用する「視覚的仮説検定」の代表者は、その重要な質問に答えます）。 4. 1で括弧で言及した他の間隔についてはどうですか？ 1まあ、この言葉をここで使うことで、甘くて甘いベイジアンスタイルのロッキンに悩まされないことを願っています。:) 参照 Afshartous、D.およびPreston、R.（2010）。依存データの信頼区間：統計的有意性のある非重複の等化。計算統計とデータ分析、54（10）：2296-2305。カミング、G。（2009）。目による推論：独立した信頼区間の重複を読み取ります。Statistics In Medicine、28（2）：205–220。 …

26 confidence-interval multiple-comparisons inference

4

SVMのカーネルの違いは？

誰かがSVMのカーネルの違いを教えてください：リニア多項式ガウス（RBF）シグモイドなぜなら、カーネルは入力空間を高次元の特徴空間にマッピングするために使用されることがわかっているからです。そして、その特徴空間で、線形に分離可能な境界を見つけます。それらはいつ（どのような条件下で）使用されますか、そしてなぜですか？

26 machine-learning svm pattern-recognition kernel-trick

1

変分ベイズとEMの関係

変分ベイズ法はEMアルゴリズムの一般化であるとどこかで読みました。実際、アルゴリズムの反復部分は非常に似ています。EMアルゴリズムが変分ベイズの特別なバージョンであるかどうかをテストするために、次のことを試しました。 YYYはデータ、は潜在変数のコレクション、はパラメーターです。変分ベイズでは、ような近似を作成できます。どこ sが単純で、扱いやすい分布です。Θ P （X 、Θ | Y ）≈ Q X（X ）Q Θ（Θ ）QXXXΘΘ\ThetaP(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,Θ|Y)≈QX(X)QΘ(Θ)P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)QQQ EMアルゴリズムはMAPポイントの推定値を見つけるため、Q ^ 1_ \ Theta（\ Theta）= \ delta _ {\ Theta ^ 1}（\ Theta）のようなデルタ関数を使用すると、変分ベイズがEMに収束できると考えました。Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)。Θ1Θ1\Theta_1は、EMで通常行われるパラメーターの最初の推定値です。場合Q1Θ(Θ)=δΘ1(Θ)QΘ1(Θ)=δΘ1(Θ)Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)、与えられたQ1バツ（X）QX1(X)Q^1_X(X) KL発散を最小化式によって求められるQ1バツ（X）= exp（EδΘ1[ lnP（X、Y、Θ ）] ）∫exp（EδΘ1[ lnP（X、Y、Θ ）] ）dバツQX1(X)=exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])∫exp⁡(EδΘ1[ln⁡P(X,Y,Θ)])dXQ^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX} 上記の式はQ1バツ（X）= P（X| Θ1、Y）QX1(X)=P(X|Θ1,Y)Q^1_X(X)=P(X|\Theta^1,Y)に簡略化され、このステップはExpectationステップと同等であることが判明しました。 EMアルゴリズムの！しかし、これを継続するものとして最大化ステップを導き出すことはできません。次のステップでは、Q ^ 2_ \ Theta（\ …

26 bayesian expectation-maximization variational-bayes

1

svmでOne-vs-AllおよびOne-vs-One？

one-vs-allとone-vs-one SVM分類器の違いは何ですか？ one-vs-allは新しい画像のすべてのタイプ/カテゴリを分類する1つの分類子を意味し、one-vs-oneは新しい画像の各タイプ/カテゴリを異なる分類子で分類することを意味しますか（各カテゴリは特別な分類子によって処理されます）？たとえば、新しい画像が円、長方形、三角形などに分類される場合

26 machine-learning classification svm

1

PCAで得られた低ランクの近似行列によって、再構築エラーのどのノルムが最小化されますか？

PCA（またはSVD）行列の近似を考えるとバツXX行列とX、我々は知っていることをXが最良の低ランク近似値であるX。バツ^X^\hat Xバツ^X^\hat XバツXX これはによるとされる誘発∥は⋅ ∥は2∥⋅∥2\parallel \cdot \parallel_2規範（すなわち最大固有値規範）やフロベニウスに応じ∥は⋅ ∥はF∥⋅∥F\parallel \cdot \parallel_F標準？

26 pca svd matrix-decomposition

2

帰無仮説の下での線形回帰での分布は何ですか？ときになぜモードがゼロにならないのですか？

帰無仮説下での線形単変量多重回帰における決定係数、またはR 2乗の分布は何ですか？R2R2R^2H0:β=0H0:β=0H_0:\beta=0 予測子の数とサンプルのどのように依存しますか？この分布のモードに閉形式の表現はありますか？kkkn>kn>kn>k 特に、単純な回帰（1つの予測子）の場合、この分布のモードはゼロになりますが、重回帰の場合、モードはゼロ以外の正の値になります。もしこれが本当なら、この「相転移」の直感的な説明はありますか？xxx 更新 @Alecosが以下に示すように、および場合、分布は実際にゼロでピークに達し、場合、ゼロではありません。この相転移には幾何学的な見方が必要だと感じています。OLSの幾何学的ビューを考えてみましょう：はベクトルで、は次元の部分空間を定義します。OLSはこの部分空間にを投影することになり、はとその投影間の角度の二乗余弦です。k=2k=2k=2k=3k=3k=3k>3k>3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2Yyy\mathbf yy^y^\hat{\mathbf y} @Alecosの答えから、すべてのベクトルがランダムである場合、この角度の確率分布はおよびでピークになりますが、他の値モードを持つことになりますのため。なぜ？！90∘90∘90^\circk=2k=2k=2k=3k=3k=3<90∘<90∘<90^\circk>3k>3k>3 更新2：私は@Alecosの回答を受け入れていますが、ここでいくつかの重要な洞察を逃していると感じています。もし誰かがこの現象について他の（幾何学的であるか否かを問わず）それを「明白」にするだろうと提案した場合、私は喜んで賞金を提供します。

26 regression mathematical-statistics r-squared intuition

7

分布仮説のテスト-帰無仮説を「受け入れる」ことができない場合、それを行う意味は何ですか？

GOF検定、Kolmogorov-Smirnov、Anderson-Darling などのさまざまな仮説検定は、次の基本形式に従います。χ2χ2\chi^{2} H0H0H_0：データは指定された分布に従います。 H1H1H_1：データは指定された分布に従っていません。通常、特定のデータが特定の分布に従っているという主張を評価し、拒否した場合、データは特定のレベルでの特定の分布に適合しません。 αH0H0H_0αα\alpha しかし、拒否しないとますか？私は常に「受け入れる」ことはできないと教えられてきたので、基本的にを拒否する証拠はありません。つまり、データが指定された分布に従うことを拒否するという証拠はありません。H 0 H 0H0H0H_0H0H0H_0H0H0H_0 したがって、私の質問は、データが特定の分布に従うかどうかを結論付けることができない場合、そのようなテストを実行するポイントは何ですか？

26 hypothesis-testing distributions goodness-of-fit ecdf

5

分布の収束と確率の収束の直感的な説明

確率が収束する確率変数と分布が収束する確率変数の直感的な違いは何ですか？私は数多くの定義と数学の方程式を読みましたが、それは本当に助けにはなりません。（覚えておいてください、私は計量経済学を勉強している大学生です。）ランダム変数はどのようにして単一の数値に収束しますが、分布にも収束しますか？

26 distributions random-variable convergence intuition

5

なぜこれらのステートメントは平均値の95％CIから論理的に従わないのですか？

私はWaekmakersのWebサイトからダウンロードした、「信頼区間のロバストな誤解」に関するHoekstraらの2014年の論文を読んでいます。最後から2番目のページに次の画像が表示されます。著者によると、Falseはこれらすべてのステートメントに対する正しい答えです。陳述が偽である理由はよくわかりませんが、私が知る限り、残りの論文ではこれを説明しようとはしていません。 1-2と4は、真の平均が未知の明確な値を持っているときに、真の平均の可能性のある値について何かを主張するため、正しくないと思います。これは説得力のある違いですか？ 3に関して、私は帰無仮説が間違っている可能性について主張するつもりはないことを理解していますが、その理由はあまりわかりません。同様に、6は、真の平均が実験ごとに変化していることを意味するため、真ではありえません。私がまったく理解していないのは5です。なぜそれが間違っているのですか？95％の時間で真の平均を含むCIを生成するプロセスがある場合、人口値が0.1から0.4の間である95％の信頼性があると言わないのはなぜですか？真の平均値を含まない5％の1つである可能性が高いと思わせる、採取したサンプルに関する特別な情報がある可能性があるからでしょうか。たとえば、0.13は信頼区間に含まれており、何らかの理由で、特定の研究のコンテキスト内では0.13は妥当な値とは見なされません。たとえば、その値は以前の理論と矛盾するためです。とにかく、この文脈で自信は何を意味しますか？

26 hypothesis-testing confidence-interval

2

Pythonのscikit-learn LDAが正しく機能しないのはなぜですか？また、SVDを介してLDAを計算する方法

私はscikit-learn次元削減のために機械学習ライブラリ（Python）の線形判別分析（LDA）を使用していましたが、結果に少し興味がありました。私は今、LDAが何をしているのか疑問に思っていscikit-learnます。その結果、例えば、手動でのアプローチやRで行われたLDAとは異なった結果になります。基本的に最も懸念さscikit-plotれるのは、相関0があるはずの2つの変数間の相関を示すことです。テストでは、Irisデータセットを使用し、最初の2つの線形判別式は次のようになりました。 IMG-1 scikit-learn経由のLDA これは、私がscikit-learn ドキュメントで見つけた結果と基本的に一致しています。今、私はLDAを段階的に通り抜けて、異なる予測を得ました。何が起こっているのかを知るために、さまざまなアプローチを試しました。 IMG-2。生データのLDA（センタリングなし、標準化なし）そして、最初にデータを標準化（zスコア正規化;単位分散）した場合のステップバイステップのアプローチになります。同じことを平均中心化のみで行いました。これにより、同じ相対投影画像が得られるはずです（実際にそうなりました）。 IMG-3。平均中心化または標準化後の段階的なLDA IMG-4。RのLDA（デフォルト設定） IMG-3のLDAは、データを中央に配置したため（推奨されるアプローチ）、RでLDAを実行した誰かが投稿で見つけたものとまったく同じに見えます。参照用コードすべてのコードをここに貼り付けたくはありませんでしたが、LDAプロジェクションで使用したいくつかのステップ（以下を参照）に分けてIPythonノートブックとしてアップロードしました。ステップ1：d次元平均ベクトルの計算m私= 1n私∑X ∈ D私nバツkm私=1n私∑バツ∈D私nバツk\mathbf m_i = \frac{1}{n_i} \sum\limits_{\mathbf x \in D_i}^n \; \mathbf x_k ステップ2：散布図の計算 2.1クラス内散布行列は、次の方程式によって計算されますS W = C Σ I = 1、S I = C Σ I = 1 N Σのx ∈ D I（X …

26 python scikit-learn dimensionality-reduction discriminant-analysis svd

1

2つのガウス間のアースムーバーの距離（EMD）

以下のための閉じた形の式（または上に結合のいくつかの種類）との間にEMDありx1∼N(μ1,Σ1)x1∼N(μ1,Σ1)x_1\sim N(\mu_1, \Sigma_1)および？x2∼N(μ2,Σ2)x2∼N(μ2,Σ2)x_2 \sim N(\mu_2, \Sigma_2)

26 normal-distribution distance

2

ベクトルの値の分位数を推定する

実数のセットがあります。新しい数値の分位数を推定する必要があります。Rでこれを行うクリーンな方法はありますか？一般に？これが非常に簡単ではないことを願っています;-) あなたの応答に感謝します。 PK

26 r

3

重心を見つけることは、平均を見つけることとどう違うのですか？

階層クラスタリングを実行する場合、多くのメトリックを使用してクラスター間の距離を測定できます。このような2つのメトリックは、クラスター内の重心とデータポイントの平均の計算を意味します。平均と重心の違いは何ですか？これらはクラスター内の同じポイントではありませんか？

26 clustering mean

3

glmer出力の「固定効果の相関」をどのように解釈すればよいですか？

次の出力があります。 Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) AIC BIC logLik deviance 4062 4093 -2022 4044 Random effects: Groups Name Variance Std.Dev. landscape (Intercept) 0.82453 0.90804 Number of obs: 239, groups: landscape, 45 Fixed effects: Estimate Std. Error …

26 mixed-model poisson-distribution lme4-nlme

3

ガウスプロセスモデルがノンパラメトリックと呼ばれるのはなぜですか？

私は少し混乱しています。ガウス過程がノンパラメトリックモデルと呼ばれるのはなぜですか？関数値またはそのサブセットは、カーネル関数として与えられた平均0と共分散関数を持つガウス事前分布を持っていると仮定しています。これらのカーネル関数自体には、いくつかのパラメーター（ハイパーパラメーターなど）があります。それでは、なぜそれらはノンパラメトリックモデルと呼ばれているのでしょうか？

26 nonparametric gaussian-process