統計とビッグデータ

1

アブレーション研究とは何ですか？そしてそれを実行する体系的な方法はありますか？たとえば、モデルとして呼び出す線形回帰には予測子があります。nnn これに対してアブレーション研究をどのように実行しますか？どの指標を使用すればよいですか？包括的な情報源または教科書をいただければ幸いです。

22 regression machine-learning neural-networks

1

名前がタイプ1、2エラーの理由

記述的な「偽陽性」から整数「1」への間接レベルの追加レベルを導入する動機は何ですか？「誤検知」は本当に長すぎますか？

21 terminology frequentist type-i-and-ii-errors

2

統計とMLで名前が「カーネル」なのはなぜですか？

これは、オペレーティングシステムと線形代数のコンテキストで他のSEサイトで質問されていますが、統計と機械学習で使用されるカーネルメソッドに関しては、同じ質問がバグになります。多くの場合、カーネル密度推定やSVMなどのカーネルは、ある種の類似性を表すと言われていますが、「カーネル」という名前の由来とその象徴性はどこにあるのかわかりません。それでは、統計と機械学習の文脈でのカーネルの語源は何ですか？明確にするために、カーネルとは何か、その主な特性をよく知っています。名前で知りたいのですが、シードまたはコアでほとんど何で定義されているのかはわかりません。辞書。または、少なくとも「メソッドの本質的な部分」よりも深い意味を見ることができません。

21 terminology

3

乱数ジェネレーターのシードとは正確には何ですか？

私はいくつかの通常のグーグル検索などを試しましたが、私が見つけた答えのほとんどは、やや曖昧であるか、Python / C ++ stdlib.hなどの言語/ライブラリ固有です。ライブラリに固有ではなく、言語に依存しない数学的な答えを探しています。例として、多くの人は、シードは乱数ジェネレーターの開始点であり、同じシードは常に同じ乱数を生成すると言います。どういう意味ですか？出力数は特定のシードの決定的な関数であり、ランダム性はシードの値に由来するということですか？しかし、もしそうなら、シードを提供することで、プログラマーは、機械にそれをさせるのではなく、ランダム性を作り出しませんか？また、この文脈での出発点は何を意味しますか？これは、マップのドメインの要素を言う厳密でない方法ですか？それとも私は何か間違っていますか？ F ：X → Yx∈Xx∈Xx\in\mathfrak{X}f:X→Yf:X→Yf:\mathfrak{X}\rightarrow\mathfrak{Y}

21 random-generation

4

シミュレーションで中央極限定理が壊れるのはなぜですか？

次の番号があるとしましょう： 4,3,5,6,5,3,4,2,5,4,3,6,5 そのうちのいくつか、たとえば5つをサンプリングし、5つのサンプルの合計を計算します。その後、何度も繰り返して多くの合計を取得し、ヒストグラムに合計の値をプロットします。これは、中心極限定理によるガウス分布になります。しかし、彼らが数字に続いているとき、私は4をいくつかの大きな数字に置き換えました。 4,3,5,6,5,3,10000000,2,5,4,3,6,5 これらからの5つのサンプルの合計をサンプリングしても、ヒストグラムではガウス分布になることはありませんが、スプリットのようになり、2つのガウス分布になります。何故ですか？

21 central-limit-theorem

3

尤度の定義に頻度主義者とベイジアンの間に違いはありますか？

尤度関数は条件付き確率ではないと言う人もいれば、そうだと言う人もいます。これは非常に混乱しています。私が見たほとんどの情報源によると、パラメータ分布の尤度は、x iの n個のサンプルが与えられた確率質量関数の積でなければなりません。θθ\thetannnxixix_i L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(θ)=L(x1,x2,...,xn;θ)=∏i=1np(xi;θ)L(\theta) = L(x_1,x_2,...,x_n;\theta) = \prod_{i=1}^n p(x_i;\theta) たとえば、ロジスティック回帰では、最適化アルゴリズムを使用して尤度関数（最大尤度推定）を最大化し、最適なパラメーター、したがって最終的なLRモデルを取得します。互いに独立していると仮定するトレーニングサンプルが与えられた場合、確率の積（または結合確率質量関数）を最大化します。これは私には明らかです。nnn よるとの関係：可能性、条件付き確率と故障率、「可能性は確率ではありません、それは条件付き確率ではありません」。また、「尤度はベイジアンの尤度の理解においてのみ条件付き確率です。つまり、が確率変数であると仮定した場合」。θθ\theta 頻度の高い人とベイジアンの間で学習問題を扱う際のさまざまな視点について読みました。ソースによると、ベイジアン推論の場合、アプリオリ、尤度P （X | θ ）があり、ベイジアン定理を使用して事後P （θ | X ）を取得します。P(θ)P(θ)P(\theta)P(X|θ)P(X|θ)P(X|\theta)P(θ|X)P(θ|X)P(\theta|X) P(θ|X)=P(X|θ)×P(θ)P(X)P(θ|X)=P(X|θ)×P(θ)P(X)P(\theta|X)=\dfrac{P(X|\theta) \times P(\theta)}{P(X)} 私はベイジアン推論に精通していません。どうしてP(X|θ)P(X|θ)P(X|\theta)そのパラメータを条件と観測データの分布である、また、可能性と呼ばれますか？ではウィキペディア、それが時にはそれが書かれていると言い。これは何を意味するのでしょうか？L(θ|X)=p(X|θ)L(θ|X)=p(X|θ)L(\theta|X)=p(X|\theta) 頻度についての頻度とベイジアンの定義に違いはありますか？ありがとう。編集：ベイズの定理の解釈には、ベイズの解釈と頻度論者の解釈のさまざまな方法があります（ベイズの定理-ウィキペディアを参照）。

21 probability bayesian conditional-probability likelihood frequentist

4

50％は25％よりも100％高いのですか、それとも25％よりも25％高いのですか？

両方ともCのパーセンテージで表される2つの値AとBがあり、AとBの大きさの差をパーセンテージDで表したい場合、DをCのパーセンテージで表したほうが正しいですか、またはB（または実際にA）の割合として？ここで「％」は「25人の失業者の割合」を意味することが明らかであるため、50人の失業者は25人の失業者よりも明らかに50％大きい。しかし、25％の失業率よりも50％の失業率はどのくらい大きいのでしょうか？25％の失業率の100％の増加ですが、潜在的な失業率全体の25％の増加のみです。

21 terminology percentage

4

サンプルサイズが十分に大きい場合、実際の効果サイズが正確にゼロでない限り、テストは常に重要な結果を示します。どうして？

Wikipediaの効果サイズに関する記事で主張されていることに興味があります。具体的には： [...] null以外の統計比較では、母集団効果サイズが正確にゼロでない限り、常に統計的に有意な結果が表示されますこれが何を意味/意味するのかはわかりませんが、それを裏付ける議論は言うまでもありません。結局、効果は統計、つまり、サンプルから計算された値であり、独自の分布を持っていると思います。これは、効果が単なるランダムな変動によるものではないことを意味しますか（これは重要ではないことを意味します）？次に、効果が十分に強いかどうか、つまり絶対値が高いかどうかだけを検討しますか？私が最もよく知っている効果を考えています。ピアソン相関係数rはこれと矛盾するようです。が統計的に有意なのはなぜですか？が小さい場合、回帰直線 r y = a x + b = r （s yrrrrrry=ax+b=r(sysx)=ϵx+by=ax+b=r(sysx)=ϵx+b y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon x+b 小さな、0に近いです、F-テストはおそらくスロープを0を含む区間自信が含まれています。これは反例ではありませんか？ϵϵ\epsilon

21 hypothesis-testing

2

場合の「単位分散」リッジ回帰推定量の制限

に単位平方和（同等に、単位分散）が必要な追加の制約を使用したリッジ回帰を検討してください。必要に応じて、は単位平方和もあると想定できます。 Yy^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. \ lambda \ to \ inftyの場合、\ hat {\ boldsymbol \ beta} _ \ lambda ^ *の制限は何ですか？β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^*λ→∞λ→∞\lambda\to\infty 以下は、私が真実だと信じている声明です。 \ lambda = 0の場合λ=0λ=0\lambda=0、きちんとした明示的な解決策があります。OLS推定器を取るβ^0=(X⊤X)−1X⊤yβ^0=(X⊤X)−1X⊤y\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf yおよび制約を満たすように正規化します（ラグランジュ乗数を追加して微分することでこれを見ることができます）： β^∗0=β^0/∥Xβ^0∥.β^0∗=β^0/‖Xβ^0‖.\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|. …

21 pca regularization ridge-regression partial-least-squares constrained-regression

1

5人の被験者の100個の測定値が、100人の被験者の5個の測定値よりもはるかに少ない情報を提供することを示す

会議で、私は次の声明を耳にしました。 5人の被験者の100の測定値は、100人の被験者の5つの測定値よりもはるかに少ない情報を提供します。これが本当であることは明らかですが、数学的にどのように証明できるのか疑問に思っていました...線形混合モデルを使用できると思います。ただし、それらの推定に使用される数学についてはあまり知りません（lmer4LMMおよびGLMMで実行するだけbmrsです）。これが真実である例を教えてください。Rの一部のコードよりも、いくつかの式を使用した回答を希望します。たとえば、正規分布のランダムインターセプトとスロープを持つ線形混合モデルなど、簡単な設定を想定してください。 PS LMMを含まない数学ベースの回答も大丈夫でしょう。LMMは、より多くの被験者からのより少ない測定値が少数の被験者からのより多くの測定値よりも優れている理由を説明するための自然なツールのように思えたため、LMMについて考えました。

21 mixed-model variance repeated-measures sample-size intraclass-correlation

4

記述統計を報告する意味は何ですか？

ロジスティック回帰を使用してデータの分析を実行しましたが、レポートに記述的な統計の部分を含める必要もあります。正直なところ、この点についてはわかりませんが、なぜそれが必要なのかを誰かが説明できるかもしれないと期待していました。たとえば、独立した連続変数の1つのヒストグラムをプロットし、それが正規性を示す場合、または歪度を示す場合、どのようにレポートに値を追加しますか？私のデータは、就職の従属変数trueまたはfalseで構成されており、独立変数は、中間期の成績、最終試験の成績、および男性または女性です。

21 descriptive-statistics reporting

1

一般化線形モデル（GLM）の潜在変数の解釈

短縮版：ロジスティック回帰とプロビット回帰は、観測前に何らかの固定しきい値に従って離散化される連続潜在変数を含むものとして解釈できることを知っています。同様の潜在変数の解釈は、例えばポアソン回帰で利用可能ですか？3つ以上の個別の結果がある場合、二項回帰（ロジットまたはプロビットなど）についてはどうですか？最も一般的なレベルでは、潜在変数の観点からGLMを解釈する方法はありますか？ロングバージョン：バイナリ結果のプロビットモデルを動機付ける標準的な方法（たとえば、Wikipediaから）は次のとおりです。予測変数Xを条件として、正規分布している未観測/潜在結果変数YYYがあります。この潜在変数はしきい値処理を受け、、場合、実際に観測される離散結果はXXXY ≥ γをu=1u=1u=1Y≥γY≥γY \ge \gammau=0u=0u=0、場合です。これにより、Xが与えられた場合のu = 1の確率は、平均および標準偏差がしきい値γの関数である正規CDFの形をとることになります。Y<γY<γY < \gammau=1u=1u=1XXXγγ\gammaおよびX上のの回帰の傾き。したがって、プロビットモデルは、X上のYの潜在的な回帰から勾配を推定する方法として動機付けられています。YYYXXXYYYXXX これは、Thissen＆Orlando（2001）の以下のプロットに示されています。これらの著者は、私たちの目的ではプロビット回帰に非常に似ているアイテム応答理論から通常のオジーブモデルを技術的に議論しています（これらの著者はXの代わりにを使用し、確率は通常のPではなくTで記述されていることに注意してください）。θθ\thetaXXXTTTPPP ロジスティック回帰はほぼ同じ方法で解釈できます。唯一の違いは、Xが与えられると、観測されていない連続が正規分布ではなくロジスティック分布に従うことです。Yが正規分布ではなくロジスティック分布に従う理由の理論的議論は少し明確ではありません...しかし、結果のロジスティック曲線は、実際の目的（リスケーリング後）で通常のCDFと本質的に同じように見えるため、おそらく実際には、どのモデルを使用するかが重要になる傾向があります。ポイントは、両方のモデルに非常に簡単な潜在変数の解釈があるということです。YYYXXXYYY -私たちは、他のGLMSに見て、類似した（または地獄、非類似に見える）潜在変数の解釈を適用することができるかどうかを知りたいにも、または任意の GLM。上記のモデルを拡張して、項分布の結果（つまり、ベルヌーイの結果だけでなく）を説明することは、私には完全に明確ではありません。おそらく、単一のしきい値γを持つ代わりに、複数のしきい値（観測された個別の結果の数より1つ少ない）があることを想像することでこれを行うことができます。ただし、しきい値が等間隔になっているなど、しきい値に何らかの制約を課す必要があります。詳細は明らかにしていませんが、このようなことがうまくいくと確信しています。n > 1n>1n>1γγ\gamma ポアソン回帰のケースに移行することは、私にはさらに明確ではないようです。この場合のモデルについて考えるのにしきい値の概念が最善の方法になるかどうかはわかりません。また、潜在的な結果がどのような分布であると考えられるかについてもわかりません。これまで最も望ましい解決策は、解釈の一般的な方法だろう任意のいくつかのディストリビューションや他との潜在変数の面でGLMを-この一般的な解決策を暗示していた場合でも、異なるロジット/プロビット回帰の通常のものよりも潜在変数の解釈を。もちろん、一般的な方法が通常のロジット/プロビットの解釈に同意するだけでなく、他のGLMにも自然に拡張されると、さらに格好良くなります。しかし、そのような潜在変数の解釈が一般的なGLMの場合に一般的に利用できない場合でも、上記の二項およびポアソンのような特殊な場合の潜在変数の解釈についても聞きたいです。参照資料 Thissen、D.＆Orlando、M.（2001）。2つのカテゴリでスコア付けされたアイテムのアイテム応答理論。D. Thissen＆Wainer、H.（編）、Test Scoring（pp。73-140）。ニュージャージー州マーワー：Lawrence Erlbaum Associates、Inc. 2016-09-23を編集 GLMが潜在変数モデルであるという些細な感覚があります。つまり、推定される結果分布のパラメーターを「潜在変数」として常に見ることができるということです。つまり、直接観察しません。、たとえば、ポアソンのレートパラメーターは、データから推測するだけです。この解釈によれば、線形モデル（およびもちろん他の多くのモデル！）は「潜在変数モデル」であるため、これはかなり些細な解釈であり、私が探しているものではありません。たとえば、通常の回帰では、Xが与えられた場合に通常のYの「潜在的な」を推定します。μμ\muYYYバツバツX。そのため、潜在変数のモデリングとパラメーターの推定を混同しているようです。私が探しているものは、たとえばポアソン回帰の場合、観測された結果が最初にポアソン分布を持たなければならない理由についての理論モデルのように見えます。潜在的なの分布、存在する場合は選択プロセスなど。その後、（おそらく決定的には？）これらの潜在的な分布/プロセスのパラメーターの観点から推定GLM係数を解釈できるはずです。潜在正規変数の平均シフトおよび/または閾値γのシフトに関してプロビット回帰の係数を解釈します。YYYγγ\gamma

21 logistic generalized-linear-model poisson-regression probit latent-variable

1

t-SNEとMDS

最近、t-SNE（t-Distributed Stochastic Neighbor Embedding）に関するいくつかの質問を読んでおり、MDS（Multidimensional Scaling）に関するいくつかの質問も訪れました。これらはよく似て使用されることが多いので、ここでは別々に（またはPCAと比較して）両方に多くの質問があるので、この質問をするのは良い考えのように思えました。要するに、t-SNEとMDSの違いは何ですか？例えば。探索するデータ階層の優れた点、さまざまな仮定など。収束率？カーネルの使用についてはどうですか、両方とも準拠していますか？

21 data-visualization dimensionality-reduction multidimensional-scaling tsne

5

一部の分布の平均が未定義になるのはなぜですか？

多くのPDFの範囲はマイナスからプラスの無限までありますが、いくつかの手段が定義され、いくつかは定義されていません。どのような一般的な特性が計算可能になりますか？

21 distributions mean

4

MCMC手法のサンプリングプロセスを「改善」するために、機械学習アルゴリズムまたは深層学習アルゴリズムを利用できますか？

MCMC（マルコフチェーンモンテカルロ）手法に関する知識が少ないことから、サンプリングは前述の手法の重要な部分であると理解しています。最も一般的に使用されるサンプリング方法は、ハミルトニアンとメトロポリスです。機械学習やディープラーニングを利用して、より効率的なMCMCサンプラーを構築する方法はありますか？

21 machine-learning mcmc monte-carlo markov-process