統計とビッグデータ

1

私は適応MCMCについて読んでいます（例えば、Markov Chain Monte Carloハンドブックの第4章、ed。Brooks et al。、2011、およびAndrieu＆Thoms、2008を参照）。 nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 この結果は、（事後）直感的で、漸近的になります。適応の量はゼロになる傾向があるため、最終的にはエルゴード性を台無しにしません。私の懸念は、有限の時間で何が起こるかです。与えられた有限時間に適応がエルゴード性を台無しにしていないこと、そしてサンプラーが正しい分布からサンプリングしていることをどうやって知るのでしょうか？それが理にかなっている場合、早期適応がチェーンにバイアスをかけないようにするために、どの程度のバーンインを行う必要がありますか？現場の開業医は適応型MCMCを信頼していますか？私が試しビルドでの適応など、エルゴード性を尊重することが知られている他、より複雑な方法ですることを最近の多くの方法を見てきたので、私は求めています理由は、再生やアンサンブルの方法（すなわち、移行を選択することが合法です他の並列チェーンの状態に依存する演算子）。または、Stanなどのバーンイン中にのみ適応が実行されますが、実行時ではありません。これらのすべての取り組みは、ロバーツとローゼンタールによる適応型MCMC（実装するのは信じられないほど簡単です）が信頼できると見なされないことを示唆しています。しかし、おそらく他の理由があります。適応メトロポリス・ヘイスティングスなどの特定の実装についてはどうですか（Haario et al。2001）？参照資料ローゼンタール、JS（2011）。最適なプロポーザルの分布と適応MCMC。マルコフ連鎖モンテカルロのハンドブック、93-112。 Andrieu、C.、＆Thoms、J.（2008）。適応MCMCのチュートリアル。Statistics and Computing、18（4）、343-373。ロバーツ、GO、およびローゼンタール、JS（2007）。適応マルコフ連鎖モンテカルロアルゴリズムの結合とエルゴード性。応用確率のジャーナル、458-475。 Haario、H.、Saksman、E.、＆Tamminen、J.（2001）。適応メトロポリスアルゴリズム。ベルヌーイ、223-242。

20 simulation mcmc random-generation metropolis-hastings

3

作業環境で正しい統計を行っていますか？

この質問がどこに属しているのかわかりません：Cross Validated、またはThe Workplace。しかし、私の質問は漠然と統計に関連しています。「データサイエンスインターン」として働いている間に、この質問（または私は質問だと思います）が生じました。この線形回帰モデルを構築し、残差プロットを調べていました。異分散性の明確な兆候が見られました。不均一分散性は、信頼区間やt検定などの多くの検定統計量を歪めることを覚えています。そこで、大学で学んだことに従って、重み付き最小二乗法を使用しました。私のマネージャーはそれを見て、「私は物事を複雑にしていた」ので、それをしないように忠告しました。別の例は、「p値が重要でないため、説明変数を削除する」です。つまり、このアドバイスは論理的な観点からは意味がありません。私が学んだことによると、取るに足りないp値はさまざまな理由による可能性があります：偶然、間違ったモデルの使用、仮定への違反など。さらに別の例として、k-fold cross validationを使用してモデルを評価しました。結果によると、はよりも優れています。ただし、モデル1のは低く、その理由は切片と関係があります。しかし、私のスーパーバイザーは、モデル2の方がが高いため、モデル2を好むようです。彼の理由（が堅牢である、または相互検証が統計的アプローチではなく機械学習アプローチであるなど）は、私の考えを変えるほど説得力がないようです。CVM O De l 1CVmodel1CV_{model 1} R 2CVM O De l 2CVmodel2CV_{model 2}R2R2R^2R 2R2R2R^2R2R2R^2 大学を卒業したばかりの人として、私は非常に混乱しています。私は正しい統計を適用して現実世界の問題を解決することに非常に情熱を注いでいますが、次のどれが当てはまるのかわかりません。自分で学んだ統計は間違っているので、間違いを犯しています。企業の理論統計とモデルの構築には大きな違いがあります。そして統計理論は正しいが、人々はそれに従わない。マネージャーは統計を正しく使用していません。 2017年4月17日に更新：博士号を取得することにしました。統計で。お返事ありがとうございます。

20 careers

2

F統計がF分布に従うことの証明

この質問に照らして：OLSモデルの係数が（nk）自由度のt分布に従うことの証明理由を理解したい F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, ここで、pppモデルパラメータの数であり、nnn観測の数及びTSSTSSTSS全分散、RSSRSSRSSの残留分散は、以下のFp−1,n−pFp−1,n−pF_{p-1,n-p}分布。どこから始めればいいのかわからないので、私はそれを証明しようとさえしなかったことを認めなければなりません。

20 regression hypothesis-testing least-squares f-distribution f-statistic

5

4以外の数字に着くまでサイコロを振ります。結果が4を超える確率はどれくらいですか。

プレイヤーには、公平な6面ダイスが与えられます。勝つために、彼女は4より大きい数（5または6）を振らなければなりません。彼女が4を振った場合、彼女は再び転がらなければなりません。彼女の勝率は？を獲得する確率は、次のように再帰的に表現できると思います。P（W）P（W）P(W) P（W）= P（R = 5 ∪ R = 6 ）+ P（R = 4 ）⋅ P（W）P（W）=P（r=5∪r=6）+P（r=4）⋅P（W） P(W) = P(r = 5 \cup r = 6) + P(r = 4) \cdot P(W) 次のように、Javaで100万回の試行を実行することにより、を近似しました。P（W）P（W）P(W)0.39990.39990.3999 import java.util.Random; public class Dice { public static void main(String[] args) { int runs = 1000000000; int wins …

20 probability

1

ウェーブレット領域のガウス過程：共分散とは？

私は、Maraunら、「ウェーブレット領域の非定常ガウス過程：合成、推定、および重要なテスト」（2007）を読みました。これは、ウェーブレット領域の乗数によって指定できる非定常GPのクラスを定義します。そのようなGPの実現は次ここではホワイトノイズ、はウェーブレットに関する連続ウェーブレット変換です。、はスケールと時間の乗数（フーリエ係数のようなもの）であり、は再構成ウェーブレット逆ウェーブレット変換です。η （t ）W g g m （b 、a ）a b M h hs （t ）= Mhm （b 、a ）Wgη（t ）、s(t)=Mhm(b,a)Wgη(t), s(t) = M_h m(b,a) W_g \eta(t)\, , η（t ）η(t)\eta(t)WgWgW_ggggm （b 、a ）m(b,a)m(b,a)aaabbbMhMhM_hhhh この論文の重要な結果の1つは、乗数変化がゆっくりである場合、実現自体はと実際の選択に「わずかに」依存するということです。したがって、はプロセスを指定します。彼らは、実現に基づいてウェーブレット乗数を推測するのに役立ついくつかの重要なテストを作成し続けます。g h m （b 、a ）m （b 、a ）m(b,a)m(b,a)ggghhhm （b 、a ）m(b,a)m(b,a) 2つの質問： 1.ある標準GP尤度をどのように評価しますか？p （D ）= N（0 …

20 normal-distribution stochastic-processes gaussian-process fourier-transform wavelet

1

「スペクトル分解」によるリッジ回帰を使用した収縮係数の証明

リッジ回帰により、係数が幾何学的にゼロに縮小する方法を理解しました。さらに、特別な「正規直交ケース」でそれを証明する方法を知っていますが、「スペクトル分解」を介して一般的なケースでそれがどのように機能するか混乱しています。

20 regression multiple-regression regularization ridge-regression svd

1

幾何学的混合物からどのようにシミュレートできますか？

場合はf1,…,fkf1,…,fkf_1,\ldots,f_kアルゴリズムが利用可能である私は、シミュレートすることができ、そこから密度、すなわち、知られています。製品が積分可能な場合、この製品密度からシミュレートする一般的なアプローチはありますかからのシミュレーターF I∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_iの？

20 simulation monte-carlo geometric-mean scalability finite-mixture-model

3

分類器がサンプルの半分を誤分類した場合でも、AUC = 1になるのはなぜですか？

確率を返す分類器を使用しています。AUCを計算するには、pROC Rパッケージを使用しています。分類器からの出力確率は次のとおりです。 probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probsクラス「1」に属する確率を示します。示されているように、分類器はクラス「1」のすべてのサンプルを分類しました。真のラベルベクトルは次のとおりです。 truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0) 示されているように、分類器は5つのサンプルを誤って分類しています。しかし、AUCは次のとおりです。 pROC::auc(truel, probs) Area under the curve: 1 なぜそれが起こるのか説明してもらえますか？

20 machine-learning auc

9

1と2をローリングする確率が1/18であることをどのようにして知ることができますか？

私の最初の確率クラス以来、私は次のことを考えていました。確率の計算は通常、可能性のあるイベント全体に対する「お気に入りのイベント」の比率を介して導入されます。以下の表に示すように、2つの6面ダイスを振る場合、発生する可能性のあるイベントの量はです。363636 1234561(1,1)(2,1)(3,1)(4,1)(5,1)(6,1)2(1,2)(2,2)(3,2)(4,2)(5,2)(6,2)3(1,3)(2,3)(3,3)(4,3)(5,3)(6,3)4(1,4)(2,4)(3,4)(4,4)(5,4)(6,4)5(1,5)(2,5)(3,5)(4,5)(5,5)(6,5)6(1,6)(2,6)(3,6)(4,6)(5,6)(6,6)1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2）（6、3）（6、4）（6、5）（6、6）\begin{array} {|c|c|c|c|c|c|c|} \hline &1 & 2 & 3 & 4 & 5 & 6 \\ \hline 1 & (1,1) & (1,2) & (1,3) & (1,4) & (1,5) & (1,6) \\ \hline 2 & (2,1) & (2,2) & (2,3) & (2,4) & (2,5) & (2,6) \\ \hline 3 & …

20 probability dice

3

コインフリップの結果を正しく推測する可能性を最大化するには、常に最も可能性の高い結果を選択する必要がありますか？

これは宿題ではありません。この単純な統計の問題で私のロジックが正しいかどうかを理解することに興味があります。頭をひっくり返す確率がP(H)P(H)P(H)で、尾をひっくり返す確率が両面コインがあるとし1−P(H)1−P(H)1-P(H)ます。すべてのフリップに独立した確率があると仮定しましょう。さて、次のフリップでコインが頭か尾かを予測するチャンスを最大限にしたいとしましょう。場合P(H)=0.5P(H)=0.5P(H) = 0.5、Iがランダムにヘッド又はテールを推測することができ、私は正しいことの確率である0.50.50.5。さて、と仮定し、正しく推測する可能性を最大限にしたい場合、確率が0.8であるテールを常に推測する必要がありますか？P(H)=0.2P(H)=0.2P(H) = 0.20.80.80.8 これをさらに一歩進めて、3面ダイスがあり、1、2、または3を振る確率が、P （2 ）= 0.5、およびP （3 ）= 0.4だった場合、正しく推測する可能性を最大にするために、常に2を推測する必要がありますか？もっと正確に推測できる別のアプローチはありますか？P(1)=0.1P(1)=0.1P(1)=0.1P(2)=0.5P(2)=0.5P(2)=0.5P(3)=0.4P(3)=0.4P(3)=0.4

20 probability

4

学習と推論の違いは何ですか？

機械学習の研究論文では、多くの場合、学習と推論を2つの別々のタスクとして扱いますが、その区別が何であるかは明確ではありません。では、本書例えば、彼らは、タスクの両方の種類のベイズ統計を使用しますが、その区別のための動機を提供していません。私はそれが何であるかについていくつかのあいまいなアイデアを持っていますが、堅実な定義と、おそらく私のアイデアの反論または拡張を見たいと思います：特定のデータポイントの潜在変数の値を推測することと、データに適したモデルを学習することとの違い。（入力空間/プロセス/ワールドのダイナミクスを学習することで）分散を抽出できるように、分散を抽出（推論）と不変を学習することの違い。神経科学の類推は、短期増強/うつ病（記憶の痕跡）対長期増強/うつ病である可能性があります。

20 machine-learning terminology

4

ニューラルネットワークの角度データのエンコード

ターゲットデータが角度のベクトル（0〜2 * pi）であるニューラルネットワーク（詳細は重要ではありません）をトレーニングしています。このデータをエンコードする方法に関するアドバイスを探しています。私が現在試みていることは次のとおりです（成功は限られています）。 1）1-of-Cエンコード：設定可能な角度を1000程度の離散的な角度にビン化し、関連するインデックスに1を入力することで特定の角度を示します。これに関する問題は、ネットワークがすべての0を出力することを単に学習することです（これはほぼ正確であるため）。 2）単純なスケーリング：ネットワーク出力範囲（[0,1]）を[0,2 * pi]にスケーリングしました。ここでの問題は、角度が自然に円形のトポロジを持っていることです（つまり、0.0001と2 * piは実際には互いに隣り合っています）。このタイプのエンコードでは、その情報は失われます。任意の提案をいただければ幸いです！

20 neural-networks circular-statistics

7

対称正定値（SPD）行列がそれほど重要なのはなぜですか？

対称正定値（SPD）行列の定義は知っていますが、もっと理解したいです。なぜ、直感的に重要なのですか？これが私が知っていることです。ほかに何か？特定のデータの場合、共分散行列はSPDです。共分散行列は重要なメトリックです。直感的な説明については、この優れた投稿を参照してください。二次形式12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cあれば、凸状であり、AAASPDです。凸は、ローカルソリューションがグローバルソリューションであることを確認できる関数の優れたプロパティです。Convexの問題には、解決すべき多くの優れたアルゴリズムがありますが、covex以外の問題にはありません。 AAAがSPDの場合、2次形式の最適化ソリューションはminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cと線形システムのための溶液Ax=bAx=bAx=b同じです。したがって、2つの古典的な問題間で変換を実行できます。これは、あるドメインで発見されたトリックを別のドメインで使用できるため、重要です。たとえば、共役勾配法を使用して線形システムを解くことができます。コレスキー分解など、SPDマトリックスに適した多くの優れたアルゴリズム（高速で安定した数値）があります。編集：私はSPD行列のアイデンティティを尋ねるのではなく、重要性を示すためにプロパティの背後にある直観を求めています。たとえば、@ Matthew Druryが述べたように、行列がSPDの場合、固有値はすべて正の実数ですが、なぜすべてが正であるかが重要です。@Matthew Druryはフローに対して素晴らしい回答をしてくれました。

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

1

LASSOがラプラスを使用した線形回帰と同等である場合、ゼロのコンポーネントを持つセットに質量を設定するにはどうすればよいですか？

L O 、S 、S =∥Y− Xβ∥22+ λ ∥はβ∥1loss=‖y−バツβ‖22+λ‖β‖1 {\rm loss} = \| y - X \beta \|_2^2 + \lambda \| \beta \|_1 exp（- λ ∥はβ∥1）exp⁡（−λ‖β‖1） \exp(-\lambda \| \beta \|_1 ) λλ\lambda ビューのベイズの点から、私たちが言う、という事後確率を計算することができることを考えてみて、非ゼロのパラメータ推定値は、間隔のいずれかの指定されたコレクション内に存在し、 LASSOによってゼロに設定されたパラメータはゼロに等しいです。私が混乱しているのは、ラプラスの事前分布が連続的である（実際には絶対に連続的である）ことを考えると、の区間とシングルトンの積である集合にどのように質量があるのでしょうか？{ 0 }{0}\{0\}

20 lasso laplace-distribution

1

スプラインは予測に使用できますか？

データはプロプライエタリであるため、データの性質について具体的に説明することはできませんが、次のようなデータがあるとします。毎月、一部の人々がサービスにサインアップしています。その後、その後の各月に、それらの人々はサービスをアップグレードしたり、サービスを中断したり、サービスを拒否したりすることがあります（支払いの失敗など）データの最初のコホートについては、約2年のデータ（24か月）があります。毎月参加する人の数は多く（100,000の範囲）、3つのことのいずれかを行う数は数千人です。ただし、個々のレベルのデータ（数百万行）を使用するのではなく、月とコホート（各コホートの各割合が毎月どの程度を占めるか）ごとに集計されたデータを使用しています。多変量適応回帰スプライン（MARS）を使用して既存のデータをモデル化し、興味深い結果を見つけています。ただし、これらを使用して将来を予測または予測することを心配しています。私の懸念は、将来への予測は必然的に（時間的に）サンプル空間の外側にあり、スプラインは外挿に対して不安定になる可能性があるためです。これは正当な方法ですか？どのような懸念があり、それらに対処できますか？

20 panel-data splines mars