タグ付けされた質問 「mathematical-statistics」

形式的な定義と一般的な結果に関係する統計の数学的理論。


9
マハラノビス距離の一番下の説明?
私はパターン認識と統計を研究しており、マハラノビス距離の概念にぶつかる主題について私が開くほとんどすべての本です。本は一種の直観的な説明を提供しますが、それでも私が実際に何が起こっているのかを実際に理解するには十分ではありません。誰かが「マハラノビス距離とは何ですか?」私は答えることしかできませんでした:「それはある種の距離を測定するこの素晴らしいことです」:) 定義には通常、固有ベクトルと固有値も含まれていますが、マハラノビス距離との接続には少し問題があります。固有ベクトルと固有値の定義を理解していますが、それらはマハラノビス距離とどのように関係していますか?線形代数などでベースを変更することに関係していますか? 私はまた、主題に関するこれらの以前の質問を読みました: マハラノビス距離とは何ですか?パターン認識でどのように使用されますか? ガウス分布関数とマハラノビス距離の直感的な説明(Math.SE) 私もこの説明を読みました。 答えは素晴らしく良いと絵ですが、まだ私はしていない、本当に私はアイデアを持っているが、それは暗闇の中で、まだだ...それを得ます。誰かが「おばあちゃんにそれをどのように説明しますか」という説明を与えることができますか?:)それはどこから来たのですか、何で、なぜですか? 更新: マハラノビスの式を理解するのに役立つものを次に示します。 https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

9
期待値最大化を理解するための数値例
EMアルゴリズムを十分に把握して、実装して使用できるようにしています。私は丸1日、理論と、レーダーからの位置情報を使用して航空機を追跡するためにEMが使用される論文を読みました。正直なところ、私は根本的なアイデアを完全に理解しているとは思わない。簡単な問題(ガウス分布や正弦波系列のシーケンスの推定、線のフィッティングなど)のためのEMの数回の反復(3-4)を示す数値例を誰かに教えていただけますか。 誰かが(合成データを使用して)コードの一部を指し示すことができたとしても、そのコードをステップスルーしてみることができます。



12
ベイジアンとは?
統計に興味を持つようになると、「フリークエンティスト」と「ベイジアン」の二分法がすぐに一般的になります(とにかく、ネイトシルバーの「シグナルとノイズ」を読んでいない人はいますか?)。講演と入門コースでは、視点は圧倒的に頻繁(MLE、値)ですが、ベイズの公式を賞賛し、通常は接線で事前分布の概念に触れることに専念する時間はごくわずかである傾向があります。ppp ベイジアン統計を議論するために採用されたトーンは、その概念的基盤の尊重と、高尚な目標間の溝に関する懐疑主義のヒントと、事前分布の選択における意性、または結局は頻繁な数学の最終的な使用との間で振動します。 「もしあなたがハードコアベイジアンなら...」などの文はたくさんあります。 問題は、今日のベイジアンは誰ですか?彼らは、あなたがそこに行けば、あなたがベイジアンになることを知っているいくつかの学術機関ですか?もしそうなら、彼らは特別に求められていますか?尊敬されている統計学者や数学者だけに言及していますか? それらは、これらの純粋な「ベイジアン」としても存在しますか?彼らはラベルを喜んで受け入れますか?それはいつもお世辞の区別ですか?彼らは、会議で特異なスライドを持ち、値と信頼区間を奪われ、パンフレットで簡単に見つけられる数学者ですか?ppp どのくらいのニッチが「ベイジアン」であるか?私たちは少数の統計学者に言及していますか? または、現在のベイジアン主義は機械学習アプリケーションと同一視されていますか? ...またはもっと可能性が高いのは、ベイジアン統計は統計の枝ではなく、むしろ確率計算の範囲を超えて科学哲学へと向かう認識論的運動でしょうか?この点で、すべての科学者は本質的にベイジアンになります...しかし、頻繁なテクニック(または矛盾)に不浸透性の純粋なベイジアン統計学者のようなものはありません。


14
一般的な時系列のオンライン異常値検出のためのシンプルなアルゴリズム
私は大量の時系列で作業しています。これらの時系列は基本的に10分ごとに発生するネットワーク測定値であり、一部は定期的(帯域幅)であり、一部はそうでない(つまりルーティングトラフィックの量)です。 オンラインの「異常値検出」を行うための簡単なアルゴリズムが欲しいです。基本的に、各時系列の履歴データ全体をメモリ(またはディスク)に保持し、ライブシナリオ(新しいサンプルがキャプチャされるたびに)で異常値を検出します。これらの結果を達成する最良の方法は何ですか? 現在、ノイズを除去するために移動平均を使用していますが、次に何をしますか?データセット全体に対する標準偏差、狂気などの単純なものはうまく機能しません(時系列が定常的であるとは思いません)。 double outlier_detection(double * vector、double value); ここで、vectorは履歴データを含むdoubleの配列であり、戻り値は新しいサンプル "value"の異常スコアです。

8
もし平均がとても敏感なら、そもそもなぜそれを使うのか?
中央値が外れ値に対して耐性があることは既知の事実です。その場合、最初に平均を使用するのはいつ、なぜですか? おそらく考えられることの1つは、外れ値の存在を理解することです。つまり、中央値が平均から離れている場合、分布は歪んでおり、おそらく外れ値で何をするかを決定するためにデータを調べる必要があります。他の用途はありますか?


8
ベイジアン:尤度関数の奴隷?
Larry Wasserman教授は、彼の著書「統計のすべて」で、次の例を示しています(11.10、188ページ)。ような密度があり、は既知の(非負の積分可能な)関数であり、正規化定数は不明であるとします。ffff(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)c > 0gggc>0c>0c>0 計算できない場合に興味があります。たとえば、が非常に高次元のサンプル空間でのpdfである場合があります。c=1/∫g(x)dxc=1/∫g(x)dxc=1/\int g(x)\,dxfff が未知であってもからサンプリングできるシミュレーション手法があることはよく知られています。したがって、パズルは次のとおりです。このようなサンプルからをどのように推定できますか。fffcccccc 教授ワッサーマンは、次のベイズソリューションについて説明します聞かせてのためのいくつかの前にである。尤度は したがって、事後 はサンプル値依存しません。したがって、ベイジアンはサンプルに含まれる情報を使用してに関する推論を行うことはできません。ππ\picccπ (C | X )αのC nは π (Cは)xは1、... 、X nは CをLx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn.Lx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn. L_x(c) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n \left(c\,g(x_i)\right) = c^n \prod_{i=1}^n g(x_i) \propto c^n \, . π(c∣x)∝cnπ(c)π(c∣x)∝cnπ(c) \pi(c\mid x) \propto c^n \pi(c) x1,…,xnx1,…,xnx_1,\dots,x_nccc Wasserman教授は、「ベイジアンは尤度関数の奴隷です。尤度がおかしくなると、ベイジアン推論もそうなります」と指摘しています。 私の仲間のスタッカーに対する私の質問は、この特定の例に関して、ベイズの方法論で何が間違っていたのか(もしあれば)? PSワッサーマン教授が答えで親切に説明したように、この例はエドジョージによるものです。

15
なぜパラメトリック統計がノンパラメトリックよりも優先されるのでしょうか?
誰かが仮説検定や回帰分析のためにノンパラメトリック統計手法よりもパラメトリックを選択する理由を説明できますか? 私の考えでは、それはあなたがそれを濡らさないかもしれないので、ラフティングに行き、非防水時計を選ぶようなものです。あらゆる機会に機能するツールを使用してみませんか?



13
過去15年間の統計のブレークスルーは何ですか?
Friedman-Hastie-TibshiraniによるBoostingに関する統計の論文と、他の著者(フロイントとシャピレを含む)による同じ問題に関するコメントを今でも覚えています。当時、明らかにBoostingは多くの点でブレークスルーと見なされていました。計算的に実行可能なアンサンブルメソッドであり、優れた、しかし神秘的なパフォーマンスを備えています。ほぼ同時期に、SVMは成熟し、堅固な理論に裏打ちされたフレームワークを提供し、多くのバリアントとアプリケーションを備えています。 それは素晴らしい90年代でした。過去15年間に、多くの統計はクリーンで詳細な操作でしたが、本当に新しい見解はほとんどありませんでした。 そこで、2つの質問をします。 革命的/最終的な論文を見逃していませんか? そうでない場合、統計的推論の視点を変える可能性があると思われる新しいアプローチはありますか? ルール: 投稿ごとに1つの回答。 参照またはリンクを歓迎します。 PS:有望なブレークスルーの候補がいくつかあります。後で投稿します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.