過去15年間の統計のブレークスルーは何ですか?


56

Friedman-Hastie-TibshiraniによるBoostingに関する統計の論文と、他の著者(フロイントとシャピレを含む)による同じ問題に関するコメントを今でも覚えています。当時、明らかにBoostingは多くの点でブレークスルーと見なされていました。計算的に実行可能なアンサンブルメソッドであり、優れた、しかし神秘的なパフォーマンスを備えています。ほぼ同時期に、SVMは成熟し、堅固な理論に裏打ちされたフレームワークを提供し、多くのバリアントとアプリケーションを備えています。

それは素晴らしい90年代でした。過去15年間に、多くの統計はクリーンで詳細な操作でしたが、本当に新しい見解はほとんどありませんでした。

そこで、2つの質問をします。

  1. 革命的/最終的な論文を見逃していませんか?
  2. そうでない場合、統計的推論の視点を変える可能性があると思われる新しいアプローチはありますか?

ルール:

  1. 投稿ごとに1つの回答。
  2. 参照またはリンクを歓迎します。

PS:有望なブレークスルーの候補がいくつかあります。後で投稿します。


5
同様の質問については、stats.stackexchange.com / q / 1883/159を参照してください(主観的かつ議論的であるため閉鎖されました)。
ロブハインドマン

1
私は同じスレッドを作成しようとしていました。複製のような匂い。
ダークエデルビュッテル

1
確かに主観的ですが、CWにとってはまだ大丈夫ではありませんか?
クリストファーアデン

1
それはより長い時間スケールでした。重複しているとは思わない。論証に関しては、参加者次第です。私はここでトロフィーを授与しようとはしていません。私や他の人が見逃したかもしれない独創的な論文に遅れないようにするためです。正しい答えはないので、私はCWに専念しています。これまでのところ、すべての答えがベイジアンイノベーションに関するものであることが興味深いと思います。
ギャップのある

2
これは、祖父になることができる投稿のようです。これは開いたままにできると思います。
GUNG -モニカ元に戻し

回答:


43

答えは非常に単純なので、CVに投稿させるために、このような意味のない文章をすべて書かなければなりません:R


14

あなたがそれをそれ自体「ブレークスルー」と呼ぶかどうかはわかりませんが、エドウィン・ジェインズとラリー・ブレットソーストによる確率論の出版:科学の論理は注目に値するかもしれません。彼らがここで行うことのいくつかは次のとおりです。

1)いくつかの反復「季節調整」スキームとベイジアン「迷惑パラメータ」統合の等価性を示します。

2)いわゆる「周辺化パラドックス」を解決-一部の人は「ベイジアン主義の死」、他の人は「不適切な優先権の死」と考えられていた。

3)世界の物理的性質を記述するのではなく、確率が命題が真か偽かについての知識の状態を記述するという考え。

この本の最初の3つの章は、ここから無料入手できます


2
残念ながら、Jaynesの周辺化パラドックスの解決には欠陥がありました。ケビンヴァンホーンの参照の疎外パラドックスのジェインズの治療上の注意事項を利用でき、ここに
シアン

1
@cyan-いくつかの分野で彼の解像度に欠陥がありましたが、彼の根底にある原則はそれを解決したことに注意してください。適切な事前確率とその収束限界の一般的な規則は、mpが発生しないことを意味します。この欠陥は、パート2のほとんどで未完成の本が原因である可能性が最も高いです。ksvhバージョンよりも解像度[こちら](arxiv.org/abs/math/0310006)の方が好きです。より短く、より一般的。
確率論的

14

適用された統計学者であり、時折マイナーなソフトウェア作成者として、私は言うだろう:

WinBUGS(1997年にリリース)

15年以上前(1989年)にリリースされたBUGSに基づいていますが、現実的に複雑なモデルのベイジアン分析をより広範なユーザーベースで利用できるようにしたのはWinBUGSです。たとえば、Lunn、Spiegelhalter、Thomas&Best(2009)(およびStatistics in Medicine vol。28 issue 25での議論)を参照してください。


2
これStanは現在どのように変更されていますか?
アリB.フリードマン

13

kii


LARSを使用したことがありますか?聞いたことがないので、とても面白いと思います。元の記事は少し長い(93ページ)ので、深く掘り下げる前に意見を聞きたい。
トメックタルチンスキ

@Tomek Tarczynski:少し使用しました。Matlabには(Rに1つ以上あると確信しています)パッケージがあり、それを使用しました。それはまた、私がより興味を持ったまばらなPCAを提供します。;)
シャビーシェフ

11

「固有の不一致」損失関数と他の「パラメーター化されていない」損失関数の決定理論への導入。他にも多くの「素敵な」プロパティがありますが、最良のプロパティは次のとおりです。

θθeθg(θ)g(θe)

これはとてもクールだと思います!(たとえば、log-oddsの最適な推定値はlog(p /(1-p))、分散の最適な推定値は標準偏差の2乗などです。)

キャッチ?本質的な矛盾を解決するのは非常に困難です。(min()関数、尤度比、および積分が含まれます!)

「カウンターキャッチ」?問題を「再配置」して、計算しやすくすることができます!

「カウンターカウンターキャッチ」?問題を「再配置」する方法を理解することは困難です。

この損失関数を使用する私が知っているいくつかの参照があります。私はこれらの論文/スライドの「本質的な推定」部分が非常に好きですが、「参照先」アプローチについてもいくつかの留保があります。

ベイズ仮説検定:参照アプローチ

固有の推定

通常の平均の比較:古い問題の新しい方法

統合された客観的ベイズ推定と仮説検定



9

私自身の5セントを加えると、過去15年間で最も重要なブレークスルーはCompressed Sensingだったと思います。LARS、LASSO、および他の多くのアルゴリズムがこのドメインに該当します。圧縮センシングが機能する理由を説明し、それらを他のドメインに拡張するからです。


1
圧縮センシングを見てきましたが、非統計学者として、「これは単なる逆ランダム投影ではありませんか?」と自問自答しています。「ジャスト」という言葉は簡単に放り出せることを知っていますが、ランダムな投影(2000年頃)と圧縮センシング(2004年頃)の間の明らかなつながりのように見えるものを人々が除外しているように感じます。
ウェイン

9

統計自体とはほとんど関係ないものの、非常に有益なもの。コンピューターの火力の増大、より大きなデータセットとより複雑な統計分析、特に応用分野でのアクセスのしやすさ。


8

特に通常のラプラス近似とは異なり、計算コストの高いサンプリングベースのアプローチとほぼ同様に機能する効率的な分析近似法を提供するため、特にガウス過程分類におけるベイジアン推論の期待値伝播アルゴリズムは、おそらく大きなブレークスルーでした。EPロードマップでThomas Minkaなどの作品をご覧ください


EPはクールに見えます(それでも頭が痛いのですが)。一般的な収束の保証はまだありませんか?
共役前



2

統計よりも少し一般的ですが、再生産可能な研究(RR)の方法には重要な進歩があったと思います。たとえば、Rの開発knittrSweaveパッケージおよび「R Markdown」ノートブック、LyXおよびLaTeXの改善は、データ共有、コラボレーション、検証/検証、さらには統計のさらなる向上に大きく貢献しています。統計、医学、疫学雑誌の査読付き論文では、これらの再現可能な研究方法/技術が出現する前に、結果を簡単に再現することはほとんど許可されていませんでした。現在、いくつかのジャーナルは再現可能な研究を必要としており、多くの統計学者はRRを使用し、コード、結果、およびWeb上のデータソースを投稿しています。これはまた、データサイエンスの分野の育成に役立ち、統計学習をより利用しやすくしました。


1

私の意見では、2011年にScience誌に発表された論文です。著者は、同様の測定が失敗する多くの状況(ピアソン、スピアマン、ケンドール)でうまく機能するランダム変数のペア間の関連の非常に興味深い測定を提案します。本当にいい紙。ここにあります。


リンクが壊れているようです。
dsaxton

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.