統計の「大きな問題」とは何ですか?


77

数学には有名なミレニアム問題(そして歴史的にはヒルベルトの23)、分野の方向性を形作るのに役立つ質問があります。

しかし、リーマン仮説と統計のP対NPがどうなるか、私にはほとんど分かりません。

それでは、統計における包括的な未解決の質問は何ですか?

追加して編集: 私が探している答えの一般的な精神の例(非常に具体的ではないにしても)として、「21世紀の数学の挑戦」会議で、David Donohoによる「Hilbert's 23」に触発された講義を見つけました:高次元データ分析:次元の呪いと祝福

したがって、潜在的な答えは、ビッグデータとそれが重要である理由、高次元データがもたらす統計的課題の種類、問題を解決するために開発する必要がある方法または回答する必要がある質問について話すことができます。


5
これを投稿していただきありがとうございます。それは重要な(そして潜在的に刺激的な)議論です。
whuber

回答:


48

大きな疑問は、統計的方法論の重要な問題に関与させるべきか、統計が完全なアプリケーションについてですので、それは統計が社会にとって重要な問題をどのように使用されるかを気にする必要があります。

この特性化により、大きな問題を考慮する場合には、以下を含める必要があることが示唆されます。

  • 薬物治験を実施する最良の方法。現在、古典的な仮説検定には多くの正式な研究段階が必要です。後の(確認)段階では、経済的および倫理的な問題が大きく見えます。もっと良くできますか?数百または数千の病気の人をコントロールグループに入れて、例えば研究の終わりまでそこに置いておく必要がありますか、それとも本当に効果がある治療法を特定して試験のメンバーに届けるより良い方法を見つけることができますか?その他)早く?

  • 科学的出版バイアスに対処する。ネガティブな結果は、魔法のp値に到達しないために公開されません。科学のすべての支店は、科学的にもたらすためのより良い方法を見つける必要がある重要な、だけではなく、統計的に重要な、光に結果を。(多重比較問題と高次元データへの対処は、この問題のサブカテゴリーです。)

  • 統計的手法の限界と、機械学習と機械認識とのインターフェースの調査。コンピューティング技術の必然的な進歩は、私たちの生涯で真のAIにアクセスできるようにします。人工脳をどのようにプログラムしますか?これらの進歩を生み出す上で、統計的思考と統計的学習はどのような役割を果たしますか?統計学者は、人工認知、人工学習について考え、自分の限界を探求し、進歩を遂げるのにどのように役立ちますか?

  • 地理空間データを分析するより良い方法を開発する。多くの場合、データベースの大部分、または大部分がロケーション参照を含むと主張されています。すぐに多くの人々とデバイスがGPSと携帯電話技術でリアルタイムに配置されます。空間データを分析および活用するための統計的手法は、まだ初期段階にあります(そして、非統計学者が通常使用するGISおよび空間ソフトウェアに追いやられているようです)。


1
人々がこれらの問題を解決しようとしている方法は何ですか?
-raegtin

3
@grautur:これは4つの優れた質問です(さらに、このスレッドのすべての回答に回答が適用されるため、さらに多くの質問があります)。それらはすべて精巧な答えに値しますが、明らかにここにはそのためのスペースがありません。一度に一つの質問をお願いします!
whuber

3
最初の箇条書き(薬物試験)に関して:それ以外の場合は医療実験に興味がないかもしれない人々でさえ、NYTimesの記事「臨床試験の基本規則に関する新薬の攪拌討論」nytimes.com/2010/09/19/health/research/ …)。統計的知識のある読者は、実験計画と意思決定にp値を使用することに関して、言及されていない意味合いをすぐに見ることができます。この記事で説明した生死の難問には、どこかで統計的な解決策があります。
whuber

26

Michael Jordanには、ベイジアン統計の未解決の問題とは何かという短い記事がありますか?、彼は統計学の未解決の問題に関する彼らの見解について、統計学者の集団に投票しました。ここで少し(別名、コピーアンドペースト)を要約しますが、おそらくオリジナルを読むことをお勧めします。

ノンパラメトリックとセミパラメトリック

  • ベイジアンノンパラメトリックはどのような問題に対して有用であり、トラブルに見合う価値がありますか?
  • デビッドダンソン:「ノンパラメトリックベイズモデルは無限に多くのパラメーターを含み、通常、適切な客観的または主観的な正当化なしに一見合理的な値に設定されたハイパーパラメーターで利便性のために事前分布が選択されます。」
  • 「頻度の高いノンパラメトリックの魅力的な用途の1つは、セミパラメトリック推論であり、モデルのノンパラメトリックコンポーネントは迷惑パラメータであると指摘されました。これらの人々は、ベイジアンセミパラメトリック。」

事前

  • 「誘因は未解決の問題の主要な原因のままです。」
  • 「Aad van der Vaartは客観的なベイズを頭に向け、「単にベイズのアプローチを平滑化に提供するのではなく」「前部が後部で通過することを望む状況」に対する理論の欠如を指摘しました。」

ベイジアン/フリークエンティストの関係

  • 「多くの回答者は、ベイジアン/フリークエンティストの関係をさらに打ち出したいという要望を表明しました。これは、高次元のモデルとデータのコンテキストで最も一般的に証明されました。 (非常に)誤解を招く。」
  • 「一部の回答者は、ベイジアン手法の推定上の利点をより完全に明らかにする可能性のある非漸近理論にピン留めしました。たとえば、David Dunson:「頻繁に、頻度の最適なレートは、ベイズのアプローチよりも有限サンプルで明らかに悪化する手順によって得られます。」 '

計算と統計

  • Alan Gelfand:「人々が対処したい問題に対してMCMCがもはや実行可能でない場合、INLA、変分法、ABCアプローチの役割は何ですか?」
  • 「いくつかの回答者は、計算科学と統計科学のより完全な統合を求めました。特定の状況で到達できる推論のセットは、モデル、事前、データ、計算リソースの関数であり、実際、ロブ・カスは、いくつかの問題が希望を超えていると理解されている「推論的可解性」の概念の可能性を提起しました(例えば、「非自明なノイズの対象となる控えめな量のデータの場合、モデルの有無が事前に指定されていない変数が多数存在する場合、回帰係数に関する有用な信頼区間を取得することはできません」および希望がある他の問題(「有用な信頼区間が存在する特定の機能」)があります。
  • 「いくつかの回答者は、特定のあいまいさを謝罪しながら、大量のデータが必ずしも大量の計算を意味するわけではないという感情を表明しました。少ない計算手順で間に合うようにして、満足できる(近似の)推論ソリューションを実現します。」

モデル選択と仮説検定

  • ジョージ・キャセラ:「我々は今、モデル選択を行うが、Bayesiansはそれが間違っている場合は、特定のパラメータのための信頼性の高い領域を設定する場合の影響は何ですかどのような選択されたモデルに推論を基づかの性質を心配していないようです?。ときに間違ったモデルを選択しましたか?何らかの保証付きの手順がありますか? "β1
  • モデル選択における意思決定理論の基礎に関するさらなる作業の必要性。
  • David Spiegelhalter:「事前/データ競合のチェックをベイジアン分析の不可欠な部分にする最善の方法は?」
  • アンドリュー・ゲルマン:「モデルのチェックで重要な未解決の問題は、モデルの理解と比較のためのグラフィカルツールの開発です。グラフィックスは生データだけでなく、複雑なベイジアンモデルがより効果的で探索的なデータ分析の機会を提供します。」

13

それらがどれほど大きいかはわかりませんが、統計の未解決の問題に関するウィキペディアのページがあります。リストには以下が含まれます。

推論とテスト

  • 系統的エラー
  • Graybill–Deal推定量の許容性
  • メタ分析で依存するp値を組み合わせる
  • Behrens–Fisher問題
  • 多重比較
  • ベイズ統計の未解決の問題

実験計画

  • ラテン方格の問題

より哲学的な性質の問題

  • 種の問題のサンプリング
  • 終末論
  • 交換パラドックス


4

Mathoverflowには、確率論の大きな問題に関する同様の質問があります。

そのページから、最大の質問はランダムウォークとパーコレーションを回避する自己に関するものであると思われます。


1
しかし、統計は確率論とは別の分野だと思います。
-raegtin

3
@raegtin-確率論は統計とは別だとは思わず、むしろ理論です。「統計学」とは、確率論を推論問題に応用することです(例)。
確率論的


3

私の答えは、頻繁な統計とベイジアン統計の間の闘争でしょう。あなたが「信じている」ものを人々が尋ねるとき、これは良くありません!特に科学分野の場合。


2
特にベイジアン確率は、ある命題の真実に関する信念または知識の程度を表すため、科学者が何かを「信じる」ことには何も問題はありません。
ディクランMarsupial

2
...科学者が信念と事実を区別できない場合にのみ問題が発生します。回答(AFAIK)を決定できる客観的なテストがないため、ベイジアンまたはフリークエンティストの統計が優れているという信念に非科学的なものはありません。
ディクランマースピアル

@propofol-「信じる」という言葉は統計で使用するのに適切な概念ではないことに同意します-それは間違った種類の含意を運びます。情報は、私が思うにもっと適切な言葉です(つまり、「どんな情報を持っていますか?」)。ベイズ分析の数学や最適性定理は変わりませんが、実際の使用方法に関して適切な意味を与えます。例えば、物理理論や因果メカニズムの知識は情報であり、信念ではありません。
確率論的
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.