データマイナーのための実験計画のコース


11

私はデータマイニングに携わるコンピューターサイエンティストです。コンピューター科学者が体系的な実験計画と評価を行うのがかなり下手だと言うことは秘密ではありません-p値と信頼度推定の使用は高度であると考えられます:)。

コンピュータサイエンティストに優れた実験計画法を教えるための優れたコースや資料があるかどうか知りたい。これをより具体的にするために、次の情報を追加します。

  • このコースは、確率については合理的に理解していると考えられるが、統計のバックグラウンドが限られている大学院生を対象とする必要があります。
  • このコースでは、「制御されていない不自然な設定」での実験計画に焦点を当てる必要があります。つまり、基礎となる物理的なグラウンドトゥルースも、データ収集プロセスを制御する方法もありません(人間の被験者と同様)。もちろん、良いコースはファンダメンタルズに焦点を当てますが、このシナリオをかなりの方法で扱う必要があります。
  • 計算要素はおまけですが、必須ではありません。私たちは多くのデータを扱いますが、必要に応じて自分で計算の問題を理解することができます。

1
あなたが説明する実験のすべての条件は、A / Bテストを思い出させます...偶然ですか?:)
steffen

回答:


5

[ノア・スミス] [1]と[デビッド・スミス] [2]は、JHUで以前と同じような動機でコースを提供しました。

概要:

  • 講義1:導入、統計のレビュー、仮説検定、サンプリング
  • 講義2:関心のある統計:平均、分位数、分散
  • 講義3–4:ランタイムと「スペース」の実験
  • 講義5:探索的データ分析
  • 講義6:パラメトリックモデリング、回帰、および分類
  • 講義7:統計のデバッグとプロファイリング
  • 講義8:まとめと復習

詳細については、コンピュータサイエンスの経験的研究方法(600.408)を参照してください。http: //www.cs.jhu.edu/~nasmith/erm/


4

コースの代わりに2冊の本を提案できます

1つ目はバイオインフォマティクスへの応用として、2つ目はあらゆる分野への応用


1
また、この記事をチェックstats.stackexchange.com/questions/1815/...
friveroll

3

良い質問。その反応を楽しみにしています。

統計的な観点からは、2つの問題に対処する必要があります。ほとんどの統計と統計設計では、少量のサンプル統計が議論されており、エンジニアが使用するほとんどの方法論は「最新の」統計ではありません。

データマイニング/探索における優れた教育を超えた最初の問題と、母集団(または大きなサンプル)統計の分析に直面したときの統計的に異なる意味について、私は即座に提案しません。

ただし、学生に統計を紹介するために興味のある2冊の本は、ランドウィルコックス(心理学者)からのものです。

ウィルコックス、RR(2012)。ロバスト推定と仮説検定の紹介、第3版。アカデミックプレス。

ウィルコックス、RR(2010)。現代の統計的手法の基礎:電力と精度を大幅に向上、Springer、第2版。


2
最初の問題は研究用であり、「ベストプラクティス」がまだないように思えます。多分仮説問題の基本的なテストとドリルのしっかりした紹介が、開始するのに最適な場所かもしれません。
Suresh Venkatasubramanian、2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.