統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A



7
統計の「大きな問題」とは何ですか?
数学には有名なミレニアム問題(そして歴史的にはヒルベルトの23)、分野の方向性を形作るのに役立つ質問があります。 しかし、リーマン仮説と統計のP対NPがどうなるか、私にはほとんど分かりません。 それでは、統計における包括的な未解決の質問は何ですか? 追加して編集: 私が探している答えの一般的な精神の例(非常に具体的ではないにしても)として、「21世紀の数学の挑戦」会議で、David Donohoによる「Hilbert's 23」に触発された講義を見つけました:高次元データ分析:次元の呪いと祝福 したがって、潜在的な答えは、ビッグデータとそれが重要である理由、高次元データがもたらす統計的課題の種類、問題を解決するために開発する必要がある方法または回答する必要がある質問について話すことができます。
77 history 

9
数学者は、同等の知識を質の高い統計学の程度に望んでいます
私は人々が重複を閉じるのが好きであることを知っているので、統計の学習を開始するための参照を求めていません(こちら)。 私は数学の博士号を持っていますが、統計を学んだことはありません。一流のBS統計学の学位と同等の知識を得るための最短ルートは何ですか?それを達成したときにどのように測定しますか? 本のリストで十分な場合(演習で言うと仮定すると)、それは素晴らしいです。はい、問題を解決することはそれを学ぶことの暗黙の一部であると期待していますが、できるだけ現実に即して追跡したいと思います。統計学専攻が一般的に学んでいることの一部でない限り、私はめちゃくちゃ厳格な治療を探していません。


5
段階的回帰の最新の簡単に使用できる代替手段は何ですか?
約30の独立変数を持つデータセットがあり、それらと従属変数との関係を調べるために一般化線形モデル(GLM)を構築したいと思います。 この状況で教えられた方法である段階的回帰は、現在統計的な罪と見なされていることを認識しています。 この状況では、どのような最新のモデル選択方法を使用する必要がありますか?


3
機能の選択と相互検証
私は最近、このサイト(@ Aniko、@ Dikran Marsupial、@ Erik)およびクロス検証で発生する過適合の問題について他の場所で多くのことを読んでいます-(Smialowski et al 2010 Bioinformatics、Hastie、Elements of statistics learning)。提案は、ということである任意の(クラスラベルとの相関を使用して)教師付き特徴選択は、クロスバリデーション(またはブートストラップのような他のモデルの推定方法)を使用して、モデルのパフォーマンス推定の外部で実行オーバーフィッティングをもたらすことができます。 これは私には直感的ではないようです-確かに、機能セットを選択し、クロス検証を使用して選択した機能のみを使用してモデルを評価すると、それらの機能の一般化されたモデルパフォーマンスの公平な推定が得られます(これは調査中のサンプルが代表的であると仮定しています人口の)? この手順では、もちろん最適な機能セットを要求することはできませんが、目に見えないデータで選択した機能セットのパフォーマンスを有効として報告することはできますか? データセット全体に基づいて機能を選択すると、テストセットとトレインセット間のデータリークが発生する可能性があることを受け入れます。しかし、最初の選択後に機能セットが静的であり、他の調整が行われていない場合、クロス検証されたパフォーマンスメトリックを報告することは確かに有効ですか? 私の場合、56個の機能と259個のケースがあるため、#cases> #featuresです。機能はセンサーデータから派生します。 私の質問が派生的であるように思える場合はおbutびしますが、これは明確にする重要なポイントのようです。 編集: 上記のデータセットのクロス検証で機能選択を実装すると(以下の回答のおかげで)、このデータセットでクロス検証する前に機能を選択すると、重要な要素が導入されたことを確認できますバイアス。このバイアス/オーバーフィッティングは、2クラスの定式化と比較して、3クラスの定式化で最も大きくなりました。機能選択にステップワイズ回帰を使用したことで、この過剰適合が増加したと思います。比較のために、異なるが関連するデータセットで、クロス検証前に実行された順次順方向特徴選択ルーチンを、CV内の特徴選択で以前に取得した結果と比較しました。両方の方法の結果に劇的な違いはありませんでした。これは、ステップワイズ回帰がシーケンシャルFSよりも過剰適合しやすいことを意味する場合があります。または、このデータセットの奇抜である可能性があります。

1
サポートベクターマシンの理解を手伝ってください
入力セットをいくつかの異なるクラスに分類するという点で、サポートベクターマシンの目的の基本は理解していますが、理解していないのは本質的な詳細の一部です。まず、Slack Variablesの使用に少し混乱しています。彼らの目的は何ですか? 靴の中敷に置いたセンサーから圧力の測定値を取得する分類問題を行っています。被験者は、圧力データが記録されている間、数分間座り、立ち、歩きます。人が座っているか、立っているか、歩いているかを判断できるように分類器をトレーニングし、将来のテストデータでそれを実行できるようにします。どの分類器タイプを試す必要がありますか?キャプチャしたデータから分類器をトレーニングする最良の方法は何ですか?座ったり、立ったり、歩いたりするためのエントリが1000個あり(合計3x1000 = 3000)、それらはすべて次の特徴ベクトル形式を持っています。(センサー1からの圧力、センサー2からの圧力、センサー3からの圧力、センサー4からの圧力)

6
機械学習で相互検証を実行する際の「最終」モデルの機能選択
機能の選択と機械学習について少し混乱しているので、手伝ってくれないかと思っていました。2つのグループに分類され、1000の機能を持つマイクロアレイデータセットがあります。私の目的は、理論的に他のデータセットに適用してそれらのサンプルを最適に分類できるシグネチャで少数の遺伝子(私の特徴)(10-20)を取得することです。サンプル数が少ないため(<100)、テストとトレーニングセットを使用せず、Leave-one-outクロス検証を使用して堅牢性を判断しています。サンプルの分割ごとに特徴選択を実行する必要があることを読みました。 テストセットとして1つのサンプルを選択します 残りのサンプルで機能選択を実行します 選択した機能を使用して、機械学習アルゴリズムを残りのサンプルに適用します テストセットが正しく分類されているかどうかをテストします 1に進みます。 これを行うと、毎回異なる遺伝子を取得する可能性があります。それでは、「最終的な」最適な遺伝子分類子をどのように取得しますか。すなわち、ステップ6とは何ですか。 最適とは、今後の研究で使用すべき遺伝子のコレクションです。たとえば、癌/正常なデータセットがあり、SVMに従って腫瘍タイプを分類する上位10の遺伝子を見つけたいとします。診断テストとして使用できるかどうかを確認するために、さらなる実験で使用できる遺伝子とSVMパラメータのセットを知りたいです。

3
なげなわが変数選択を提供するのはなぜですか?
Elements of Statistics Learningを読んでいますが、なぜLassoが変数選択を提供し、リッジ回帰が提供しないのかを知りたいと思います。 どちらの方法も、残差平方和を最小化し、パラメーター可能な値に制約がありますββ\beta。投げ縄の場合、制約は||β||1≤t||β||1≤t||\beta||_1 \le t、尾根のためにそれがあるのに対し||β||2≤t||β||2≤t||\beta||_2 \le t、いくつかのためにttt。 私は本でダイヤモンド対楕円の絵を見ましたが、なぜ投げ縄が制約領域の角に当たることができるかについていくつかの直感があります。しかし、私の直感はかなり弱く、私は確信していません。見やすいはずですが、なぜそうなのかわかりません。 だから、私は数学的な正当化、または残差平方和の輪郭が角に当たる可能性が高い理由の直感的な説明を探していると思います 。| β | | 1||β||1||β||1||\beta||_1制約領域(一方、制約が場合、この状況は起こりそうにありません||β||2||β||2||\beta||_2)。


5
待っているパラドックスを説明してください
数年前、私はイベントをカウントするのではなく、イベント間の間隔を測定することで機能する放射線検出器を設計しました。私の想定では、非連続のサンプルを測定する場合、平均して実際の間隔の半分を測定するというものでした。しかし、校正されたソースで回路をテストしたとき、読み取り値が2倍高すぎたため、全間隔を測定していました。 確率と統計に関する古い本の中で、「The Waiting Paradox」というセクションを見つけました。バスが15分ごとにバス停に到着し、乗客がランダムに到着する例を示しました。乗客は平均で15分間待ちます。私は例で示された数学を理解することができず、説明を探し続けています。乗客が完全な間隔を待つようになっている理由を誰かが説明できれば、私はよりよく眠ります。

3
パブリケーションでランダムフォレストを表示する最良の方法は?
私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。 ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか? フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか? エラー率のOOB推定は、引用するのに最適な統計ですか?

3
ロジスティック回帰の診断?
線形回帰の場合、診断プロット(残差プロット、標準QQプロットなど)をチェックして、線形回帰の仮定に違反しているかどうかをチェックできます。 ロジスティック回帰の場合、ロジスティック回帰モデルの適合を診断する方法を説明するリソースを見つけるのに問題があります。GLMのいくつかのコースノートを掘り下げて、ロジスティック回帰近似の診断を実行するには残差のチェックは役に立たないと単純に述べています。 インターネットを見回すと、モデルの逸脱をチェックしたり、カイ2乗検定を実行するなど、さまざまな「診断」手順もあるようですが、他の情報源は、これは不適切であり、Hosmer-Lemeshow適合度を実行する必要があると述べていますテスト。次に、このテストは実際のグループ化とカットオフ値に大きく依存する可能性がある(信頼できない可能性がある)と述べる他のソースを見つけます。 それでは、ロジスティック回帰の適合性をどのように診断する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.