統計と機械学習の2つのグループを区別する:仮説検定対分類対クラスタリング


29

AとBというラベルの付いた2つのデータグループ(それぞれ200個のサンプルと1つの機能を含むなど)があり、それらが異なるかどうかを知りたいとします。私はできた:

  • a)統計的検定(t検定など)を実行して、統計的に異なるかどうかを確認します。

  • b)教師付き機械学習を使用します(サポートベクトル分類子またはランダムフォレスト分類子など)。データの一部でこれをトレーニングし、残りの部分で検証できます。機械学習アルゴリズムがその後残りを正しく分類する場合、サンプルが微分可能であると確信できます。

  • c)教師なしアルゴリズム(K-Meansなど)を使用して、すべてのデータを2つのサンプルに分割します。次に、これらの2つのサンプルがラベルAとBに一致するかどうかを確認できます。

私の質問は:

  1. これら3つの異なる方法はどのように重複/排他的ですか?
  2. b)とc)は科学的な議論に役立ちますか?
  3. 方法b)とc)のサンプルAとBの違いの「有意性」を取得するにはどうすればよいですか?
  4. データに1つの機能ではなく複数の機能がある場合、何が変わりますか?
  5. サンプル数が異なる場合、たとえば100対300の場合はどうなりますか?

3
(a)と(b)の違いは、統計的検定違いあるかどうかに焦点を当てているのに対して、分類方法はこの違いの大きさに焦点を当てているということです。ランダムフォレストを使用する場合、相互検証された精度を知りたいと思います。おそらく78%です。それはあなたが興味を持っている数であり、50%に等しくないという声明を出すことではありません
アメーバは、モニカを復活させる

4
a / b / cが理にかなっている私見の状況では、典型的な信号対雑音比が異なり、(a)から(b)に(c)に増加しています。t検定の典型的なアプリケーションでは、高いノイズがあります。グループが等しくないことを示したいと思います。グループが明らかに等しくない場合(ノイズが少ない場合)、テストはもう必要ありません。代わりに、グループの違いを定量化する必要があります。ここでは、サンプル外の分類精度が役立ちます。ノイズがさらに少なく、分類精度が〜100%の場合、グループが非常に明確であるため、クラスタリングアルゴリズムで取得できるかどうかを確認できます。
アメーバは、モニカーを復活させる

1
@amoeba、あなたが質問のタイトルなどを編集しているので、私はあなたに話しかけています。もう一度考えてみてください。「分類」と「クラスタリング」:機械学習の(唯一の)所有権ではありません。これらのタスクは、最初のmの前に統計/データ分析で日常的に行われ、実行されました。学習者が生まれました。これは、MLによって、またはML内で進化したSVMのような最近のいくつかの手法にのみ当てはまります。分類/クラスタリング/ツリーをMLのみに関連付けることは不適切です。ただし、MLは、トレーニング/テストを多用するという点で統計データ分析とは異なります。
ttnphns

@ttnphns確かに、それはすべて正しいのですが、元のタイトルは「サンプルの識別:機械学習と統計テスト(たとえば、t検定)」でした。 vs分類vsクラスタリング(この特定の科学的目的のため)。タイトルの改善の可能性について考えます。
アメーバは、モニカを復活させる

@ttnphnsタイトルを編集しました。もっと気に入ったかどうか確認してください。
アメーバは、モニカを復活させる

回答:


15

いい質問ですね。あなたの目標が何であるか(そしておそらくあなたの状況の性質)に基づいて、良いことも悪いことも、役に立つこともそうでないこともあります。ほとんどの場合、これらの方法はさまざまな目標を満たすように設計されています。

  • 統計的検定tt
  • SVMのような機械学習の分類子は、既知のクラスセットの1つに属するものとしてパターンを分類するように設計されています。典型的な状況は、いくつかの既知のインスタンスがあり、真のクラスが不明な他のパターンがあるときに将来最も正確な分類を提供できるように、それらを使用して分類器を訓練することです。ここで重点を置いているのは、サンプルの精度の不足です。仮説を検証していません。予測変数/特徴の分布がクラス間で異なることを期待します。そうしないと、将来の分類ヘルプが利用できなくなりますが、Yの平均がXによって異なるという信念を評価しようとはしていません。 Yがわかっている将来のX。
  • クラスタリングなどの教師なし学習アルゴリズムは、データセットの構造を検出または課すように設計されています。これを行うには多くの理由が考えられます。場合によっては、データセットに潜在的な真のグループ化があり、クラスタリングの結果が目的に適っており、使用可能かどうかを確認したい場合があります。他の場合には、データ削減を可能にするためにデータセットに構造を課すことができます。いずれにせよ、あなたは何かについて仮説をテストしようとしておらず、将来的に何かを正確に予測できることを望んでいません。

これを念頭に置いて、質問に答えましょう。

  1. 3つの方法は、提供する目標が根本的に異なります。
  2. bとcは科学的な議論に役立つ可能性があり、問題の議論の性質に依存します。科学の中で最も一般的なタイプの研究は、仮説のテストに集中しています。ただし、予測モデルを作成したり、潜在的なパターンを検出したりすることも、正当な目標です。
  3. 通常、メソッドbまたはcから「有意性」を得ようとはしません。
  4. 特徴が本質的にカテゴリカルであると仮定すると(私が収集したものがあなたの心にあるものです)、因子ANOVAを使用して仮説をテストできます。機械学習では、マルチラベル分類のサブトピックがあります。複数のメンバーシップ/オーバーラップするクラスターのための方法もありますが、これらはあまり一般的ではなく、はるかに扱いにくい問題を構成します。このトピックの概要については、Krumpleman、CS(2010)Overlapping clusteringを参照してください。論文、UTオースティン、電気およびコンピューター工学(pdf)。
  5. 一般的に、カテゴリ全体のケースの数が異なるため、3種類の方法はすべて難易度が高くなります。

2
日時#4:OPの「機能」という言葉を誤解していると思います。機械学習では、「機能」は単に変数を意味します。したがって、「複数の機能」とは、階乗分散分析ではなく、t検定の多変量バージョン(HotellingのTなど)を使用することを意味します。
アメーバは、モニカーを復活させる

11

クラスタリングは他の回答で対処されているため、対処しませんが、次のとおりです。

一般に、2つのサンプルが有意に異なるかどうかをテストする問題は、2サンプルテストとして知られています。

tp

Lopez-Paz and Oquab(2017)によって最近提案されたように、分類器から2サンプルテストを構築する場合、これらの問題のいくつかについて考えるのが簡単かもしれません。手順は次のとおりです。

  • XYXtrainXtestYtrainYtest
  • XtrainYtrain
  • XtestYtest
  • p^p=12p12p12

学習した分類子を調べることにより、分布間の違いを半意味的な方法で解釈することもできます。検討する分類子のファミリーを変更することで、特定の種類の違いを探すためのテストのガイドにも役立ちます。

トレインテスト分割を行うことが重要であることに注意してください。そうしないと、入力を記憶しただけの分類器は常に完全な識別可能性を持ちます。トレーニングセットのポイントの部分を増やすと、適切な分類器を学習するためのデータが増えますが、分類精度が偶然とは異なることを確認する機会が少なくなります。このトレードオフは、問題と分類子ファミリーによって異なるものであり、まだ十分に理解されていません。

Lopez-PazとOquabは、いくつかの問題についてこのアプローチの優れた経験的パフォーマンスを示しました。Ramdas et al。(2016)さらに、理論的には、密接に関連するアプローチが特定の単純な問題に対してレート最適であることを示しました。この設定で行う「正しい」ことは活発な研究分野ですが、市販の標準テストを適用するよりも少し柔軟性と解釈性が必要な場合、このアプローチは多くの設定で少なくとも合理的です。


(+1)また、ネストされた相互検証が進むべき方法です。次に、外部リサンプリングループで得られるパフォーマンス推定値を、情報なしのモデルパフォーマンスと比較してテストします。偶然の偶然によって予想されるよりも著しく高い場合、データはいくらか区別されます。
ファイアバグ

@Firebug「情報モデルのないパフォーマンス」とはどういう意味ですか?私はあなたの提案された手順をまったく得ていません。
ドゥーガル

2
@Firebug重要だが微妙な注意点は、CVを介して分類精度が推定される場合、二項検定を使用できないことです。
アメーバは、モニカを復活させる

2
@Firebug私のポイントはまだ残っています。これらの推定値は独立していないため、異なる折り畳み、特に繰り返しCVからのAUCに、いかなる種類の1サンプルテストも適用できません。これはよく知られた問題です。
アメーバは、モニカを復活させる

2
再置換テスト:私はそれを自分でやった。CVを実行してパフォーマンスの推定値を取得してから、ラベルをシャッフルし、CVパイプライン全体を再度実行します(そして、これを100回または1000回シャッフルしてヌル分布を取得します)。ただし、これには非常に時間がかかる傾向があります。@FirebugへのCc。
アメーバは、モニカーを復活させる

3

アプローチ(a)のみが仮説をテストする目的を果たします。

教師あり機械学習アルゴリズム(b)を使用する場合、グループの区別に関する仮説を証明または反証することはできません。機械学習アルゴリズムがグループを正しく分類しない場合、問題に「間違った」アルゴリズムを使用したか、十分に調整していないなどの理由で発生する可能性があります。一方、完全に「ランダムな」データを「拷問」適切な予測を行う過適合モデルを作成するのに十分です。さらに別の問題は、アルゴリズムが「良い」予測を行うことをいつ、どのように知るかです。100%の分類精度を目指すことはほとんどないので、分類結果が何かを証明することをいつ知っていますか?

クラスタリングアルゴリズム(c)は、教師あり学習用に設計されていません。ラベルの再作成を目的とするのではなく、類似性の観点からデータをグループ化することを目的としています。現在、結果は、使用するアルゴリズムと探している類似性の種類によって異なります。データにはさまざまな類似性がある場合があり、男の子と女の子の違いを探したいかもしれませんが、アルゴリズムは貧しい人々と豊かな子供たちのグループ、またはインテリジェントとインテリジェントではない、右利き、左利きなどを見つけるかもしれません。意図したグループ化は、グループ化が意味をなさないことを証明するのではなく、他の「意味のある」グループ化を見つけたということだけを証明します。前のケースと同様に、結果は使用されるアルゴリズムとパラメーターに依存する場合があります。10個のアルゴリズム/設定に1つが「あなたの」ラベル?それが100分の1だったら?停止するまでどのくらい検索しますか?大部分のケースで機械学習を使用する場合、デフォルト設定で1つのアルゴリズムを使用した後に停止することはなく、結果は使用した手順に依存することに注意してください。


2
アプローチ(b)の場合:結果に意味があるかどうかを知る問題を解決するために、私の答えに記載されいるように仮説検定を作成できます(ただし、この問題に分類子を単純に使用することは確かです)。仮説検定は、分類器で発生するのとまったく同じ方法で、問題に対する「間違った」検定であるため、nullの拒否に失敗する可能性があることに注意してください。過剰適合の問題は、データ分割によって完全に対処されます。
ドゥーガル

@Dougalの良い点(+1)ですが、私の主な論点は、機械学習を使用することで、結果はアルゴリズムの選択、使用、テスト、および結果の評価に依存するということです。そのため、そのようなテストの結果は、あなたの行動に大きく依存します。これは、2人の異なる統計学者がこの方法を使用しているときに異なる結果を得る可能性があることを意味します。一方、従来の仮説検定では、検定の選択のみに依存します。
ティム

さらに、それを適用するための単一の「正しい」方法はなく、簡単に(意図的にまたは意図せずに)操作して、期待される結果を得ることができます。
ティム

目的の結果が得られるまで、100万のことを試しているだけなら、はい。独自の分析を含む適切なデータ分割を行う場合、テスト手順は完全に有効です。より多くのオプションがあると、悪用の方法を知っている状況でより大きな力を得ることができますが、注意していない場合は、(偶然またはそうでなければ)カンニングする機会を増やすことができます。
ドゥーガル

@Dougalはい。ただし、結果は、相互検証に使用される手順と分割自体(テストグループのサイズなど)にも依存します。したがって、各ステップでの結果は手順によって異なります。さらに、学習を停止し、より良い結果を達成しようとするかどうかは、あなたの決定です(デフォルト設定の単一アルゴリズムvs単一のアルゴリズムとパラメーターの調整、複数のアルゴリズム-いくつ?)。この手順は、おそらく(正確にはどう?)いくつか複数のテストのための修正を必要とすることができるアカウントに使用する手順のために-デフォルトの設定で単一のアルゴリズムで良好な結果がように見える
ティム

2
  1. a)分布が異なるかどうかの質問にのみ答え、それらを区別する方法は答えません。b)また、2つの分布を区別するための最適な値を見つけます。c)2つの分布に特定のプロパティがある場合に機能します。たとえば、2つの異なるグループではなく同じグループの2つのモードを区別できるため、正規分布では機能しますが、2つのモーダル分布では機能しません。

  2. c)2つのモード分布のため、科学的議論には役に立たない。b)有意性を計算できるため(3を参照)、2つの分布を区別するために使用できます。

  3. ブートストラップによって。ランダムなサブサンプルに基づいてモデルを1000回計算します。アルファエラーとベータエラーの最小合計などのスコアを取得します。スコアを昇順で並べ替えます。5%の信頼度を得るには、950番目の値を選択します。この値が50%未満の場合(グループAとBのポイント数が等しい場合)、95%の信頼度で、分布が同じであるという帰無仮説を無視できます。問題は、分布が両方とも正規であり、平均が同じで、バリエーションが異なる場合、ML手法によって異なることを理解できないことです。一方、2つの分布を区別できる変動のテストを見つけることができます。また、MLが統計的検定よりも強力であり、分布を区別できるようになるのは別の方法かもしれません。

  4. MLに1つの機能しかない場合、分布を区別するために1つの値のみを見つける必要があります。2つの機能を使用すると、境界は洞になり、多次元空間では本当に奇妙になります。したがって、適切な境界線を見つけるのははるかに困難です。一方、追加機能は追加情報をもたらします。そのため、一般的に2つの分布を簡単に区別できます。両方の変数が正規分布している場合、境界線は線です。

  5. 中央極限定理を適用できないため、より小さいサンプルは通常とは異なる動作をする可能性があります。中心極限定理が機能し始めるため、より大きなサンプルはより正常に動作し始めます。たとえば、サンプルが十分に大きい場合、両方のグループの平均はほぼ正規分布になります。ただし、通常は100対300ではなく、1000回の観測に対して10回の観測です。したがって、このサイトによると、観測値の数が40を超えていて、外れ値がない場合、平均値の差のt検定は分布に関係なく機能します。


0

統計テストは、データから推論を行うためのもので、物事がどのように関連しているかを示します。結果は、現実世界の意味を持つものです。たとえば、方向と大きさの両方の観点から喫煙が肺癌とどのように関連しているか。それでも、なぜ起こったのかはわかりません。なぜ起こったかに答えるには、他の変数との相互関係も考慮し、適切な調整を行う必要があります(Pearl、J.(2003)因果関係:モデル、推論、推論を参照)。

教師あり学習は予測を行うためのもので、何が起こるかを教えてくれます。例えば、人の喫煙状況を考えると、彼/彼女が肺癌を患うかどうかを予測することができます。単純な場合でも、たとえば、アルゴリズムによって識別された喫煙状態のカットオフを調べることにより、「方法」を示します。しかし、より複雑なモデルは解釈が困難または不可能です(多くの機能を備えたディープラーニング/ブースト)。

上記の2つを容易にするために、教師なし学習がよく使用されます。

  • 統計テストでは、データの基礎となる未知のサブグループをいくつか発見することで(クラスタリング)、変数間の関連性の不均一性を推測できます。たとえば、喫煙はサブグループAの肺がんの確率を高めますが、サブグループBの確率は高めません。
  • 教師あり学習の場合、予測の精度と堅牢性を向上させる新しい機能を作成できます。たとえば、肺がんの可能性に関連するサブグループ(クラスタリング)または機能の組み合わせ(次元の縮小)を識別することによって。

特徴/変数の数が多くなると、統計的検定と教師あり学習の違いはより大きくなります。統計的テストは必ずしもこの恩恵を受けるとは限りません。たとえば、上記のように他の要因を制御したり、関連性の不均一性を特定したりして因果推論を行うかどうかによって異なります。機能が関連し、ブラックボックスのようになると、教師あり学習のパフォーマンスが向上します。

サンプル数が増えると、統計テストの結果がより正確になり、教師あり学習の結果がより正確になり、教師なし学習の結果がより堅牢になります。ただし、これはデータの品質に依存します。品質の悪いデータは、結果にバイアスやノイズをもたらす可能性があります。

時々、喫煙が肺がんを引き起こすことを特定することにより、介入行為を知らせる「方法」と「理由」を知りたいことがあります。意思決定の情報を提供するために「何」を知りたい場合があります。たとえば、誰が肺がんにかかっている可能性があるかを見つけて、早期治療を行います。Scienceには、予測とその制限に関する特別な問題が公開されています( http://science.sciencemag.org/content/355/6324/468)。「成功は、テラバイトのデータを処理するためのアルゴリズムの能力とコンテキストの人間の理解を結びつける学際的な取り組みで質問に取り組むときに最も一貫して達成されるようです。」例えば、私の意見では、そもそも収集すべきデータ/機能。一方、教師あり学習は、どの変数を通知することで仮説を生成するのに役立ちます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.