データセットは分類可能ではないと私たちはいつ言いますか?


11

何も分類できないデータセットを何度も分析しました。分類子を取得できるかどうかを確認するには、通常、次の手順を使用しました。

  1. 数値に対するラベルの箱ひげ図を生成します。
  2. 次元数を2または3に減らして、クラスが分離可能かどうかを確認します。LDAも試してみました。
  3. SVMとランダムフォレストを強制的に適合させ、機能の重要性を調べて、機能に意味があるかどうかを確認します。
  4. クラスの不均衡が問題であるかどうかを確認するために、アンダーサンプリングやオーバーサンプリングなどのクラスと手法のバランスを変更してみてください。

私が考えることができる他の多くのアプローチがありますが、試していません。これらの機能が良くなく、予測しようとしているラベルにまったく関連していないことを時々知っています。次に、その直感を使用して演習を終了し、より優れた機能またはまったく異なるラベルが必要であると結論付けます。

私の質問は、これらの機能では分類できないとデータサイエンティストがどのように報告するかです。これを報告したり、最初に異なるアルゴリズムでデータをフィッティングしたりするための統計的方法はありますか?


この質問に明確で客観的な答えがあるとしたら、科学的な努力はすべて無意味になります。科学は芸術です。
Mephy

そうそうそう。分離可能性を見つけるためのより多くの方法を知りたいだけです。いくつかのエクササイズにもっと時間をかけることは無駄かもしれないことをクライアントに統計的に示す方法に似ています。
vc_dim

1
最後の2つのパラグラフは、質問があまりにもオープンで広範すぎるため、削除することをお勧めします。最初の部分-結果以外の専門的な扱いと報告方法-は答えられるべきであり、個人的には、サイトでこの種のデータサイエンスの専門的なエチケットに関する質問がさらに必要だと思います。
Neil Slater 2017

理にかなっているニール。サクサクするように編集しています。
vc_dim

回答:


4

それはあなたのデータに依存します。人間レベルのエラーと呼ばれるものがあります。印刷された本を読むようなタスクを考えてみてください。人間は読むのに苦労せず、印刷の質が悪い場合を除いて、間違いを犯すことはありません。手書きの原稿を読む場合など、ライターのフォントが読み手にとって奇妙な場合、すべての単語を理解できないことがよくあります。最初の状況では、ヒューマンレベルのエラーが低すぎるため、学習アルゴリズムは同じパフォーマンスを持つことができますが、2番目の例は、状況によっては、ヒューマンレベルのエラーが非常に高く、通常の方法であるという事実を示しています人間としての機能)あなたの学習アルゴリズムは非常に多くのエラー率を持っています。

統計学習ではBayes Error、クラスの分布が重なるとエラーの比率が大きくなる、というものがあります。機能を変更せずに、現在の分布のベイズ誤差が最高のパフォーマンスであり、まったく減らすことができません。

こちらもお読みください。指定された機能に関する大量のベイズエラーの問題は、それらの機能の領域では分類できないと見なされます。別の例として、ライトが点灯している車を分類するとします。朝にそれを行おうとすると、あなた自身に多くのエラーが発生する可能性があり、学習アルゴリズムのトレーニングに同じ画像を使用すると、それもまた発生する可能性があります。

また、クラスの分布を変更しないことをお勧めします。このような場合、境界付近の分類器の結果は完全にランダムになります。機械学習アルゴリズムをトレーニングするためのデータの分布は変更しないでください。実際の状態のままにしてください。


これは役に立ちます。ベイズエラーについては知りませんでした。クラスの分布を変更した後、精度を向上させるのに困難を感じました。私はそれが素晴らしい考えではないことに同意します。それでも、その機能がより細かいクラスまたは抽象的なクラスを表すことを期待して、クラス階層を変更しようとしたことがあります(たとえば、サル、犬、その他を哺乳類に変更)。ベイズエラーがある場合、クラス階層を変更しても効果がないと思います。
vc_dim

@SumitSinghChauhan実際には、ベイズ誤差が大きい状況では、特徴エンジニアリングを行うことが最善の解決策です。特徴そのものを見つけるディープラーニングなので、データセットが大きくない場合は使えません。
メディア

5

1つのクラスからサンプル要素を取得し、他のクラスからサンプル要素を取得します。これら2つの要素がまったく同じ特徴ベクトルを持つことは可能ですか?それができれば、これまでに発生(分類決定は、指定された要素の特徴ベクトルに完全に基づいているので)、2つのクラスは、あなたの現在の特徴ベクトルを使用して、完全に分離可能ではありません。

一方、2つの要素が同じ特徴ベクトルを持つように、一方のクラスの「すべての」要素にもう一方のクラスの対応する要素がある場合、2つのクラスは現在の特徴ベクトルを使用して区別できません。

さらに、その条件が一部の要素のみに当てはまり、他の要素には当てはまらない場合は、その中間にあり、その基準を使用して、現在の機能セットを使用して分類子がどれだけうまく機能することを期待できるかを測定できます。

これらすべての評価を使用して、より多くの機能を抽出する必要があることをさまざまな程度で主張できます。


1
ロバートに感謝します。これはおなじみで正しいようです。私はいくつかのプロジェクトについて同じ分析を行いました。同じ特徴ベクトルのデータセットを別の方法でタグ付けし、それを精度の基準として使用しました。時々、箱ひげ図の描画も役立ちました。これまでのところ、クライアントを説得するのに最適なアプローチを見つけました。
vc_dim
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.