タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。


2
テキスト分類のための単語の袋:TFIDFの代わりに単語の頻度を使用しないのはなぜですか?
テキスト分類の一般的なアプローチは、「単語の袋」から分類器をトレーニングすることです。ユーザーは分類するテキストを取得し、各オブジェクト内の単語の頻度をカウントします。その後、結果のマトリックスを管理可能なサイズに維持するために何らかのトリミングを行います。 多くの場合、ユーザーはTFIDFを使用して特徴ベクトルを構築します。言い換えれば、上記のテキストの頻度は、コーパス内の単語の頻度によって低くされています。TFIDFが、たとえば、人間のアナリストに表示するために、特定のドキュメントの「最も顕著な」単語を選択するのに役立つのはなぜでしょう。しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか?学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか?もしあれば、IDFがどのような価値を追加するかについてのあなたの考えに感謝します。

1
次元のランダムな点が線形に分離できる確率はどのくらいですか?
それぞれが特徴を持つデータポイントが与えられると、はとしてラベル付けされ、他のはとしてラベル付けされます。各フィーチャは、からランダムに値を取ります(均一な分布)。2つのクラスを分割できる超平面が存在する確率はどのくらいですか?、D N / 2 0 、N / 2 1 [ 0 、1 ]nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] まず最も簡単なケース、つまり考えてみましょう。d=1d=1d = 1

3
分類性能を評価するための相互検証またはブートストラップ?
特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか?クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。 フォローアップとして:パフォーマンスメトリックの選択は回答に影響しますか(精度ではなくAUCを使用する場合)? 私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。

2
トレーニングセットはどれくらい必要ですか?
最小しきい値一般化精度を得るために分類器(この場合はLDA)をトレーニングするために必要なトレーニングサンプル数を決定するために使用される一般的な方法はありますか? ブレインとコンピューターのインターフェイスで通常必要なキャリブレーション時間を最小限にしたいので、私は尋ねています。

4
オーバーサンプリング、アンダーサンプリング、SMOTEはどのような問題を解決しますか?
最近の好評の質問で、Timは、機械学習で不均衡なデータが本当に問題になるのはいつかを尋ねます。質問の前提は、クラスバランスと不均衡クラスの問題について議論する多くの機械学習文献があるということです。考え方は、ポジティブクラスとネガティブクラスの間に不均衡があるデータセットは、一部の機械学習分類(ここでは確率モデルを含む)アルゴリズムに問題を引き起こし、完全な50/50を復元するために、データセットを「バランス」する方法を探さなければならないということです。正と負のクラスに分割します。 賛成の回答の一般的な意味は、「少なくともモデリングに思慮深い場合はそうではない」ということです。M.ヘンリーL.は、受け入れられた答えに対する上向きのコメントで、次のように述べています。 [...]不均衡なデータの使用には、低レベルの問題はありません。私の経験では、「不均衡なデータを回避する」というアドバイスは、アルゴリズム固有のものか、継承された知恵です。私は、一般に、不均衡なデータは明確に指定されたモデルに概念的な問題をもたらさないというAdamOに同意します。 AdamOは、クラスバランスの「問題」は本当にクラス希少性の 1つだと主張 したがって、少なくとも回帰では(ただし、すべての状況で疑わしい)、不均衡なデータの唯一の問題は、サンプルサイズが事実上小さいことです。まれなクラスの人数に適した方法がある場合、そのメンバーシップの割合が不均衡であれば問題はありません。 これが目前の真の問題である場合、データセットのバランスを取ることを目的としたすべてのリサンプリング方法の目的は何ですか:オーバーサンプリング、アンダーサンプリング、SMOTEなど、未解決の問題が残ります。 明らかに、サンプルサイズが暗黙的に小さいという問題に対処していないため、何もないところから情報を作成することはできません!


2
テストセットとトレーニングセットの分布の違いを処理する方法
機械学習またはパラメーター推定の基本的な前提の1つは、目に見えないデータがトレーニングセットと同じ分布に由来するということです。ただし、実際のケースによっては、テストセットの分布はトレーニングセットとほとんど異なります。 製品の説明を約17,000クラスに分類しようとする大規模な複数分類問題について考えてみましょう。トレーニングセットには、非常に歪んだクラス事前分布があります。そのため、一部のクラスには多くのトレーニング例があり、一部のクラスにはほんのわずかしかありません。クライアントから未知のクラスラベルを持つテストセットが与えられたとします。トレーニングセットでトレーニングされた分類器を使用して、テストセットの各製品を17,000クラスのいずれかに分類しようとします。テストセットのクラス分布は歪んでいる可能性がありますが、異なるビジネス分野に関連している可能性があるため、トレーニングセットのそれとはおそらく非常に異なっています。2つのクラス分布が大きく異なる場合、トレーニングされた分類器はテストセットでうまく機能しない可能性があります。これは、Naive Bayes分類器で特に明らかです。 確率的分類器のトレーニングセットと特定のテストセットの違いを処理する原則的な方法はありますか?「トランスダクティブSVM」はSVMでも同様のことを行うと聞きました。特定のテストセットで最高のパフォーマンスを発揮する分類器を学習するための同様の手法はありますか?次に、この実用的なシナリオで許可されているように、異なるテストセットに対して分類器を再トレーニングできます。

3
モデルの予測確率のキャリブレーションを視覚化する
各インスタンスについて、各クラスの確率を生成する予測モデルがあるとします。現在、これらの確率を分類(精度、リコールなど)に使用する場合、そのようなモデルを評価する方法はたくさんあることを認識しています。また、ROC曲線とその下の領域を使用して、モデルがクラスをどれだけ区別できるかを判断できることも認識しています。それらは私が尋ねているものではありません。 モデルのキャリブレーションを評価することに興味があります。 ブリアスコアのようなスコアリングルールは、このタスクに役立つことがわかっています。それは大丈夫です、そして、私はそれらの線に沿って何かを組み込む可能性が高いですが、私はそのようなメトリックが素人にとってどれほど直感的であるかわかりません。もっと視覚的なものを探しています。結果を解釈する人に、モデルが何かを予測したときに、実際に70%の確率で70%が発生する可能性があるかどうかを確認できるようにしてほしい QQプロットのことを聞いたことがありますが(使用したことはありません)、最初はこれが私が探しているものだと思いました。ただし、実際には2つの確率分布を比較することを目的としているようです。それは直接私が持っているものではありません。多数のインスタンスについて、予測された確率と、イベントが実際に発生したかどうかがわかります。 Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... QQプロットは本当に欲しいものですか、それとも何か他のものを探していますか?QQプロットを使用する必要がある場合、データを確率分布に変換する正しい方法は何ですか? 予測された確率で両方の列を並べ替えて、いくつかのビンを作成できると思います。それは私がやるべきことのタイプですか、それとも私はどこかで考えていますか?私はさまざまな離散化手法に精通していますが、この種の標準的なビンに離散化する特定の方法はありますか?

5
予測ツリー(CVなど)のパフォーマンスが向上した分類ツリーの代替手段
私はより良い予測力をもたらすかもしれない分類木に代わるものを探しています。 私が扱っているデータには、説明変数と説明変数の両方の要因があります。 このコンテキストでランダムフォレストとニューラルネットワークに出くわしたことを覚えていますが、以前に試したことはありませんが、このようなモデリングタスクの別の良い候補はありますか(明らかにRで)?

6
トレーニングよりも高いテスト精度。解釈する方法は?
多くの機能(1000を超える)を備えた最大150のサンプル(トレーニングとテストに分割)を含むデータセットを持っています。データに対して適切に機能する分類子と特徴選択方法を比較する必要があります。そのため、3つの分類方法(J48、NB、SVM)と2つの機能選択方法(CFS、WrapperSubset)を異なる検索方法(Greedy、BestFirst)で使用しています。 比較しながら、トレーニングの精度(5倍クロスフォールディング)とテストの精度を調べています。 J48およびCFS-BestFirstの結果の1つを次に示します。 {「accuracyTraining」:95.83、「accuracyTest」:98.21} 多くの結果はこのようなものであり、SVMにはテストの精度がトレーニングよりもはるかに高いことを示す多くの結果があります(トレーニング:60%、テスト:98%) これらの結果をどのように有意義に解釈できますか?それが低ければ、私はそれが過剰適合であると言うでしょう。すべての結果を見ることで、この場合のバイアスと分散について何か言いたいことがありますか?この分類を意味のあるものにするために何ができますか?たとえば、トレーニングセットとテストセットを再選択するか、すべてのデータで相互検証を使用するだけですか? 73のトレーニングインスタンスと58のテストインスタンスがあります。一部の回答には、投稿時にこの情報がありませんでした。

4
検証セットでテストするのではなく、10倍のクロス検証を使用するのはなぜですか?
私は感情の分類と関連するトピックに関する多くの研究論文を読みました。 それらのほとんどは、分類器のトレーニングとテストに10倍の交差検証を使用しています。つまり、個別のテスト/検証は行われません。何故ですか? このアプローチの長所/短所は何ですか、特に研究を行う人にとってはどうですか?

1
適切なスコアリングルールの選択
適切なスコアリングルールに関するほとんどのリソースでは、ログ損失、ブライアースコア、または球形スコアリングなど、さまざまなスコアリングルールに言及しています。しかし、彼らはしばしばそれらの違いについて多くのガイダンスを与えません。(別紙A:ウィキペディア。) 対数スコアを最大化するモデルを選択することは、最尤モデルを選択することに対応します。これは、対数スコアリングを使用するための良い議論のようです。ブライアースコアまたは球形スコアリング、または他のスコアリング規則について同様の正当化がありますか?なぜ誰かが対数スコアリングではなく、これらの1つを使用するのでしょうか?

2
制限付きボルツマンマシンと多層ニューラルネットワーク
私が直面している分類問題について、ニューラルネットワークで実験したいと思っていました。RBMについての論文に出くわしました。しかし、私が理解できることから、それらは多層ニューラルネットワークを持つことと違いはありません。これは正確ですか? さらに、私はRで働いていますが、RBMの缶詰パッケージは見ていません。私は基本的にスタックされたRBMであるディープラーニングネットワークについて話している文献に出会いましたが、Rでそれらを実装する努力の価値があるかどうかはわかりません。ありがとう

3
教師付きクラスタリングまたは分類?
2番目の質問は、Web上のどこかで「教師ありクラスタリング」について話している議論で見つけたということです。私が知る限り、クラスタリングは教師なしです。「分類」に関する違いは何ですか? それについて話している多くのリンクがあります: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf など...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.