タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。


4
K分割交差検定でのKの選択
いくつかの学習アルゴリズムのパフォーマンスを評価するために、倍交差検証を数回使用していますが、の値をどのように選択すべきかについては常に困惑していました。KKKKKKK 私はよく見ての値が使用されてきた、これは私には全く任意のようだ、と私は今ちょうど使用代わりにそれを超える思考の習慣で。私には、の値を改善するにつれて、より良い粒度が得られるように思えます。理想的には、非常に大きくする必要がありますが、偏るリスクもあります。10 K KK=10K=10K = 10101010KKKKKK 私は、の値が何に依存すべきか、そしてアルゴリズムを評価するときにこれについてどう考えるべきかを知りたいと思います。クロスバリデーションの階層化バージョンを使用するかどうかによって、何かが変わりますか?KKK

4
平易な英語でのコーエンのカッパ
データマイニングの本を読んでいますが、分類器の予測パフォーマンスを評価する手段としてカッパ統計に言及しています。しかし、私はこれを理解できません。私はまた、ウィキペディアをチェックしますが、それはあまりにも助けなかった:https://en.wikipedia.org/wiki/Cohen's_kappaを。 Cohenのカッパは、分類器の予測パフォーマンスの評価にどのように役立ちますか?それは何を伝えますか? 100%のカッパは、分類器がランダムな分類器と完全に一致していることを意味しますが、これが分類器のパフォーマンスの評価にどのように役立つかわかりませんか? 40%kappaはどういう意味ですか?40%の時間、分類器はランダム分類器と一致しているということですか?もしそうなら、それは私に何を伝え、分類器を評価するのに役立ちますか?

5
サポートベクターマシン(SVM)はどのように機能しますか?
サポートベクターマシン(SVM)の仕組みと、線形パーセプトロン、線形判別分析、ロジスティック回帰などの他の線形分類器との違いは何ですか?* (* アルゴリズム、最適化戦略、一般化機能、および実行時の複雑さの根本的な動機の観点から考えています)

7
精度が分類モデルを評価するための最良の尺度ではないのはなぜですか?
これは、ここで間接的に複数回尋ねられた一般的な質問ですが、信頼できる答えは1つありません。参照のためにこれに対する詳細な答えを持っていることは素晴らしいことです。 すべての分類の中で正しい分類の割合である精度は、非常に単純で非常に「直感的な」尺度ですが、不均衡なデータには不十分な尺度になる場合があります。なぜ私たちの直感がここで私たちを誤った方向に導き、この測定に他の問題がありますか?

3
混同マトリックスを使用してマルチクラス分類の精度とリコールをどのように計算しますか?
マルチクラス分類問題の混同マトリックスを使用して、精度を計算し、リコールする方法を疑問に思います。具体的には、観測値は最も可能性の高いクラス/ラベルにのみ割り当てることができます。計算したい: 精度= TP /(TP + FP) リコール= TP /(TP + FN) クラスごとに、マイクロ平均Fメジャーを計算します。

5
曲線下面積(AUC)またはc統計を手で計算する方法
バイナリロジスティック回帰モデルの曲線下面積(AUC)またはc統計を手動で計算することに興味があります。 たとえば、検証データセットでは、従属変数の真の値である保持(1 =保持、0 =保持されない)、およびモデルである回帰分析により生成された各観測の予測保持ステータスがありますトレーニングセットを使用して構築されます(これは0〜1の範囲です)。 私の最初の考えは、モデル分類の「正しい」数を特定し、「正しい」観測値の数を総観測値の数で単純に割ってc統計量を計算することでした。「正しい」とは、観測の真の保持ステータス= 1であり、予測される保持ステータスが> 0.5である場合、それは「正しい」分類です。さらに、観測の真の保持ステータス= 0で、予測保持ステータスが0.5未満の場合、それも「正しい」分類です。予測値= 0.5のときに「タイ」が発生すると想定していますが、検証データセットではその現象は発生しません。一方、「誤った」分類は、観測の真の保持ステータス= 1であり、予測される保持ステータスが0未満の場合です。5または結果の真の保持ステータス= 0であり、予測保持ステータスが> 0.5である場合。私はTP、FP、FN、TNを知っていますが、この情報を与えられたc統計を計算する方法を知りません。

3
k-meansクラスター分析の結果のきれいなプロットを作成する方法は?
Rを使用してK-meansクラスタリングを実行しています。14個の変数を使用してK-meansを実行しています K-meansの結果をプロットする美しい方法は何ですか? 既存の実装はありますか? 14個の変数があると、結果のプロットが複雑になりますか? GGclusterと呼ばれるクールなものを見つけましたが、まだ開発中です。また、サモンマッピングについても読みましたが、あまり理解していませんでした。これは良い選択肢でしょうか?

1
サポートベクターマシンの理解を手伝ってください
入力セットをいくつかの異なるクラスに分類するという点で、サポートベクターマシンの目的の基本は理解していますが、理解していないのは本質的な詳細の一部です。まず、Slack Variablesの使用に少し混乱しています。彼らの目的は何ですか? 靴の中敷に置いたセンサーから圧力の測定値を取得する分類問題を行っています。被験者は、圧力データが記録されている間、数分間座り、立ち、歩きます。人が座っているか、立っているか、歩いているかを判断できるように分類器をトレーニングし、将来のテストデータでそれを実行できるようにします。どの分類器タイプを試す必要がありますか?キャプチャしたデータから分類器をトレーニングする最良の方法は何ですか?座ったり、立ったり、歩いたりするためのエントリが1000個あり(合計3x1000 = 3000)、それらはすべて次の特徴ベクトル形式を持っています。(センサー1からの圧力、センサー2からの圧力、センサー3からの圧力、センサー4からの圧力)

6
機械学習で相互検証を実行する際の「最終」モデルの機能選択
機能の選択と機械学習について少し混乱しているので、手伝ってくれないかと思っていました。2つのグループに分類され、1000の機能を持つマイクロアレイデータセットがあります。私の目的は、理論的に他のデータセットに適用してそれらのサンプルを最適に分類できるシグネチャで少数の遺伝子(私の特徴)(10-20)を取得することです。サンプル数が少ないため(<100)、テストとトレーニングセットを使用せず、Leave-one-outクロス検証を使用して堅牢性を判断しています。サンプルの分割ごとに特徴選択を実行する必要があることを読みました。 テストセットとして1つのサンプルを選択します 残りのサンプルで機能選択を実行します 選択した機能を使用して、機械学習アルゴリズムを残りのサンプルに適用します テストセットが正しく分類されているかどうかをテストします 1に進みます。 これを行うと、毎回異なる遺伝子を取得する可能性があります。それでは、「最終的な」最適な遺伝子分類子をどのように取得しますか。すなわち、ステップ6とは何ですか。 最適とは、今後の研究で使用すべき遺伝子のコレクションです。たとえば、癌/正常なデータセットがあり、SVMに従って腫瘍タイプを分類する上位10の遺伝子を見つけたいとします。診断テストとして使用できるかどうかを確認するために、さらなる実験で使用できる遺伝子とSVMパラメータのセットを知りたいです。


3
パブリケーションでランダムフォレストを表示する最良の方法は?
私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。 ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか? フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか? エラー率のOOB推定は、引用するのに最適な統計ですか?

4
なぜニューラルネットワークは深くなりつつあるが、広くはならないのか?
近年、畳み込みニューラルネットワーク(または一般的にはディープニューラルネットワーク)はますます深くなり、最先端のネットワークは4層で7層(AlexNet)から1000層(残余ネット)になります年。より深いネットワークからのパフォーマンスの向上の背後にある理由は、より複雑な非線形関数を学習できるからです。十分なトレーニングデータがある場合、これにより、ネットワークは異なるクラスをより簡単に区別できます。 ただし、この傾向は各レイヤーのパラメーターの数では続かないようです。たとえば、畳み込みレイヤーのフィーチャマップの数、または完全に接続されたレイヤーのノードの数は、レイヤー数が大幅に増加したにもかかわらず、ほぼ同じままで、規模は比較的小さいままです。しかし、私の直感からは、レイヤーごとのパラメーターの数を増やすと、各レイヤーに非線形関数を学習するための豊富なデータソースが与えられるように思えます。しかし、この考え方は、それぞれが少数のパラメーターを持つレイヤーを追加するだけで、見過ごされていたようです。 したがって、ネットワークは「より深く」なっていますが、「より広く」はなりません。どうしてこれなの?



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.