タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。

2
混合ガウスモデルを使用する場合
GMMを初めて使用する。オンラインで適切なヘルプを見つけることができませんでした。「GMMの使用が私の問題に適しているかどうかを判断する方法」に関する正しいリソースを誰かに教えてもらえますか?または分類の問題の場合「SVM分類またはGMM分類を使用する必要があるかどうかを判断する方法」

1
SVMのタイプの違い
ベクターマシンをサポートするのは初めてです。 簡単な説明 R svmのe1071パッケージの関数は、さまざまなオプションを提供します。 C分類 ニュー分類 1つの分類(新規性検出用) EPS回帰 ニュー回帰 5つのタイプの直感的な違いは何ですか?どちらをどのような状況で適用すべきですか?

2
CARTツリーは予測子間の相互作用をキャプチャしますか?
この論文では、CARTでは各ステップで単一の共変量に対してバイナリ分割が実行されるため、すべての分割は直交し、したがって共変量間の相互作用は考慮されないと主張しています。 ただし、非常に深刻な参考文献の多くは、逆に、ツリーの階層構造が予測子間の相互作用を自動的にモデル化することを保証していると主張しています(たとえば、この論文、そしてもちろんHastie)。 誰が正しいのですか?CARTで生成されたツリーは、入力変数間の相互作用をキャプチャしますか?

3
長方形のVC寸法
EthemAlpaydın著の「Introduction to Machine learning」には、軸整列長方形のVC次元は4であると記載されています。 誰かが長方形のVC寸法を説明して証明できますか?


1
LDAを前処理ステップとして使用する場合の機能の標準化
次元削減(またはPCAによる次元削減後の変換)にマルチクラス線形判別分析(または、多重判別分析をときどき読む)を使用する場合、一般的に、完全に異なるスケールで測定されていても、機能は必要ありませんよね?LDAには、すでに正規化されたユークリッド距離を意味するマハラノビス距離に類似した用語が含まれているためですか? したがって、それは必要ではないだけでなく、標準化された機能と標準化されていない機能のLDA後の結果はまったく同じになるはずです!?

1
RandomForest-sklearnの分類しきい値
1)sklearnのRandomForestで分類しきい値(デフォルトでは0.5だと思います)を変更するにはどうすればよいですか? 2)sklearnでアンダーサンプリングするにはどうすればよいですか? 3)RandomForest分類器から次の結果が得られました:[[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 平均/合計0.75 0.74 0.73 7076 最初に、データは不均衡です(クラス0から30%、クラス1から70%)。したがって、分類子はクラス1に偏っている可能性が高いと思います。つまり、一部をクラス0からクラス1に移動します(クラス0には1297の誤分類がありますが、クラス1には520の誤分類があります)。どうすれば修正できますか?ダウンサンプリングが役立つ場合?または分類しきい値を変更しますか? 更新:クラス0は人口の40%、クラス1は60%です。ただし、クラス0からクラス1(1297)へのドリフトは高く、これは低くなります。

1
ランダムフォレストは、MNISTの2.8%テストエラーよりもはるかに優れていますか?
ランダムフォレストのMNIST、CIFAR、STL-10などへの適用に関する文献は見つかりませんでしたので、順列不変の MNISTを自分で試してみようと思いました。 ではR、私が試しました: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) これは2時間実行され、2.8%のテストエラーが発生しました。 私はまた、scikit-learnを試しました RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) 70分後、2.9%のテストエラーが発生しましたが、代わりにn_estimators = 200を使用すると、わずか7分後に2.8%のテストエラーが発生しました。 OpenCVの、私が試しました rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) これは6.5分間実行されrf、予測に使用すると15%のテストエラーが発生しました。params少なくともバージョン2.3.1では、ランダムフォレストへのPythonバインディングが引数を無視しているように見えるため、トレーニングしたツリーの数はわかりません。また、OpenCVに、回帰ではなく分類の問題を解決したいことを明確にする方法を理解できませんでした-に置き換えastype('int')てastype('float32')も同じ結果が得られるため、疑問があります。 ではニューラルネットワークのための順列不変のトレーニングは、おそらく一つのCPUに2時間以上かかるだろうが、MNISTベンチマーク、芸術の状態は、0.8%のテストエラーです。 ランダムフォレストを使用してMNISTで2.8%のテストエラーをはるかに上回ることは可能ですか?私は、一般的なコンセンサスは、ランダムフォレストは通常​​カーネルSVMと少なくとも同等であり、1.4%のテストエラーが発生する可能性があると考えていました。

3
ロジスティック回帰:真陽性の最大化-偽陽性
ロジスティック回帰モデル(エラスティックネット正則化を備えたRのglmnetを介してフィット)があり、真陽性と偽陽性の差を最大化したいと思います。これを行うために、次の手順が思い浮かびました: 標準ロジスティック回帰モデルに適合 予測しきい値を0.5として使用して、すべての正の予測を特定する 正に予測された観測値に重み1を割り当て、その他すべてに0を割り当てます 重み付きロジスティック回帰モデルのあてはめ このアプローチの欠点は何でしょうか?この問題を解決する正しい方法は何でしょうか? 真陽性と偽陰性の数の差を最大化したい理由は、アプリケーションの設計によるものです。クラスプロジェクトの一環として、私はオンラインマーケットプレイスで自律的な参加者を構築しています。私のモデルが何かを購入して後でより高い価格で販売できると予測した場合、入札を行います。ロジスティック回帰に固執し、固定費と単価の増分に基づいてバイナリの結果(勝ち、負け)を出力したいと思います(すべてのトランザクションで同じ金額を増減します)。誤検知は、私が何かを購入し、それをより高い価格で販売することができないことを意味するため、私を傷つけます。しかし、偽陰性は私に害を及ぼすことはありません(機会費用の点でのみ)。それは、私が購入しなかったというだけのことですが、もし持っていたなら、私はお金を稼いだでしょう。同様に、 0.5のカットオフは完全に任意であり、真/偽陽性の差が最も大きくなる予測しきい値でステップ1のモデルを最適化すると、0.4に近づくことがわかります。これは私のデータの歪んだ性質によるものだと思います-ネガティブとポジティブの比率は約1:3です。 現在、私は次の手順に従っています: データをトレーニング/テストに分割 トレーニングにモデルを適合させ、テストセットで予測を行い、真陽性と偽陽性の差を計算します モデルを完全にフィットさせ、テストセットで予測を行い、真陽性と偽陽性の差を計算します トレーニングセットがフルセットのサブセットであるにもかかわらず、ステップ#3の真/偽陽性の差は、ステップ#2よりも小さくなります。#3のモデルの真のネガティブが多く、偽ネガティブが少ないかどうかは気にしないので、尤度関数自体を変更せずにできることはありますか?

2
感度と特異性を組み合わせた分類器の性能測定?
複数の分類子を使用して分類を実行している2クラスのラベル付きデータがあります。そして、データセットはバランスが取れています。分類子のパフォーマンスを評価するとき、真の陽性だけでなく真の陰性も判別する際に、分類子がどれほど正確であるかを考慮する必要があります。したがって、精度を使用し、分類子がポジティブに偏っており、すべてをポジティブとして分類すると、真のネガティブの分類に失敗したとしても、約50%の精度が得られます。このプロパティは、1つのクラスのみに焦点を当て、さらにF1スコアに焦点を当てているため、精度と再現率まで拡張されています。(これは、たとえば「精度、Fスコア、およびROCを超えて:パフォーマンス評価のための判別指標のファミリ」など、このペーパーからでも理解できることです)。 したがって、感度と特異度(TPRとTNR)を使用して、クラスごとに分類子がどのように機能するかを確認し、これらの値を最大化することを目指しています。 私の質問は、これらの両方の値を1つの意味のある指標に結合する指標を探しているということです。私はその論文で提供されている対策を調査しましたが、それは重要なことでした。そして、私の理解に基づいて、なぜFスコアのようなものを適用できないのかと思っていましたが、精度と再現率を使用する代わりに、感度と特異度を使用するのでしょうか。したがって、式は 、私の目的は最大化することですこの対策。私はそれが非常に代表的だと思います。同様の式はすでにありますか?そして、これは理にかなっていますか、それとも数学的にも正しいですか?my Performance Measure=2∗sensitivity∗specificitysensitivity+specificitymy Performance Measure=2∗sensitivity∗specificitysensitivity+specificity \text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}

5
100%に近いクラスラベルが1つのクラスに属しているときに分類子のパフォーマンスを測定する方法
私のデータには、で示されるクラス変数があります。このクラス変数の値は(バイナリ)です。ほとんどすべての観測値は0です(100%に近い、より正確には97%)。さまざまな分類モデルの「パフォーマンス」テストを希望します(精度の場合もあります)。発生を恐れているのは、観測を常にクラス0に分類する分類モデルがある場合、そのモデルは97%正確であることです(他の変数を考慮しない場合でも)。CCC0,10,1{0, 1}CCC 非常にまれなイベントを処理するデータの分類モデルの既知のパフォーマンステストはありますか?

1
SMOTEはマルチクラスの不均衡問題に対してエラーをスローします
SMOTEを使用して、マルチクラス分類問題の不均衡を修正しようとしています。SMOTEは、SMOTEヘルプドキュメントのとおり、irisデータセットに対しては完全に機能しますが、同様のデータセットに対しては機能しません。これが私のデータの見え方です。値が1、2、3の3つのクラスがあることに注意してください。 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 1 7 0 0 0 1 8 0 0 0 1 9 0 1 …

3
LDA対パーセプトロン
LDAが他の教師あり学習手法にどのように「適合する」かを感じ取ろうとしています。LDAに関するLDA風の投稿のいくつかをここで読みました。私はすでにパーセプトロンに精通していますが、今はLDAを学習しています。 LDAは教師あり学習アルゴリズムのファミリーにどのように「適合」しますか?これらの他の方法と比べてその欠点は何ですか?それは何のためによりよく使用されるでしょうか?たとえばパーセプトロンを使用するだけでよいのに、なぜLDAを使用するのでしょうか。

2
バイナリ分類問題に使用するSVMカーネルはどれですか?
ベクターマシンのサポートについては、初心者です。特定の問題に最適なカーネル(線形、多項式など)を示すガイドラインはありますか?私の場合、特定の情報が含まれているかどうかに応じてWebページを分類する必要があります。つまり、バイナリ分類の問題があります。 一般的に、どのカーネルがこのタスクに最も適していると言えますか?または、特定のデータセットでそれらのいくつかを試して、最適なデータセットを見つける必要がありますか?ちなみに、私はlibSVMライブラリを利用するPythonライブラリscikit-learnを使用しています。

1
イベント予測のための生存分析
データセットの各レコードについて、次の情報があります (X1 、… 、X メートル 、δ 、T )(バツ1 、… 、バツメートル 、δ 、T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) ここ特徴である、対象のイベントが発生し、そうでなければ0、および場合は1であり発生したイベントのタイムスタンプです。特に、イベントがなかったり、フォローアップが終了する時間に設定されていたりすると、が欠落する可能性があります。 δ T Tバツ私バツ私X_iδδ\deltaTTTTTT データセットの各レコードのリスクインデックスを計算します。 特徴を使用してクラスを予測する分類モデルに行くことを考えていました。ただし、は重要です。イベントがすぐに発生する可能性がある場合は、リスクが高くなるはずです。 δ T δバツ私バツ私X_iδδ\deltaTTTδδ\delta そのため、この問題には生存分析が適しています。の完全な推定は必要ありませんが、単一のレコードのリスクを表す単一のインデックスのみが必要です。S(t )= P(T> t )S(t)=P(T>t)S(t) = P(T>t) レコードごとに計算できる平均生存時間は、優れたリスクインデックスのようです。リスクが低いほど、リスクは高くなります。 私の質問は: 生存分析は私の目的に適していますか? モデルのパフォーマンスをどのように評価できますか? 質問(2)について:たとえば、ハレルのインデックスを使用したいと思っていますが、それを計算するためにどの予測結果が使用されるかはわかりません。ハレルの本247ページの「回帰モデリング戦略」から:ccc インデックスは[...]一人の被験者が応答し、他はしなかったような科目のすべての可能なペアをとることによって計算されます。インデックスは、非応答者よりも応答の予測確率が高い応答者を持つペアの割合です。ccc …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.