タグ付けされた質問 「classification」

2
その決定を説明するテキスト分類子
短い文章のテキストカテゴライザを構築しています。「入力したテキストのカテゴリはCです」とユーザーに伝えるだけでなく、この決定を下した理由を簡潔でわかりやすく説明したいと思います。たとえば、「私はあなたの文を複雑な3層ニューラルネットワークに入れ、それが最良のスコアを出した答えです」とユーザーに伝えたくありません。「トレーニングデータにX、Y、Zなどの文が含まれているため、このカテゴリの特徴であるU、V、Wという文が含まれています」などの説明が必要です。 私の質問は、どのような分類アルゴリズムがそのようなアプリケーションに最適ですか? k-nearest-neighboursは良い候補のように思えます。ユーザーに次のように伝えることができるためです。私はパフォーマンスと説明能力のバランスが取れた分類を探しています。 編集:そのような分類器を探すために多くの時間を費やした後、私はlimduと呼ばれる機械学習ライブラリの構築を開始しました。これにより、分類器が彼らの決定を説明できるようになります。それはまだ開発中ですが、分類器が頻繁に失敗する理由を私自身と同僚に説明するのに役立ちました...

3
いつk最近傍を超えて移動すべきですか
私たちが行う多くの機械学習プロジェクトでは、k最近傍分類子から始めます。通常、すべての距離を計算するのに十分な時間があるため、これは理想的な開始分類子であり、パラメーターの数は制限されています(k、距離メトリック、および重み付け)。 ただし、プロジェクトの後半で別の分類器に切り替える余地がないため、これにはknn分類器を使用するという効果があります。新しい分類子を試す正当な理由は何でしょうか。明らかなのはメモリと時間の制約ですが、別の分類子が実際に精度を改善できるケースはありますか?

1
決定木のサイズと決定木の深さ
決定木(特にRのrpartパッケージ)を使用して分類実験を行っています。デシジョンツリーの深さを10に設定すると、小さなツリーが得られると思いますが、実際には非常に大きく、サイズは7650です。デシジョンツリーのサイズ(および深さ)の定義は正確に何ですか。 PS:私のデータセットはかなり大きいです。

1
ポイント数を均等に分割する線を見つけるアルゴリズム
私は最近、インタビューで、ポイントの半分がラインの片側にあり、残りのポイントが反対側になるように、座標系でポイントのセットを分割するアルゴリズムを考案するように依頼されました。 ポイントは不均等に配置され、ラインはどのポイントも通過してはなりません。 誰もが問題を解決するために何らかのアプローチをすることができますか?アルゴリズムの分析は高く評価されています。 ヒント:ポイントを数え、中央値を使用します。 ポイントの数は偶数と見なされます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.