100万のラベル付きドキュメントで構成されるコーパスのテキスト分類にscikit線形サポートベクターマシン(SVM)分類器を使用することを計画しています。私がやろうとしていることは、ユーザーがキーワードを入力すると、分類子はまずそれをカテゴリーに分類し、次にそのカテゴリーのカテゴリーのドキュメント内で後続の情報検索クエリが発生することです。少し質問があります:
- 分類にそれほど時間がかからないことを確認するにはどうすればよいですか?より良い結果を得るために、ユーザーが分類が完了するのを待つ時間を費やす必要はありません。
- ウェブサイト/ウェブアプリケーションにPythonのscikitライブラリを使用することはこれに適していますか?
- アマゾンまたはフリップカートがユーザークエリで分類を実行する方法を知っている人はいますか?それとも完全に異なるロジックを使用していますか?
すべてのキーワードを事前に分類し、インデックスからカテゴリをプルするだけです。
—
ffriend
@ffriendは、1つの単語のクエリに対する回答のようです。しかし、検索クエリがより多くの単語、または単語の組み合わせで構成されている場合、私はすべての組み合わせに対してインデックスを作成する必要があります!!!
—
user3498 2014年
SVCは高速であるため、中程度の負荷のアプリケーションでクエリ分類に使用したい場合は、SVCが機能します。ただし、ほとんどの場合、1つ(または複数の単語)で分類することはお勧めできません。たとえば、あいまいな単語を考えてみましょう。ある単語が2つのカテゴリに属し、確率の違いがほとんどない場合はどうでしょうか。検索対象から少しだけ確率の低いカテゴリを除外しますか?最も可能性が高いのは、検索中の順位付け式の追加の用語であり、それほど可能性の低いカテゴリをまったく拒否しません。
—
ffriend 2014年