scikit分類器が分類にかかる時間はどれくらいですか?


10

100万のラベル付きドキュメントで構成されるコーパスのテキスト分類にscikit線形サポートベクターマシン(SVM)分類器を使用することを計画しています。私がやろうとしていることは、ユーザーがキーワードを入力すると、分類子はまずそれをカテゴリーに分類し、次にそのカテゴリーのカテゴリーのドキュメント内で後続の情報検索クエリが発生することです。少し質問があります:

  1. 分類にそれほど時間がかからないことを確認するにはどうすればよいですか?より良い結果を得るために、ユーザーが分類が完了するのを待つ時間を費やす必要はありません。
  2. ウェブサイト/ウェブアプリケーションにPythonのscikitライブラリを使用することはこれに適していますか?
  3. アマゾンまたはフリップカートがユーザークエリで分類を実行する方法を知っている人はいますか?それとも完全に異なるロジックを使用していますか?

すべてのキーワードを事前に分類し、インデックスからカテゴリをプルするだけです。
ffriend

@ffriendは、1つの単語のクエリに対する回答のようです。しかし、検索クエリがより多くの単語、または単語の組み合わせで構成されている場合、私はすべての組み合わせに対してインデックスを作成する必要があります!!!
user3498 2014年

1
SVCは高速であるため、中程度の負荷のアプリケーションでクエリ分類に使用したい場合は、SVCが機能します。ただし、ほとんどの場合、1つ(または複数の単語)で分類することはお勧めできません。たとえば、あいまいな単語を考えてみましょう。ある単語が2つのカテゴリに属し、確率の違いがほとんどない場合はどうでしょうか。検索対象から少しだけ確率の低いカテゴリを除外しますか?最も可能性が高いのは、検索中の順位付け式の追加の用語であり、それほど可能性の低いカテゴリをまったく拒否しません。
ffriend 2014年

回答:


3

所要時間を確認する唯一の信頼できる方法は、コードを記述して試してみることです。トレーニングには時間がかかります。その後、モデル(ピクルス)を保存して後で使用できます。


3

ここには大きな問題はありません。だから、私は生産レベルの観点からあなたのすべての質問に答えようとします:

分類にそれほど時間がかからないことを確認するにはどうすればよいですか?

持っているコーパスデータのサブセットを取得し(ランダムに実行できるため、サンプリングする必要はありません)、アルゴリズムをテストし、データセット全体に近似または一般化します。

(SVMは比較的高速です。それでも、念のため上記のプロセスを実行してください。)

本番環境に移行する前に、開発環境でテストしてください。

ウェブサイト/ウェブアプリケーションにPythonのscikitライブラリを使用することはこれに適していますか?

はい、そうです。それはすでに世界中の多くの企業で使用されています。

AmazonとFlipkartに関する3番目の質問には、チーム外の誰かが答えることはできません。

さらに、モデルのトレーニングにはmapreduceテクニックを使用することをお勧めします。また、すでにお伝えしたように、すべてのリクエストでトレーニングする必要がないように、モデルをピクルします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.