NLPを使用してユーザーの説明の分類を自動化する


8

会社が所有する製品に関する顧客からの苦情の巨大なファイルがあり、それらの説明についてデータ分析を行い、それぞれにカテゴリをタグ付けしたいと考えています。

たとえば、顧客の苦情から、製品のソフトウェアおよびハードウェア側の苦情の数を把握する必要があります。現在、私はデータ分析を行うためにExcelを使用しています。これは、苦情にタグ名を取得するためにかなりの量の手動作業を求めています。

このプロセスを自動化するモデルを構築およびトレーニングする方法はNLPにありますか?私は過去2日間、NLPに関するものを読んでいますが、NLPにはこの問題への取り組みを始めるための優れた機能がたくさんあるようです。誰かが、NLPを使用してこの問題に対処する方法を教えてくれませんか?


プログラミングのスキルはありますか?これには多くの方法がありますが、過去に使用したものに基づいて、うまくいけば何かを提案できます。
sheldonkreger 2014

私はJavaに精通しています。いくつかのデータマイニングタスクにRを使用しました。現在、NLPを使用するためにPythonを勉強しています。
SRS 2014

回答:


6

これを処理する1つの方法は、「教師付き分類」を使用することです。このモデルでは、データのサブセットを手動で分類し、それを使用してアルゴリズムをトレーニングします。次に、残りのデータをソフトウェアに入力して分類します。

これはPythonのNLTK(nltk.org)で実現されます。

「ハードウェア」や「ソフトウェア」のような文字列を単に探している場合、これは単純な使用例であり、ドキュメントのどのフレーズが関連しているかを分類子に通知する「特徴抽出」を使用して、まともな結果を得る可能性があります。

キーワードを見つけるための自動化された方法を実装することは可能ですが、すでにリストを念頭に置いているようですので、そのステップをスキップして、知っているタグを使用することができます。(最初の結果が満足のいくものでない場合、これは後で試す可能性があるものです)。

はじめにの概要です。最初の結果に不満がある場合は、文のセグメンテーション、対話行為のタイプの識別、決定木などのより複雑な方法を導入することにより、分類子を調整できます。空が限界です(あるいは、あなたの時間が限界です)。

詳細:

http://www.nltk.org/book/ch06.html


この基本的な戦略は、Javaなどの別の言語でNLPツールキットを見つけた場合にも機能します。私はそれらに慣れていません。
sheldonkreger 2014

1

シェルドンは正解です。これは、教師付き分類のかなり典型的な使用例のように聞こえます。すべての顧客の苦情がソフトウェアまたはハードウェアのいずれかである場合(つまり、0の個別の苦情が両方のカテゴリをカバーし、0がこれら2つのクラスの外側にある場合)、必要なのはバイナリ分類子だけであり、そうしないと状況が単純になります。

このようなものをサポートするJavaベースのNLPツールキットを探している場合は、スタンフォード分類子を確認してください。http//nlp.stanford.edu/software/classifier.shtml-これは、以下のオープンソースソフトウェアとしてライセンスされています。 GPL。

彼らのwikiページは、分類子の使用を開始するのに役立つはずです:http : //www-nlp.stanford.edu/wiki/Software/Classifier-データの大規模なサンプルに手動で注釈を付ける必要があることに注意してくださいシェルドンが述べたように、トレーニングセット。


ソフトウェア/ハードウェアの分類は、分類で作業しようとしたサンプルタスクのようなものです。他にも、お客様の事例を読んで適切なカテゴリにタグを付けることで、製品の何が問題になっているのかを深く理解できると思ういくつかのカテゴリがあります。私はPythonを使用してNLPTKを読み始めましたが、このケースに対処するために探す必要がある関数の種類を知りたいです
SRS

これは魔法の関数を探すという単純な問題ではありません。やりたいことは、教師あり機械学習を使用して分類器を作成することです。手順は次のとおりです... 1.トレーニングセットとしてデータのサンプルに手動でアノテーションを付けます。2.トレーニングするデータから特徴を抽出します(テキストの場合、これはngramのようなものです)、3.を使用して分類モデルを構築します。機械学習ライブラリ、4。分類子モデルを新しいデータに適用します。Stanford Classifierのような一部のライブラリーは、ステップ2および3で役立ちます
Charlie Greenbacker
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.