タグ付けされた質問 「text-mining」

パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。

2
Latent Dirichlet Allocationでホールドアウトの困惑度を計算する方法は?
Latent Dirichlet Allocation(LDA)を行う際に、ホールドアウトサンプルの困惑度を計算する方法について混乱しています。トピックに関する論文はそれ以上に簡単で、私は明らかな何かを見逃していると思うようにしています... 複雑さは、LDAのパフォーマンスの良い尺度と見なされます。アイデアは、ホールドアウトサンプルを保持し、残りのデータでLDAをトレーニングし、ホールドアウトの複雑さを計算することです。 困惑は次の式で与えられます。 p e r (Dt e s t)= e x p { − ∑Md= 1ログp (wd)∑Md= 1Nd}per(Dtest)=eバツp{−∑d=1Mログ⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (大規模画像データベースでの画像検索、Horster et alから引用) ここで、 は(おそらくテストサンプルの)ドキュメントの数であり、はドキュメントの単語を表し、はドキュメントの単語の数をます。MMMwdwd\mathbb{w}_ddddNdNdN_dddd を賢明に計算する方法は、保留されたドキュメントのトピック混合物がないため、私には明確ではありません。理想的には、可能なすべてのトピック混合物について事前にディリクレを介して統合し、学習したトピック多項式を使用します。ただし、この積分を計算するのは簡単なことではありません。p (wd)p(wd)p(\mathbb{w}_d) または、(学習したトピックが与えられた)各保留文書の最適なトピック混合を学習し、これを使用して困惑を計算することもできます。これは実行可能ですが、Horter et alやBlei et alなどの論文が示唆しているように些細なことではなく、結果が上記の理想的な場合と同等であることはすぐにはわかりません。

5
大規模なテキスト分類
テキストデータの分類を検討しています。私が持っている300 classes、クラスごとに200件のトレーニング文書を(そう60000 documents in total)、これはおそらくもたらすことがある非常に高い次元データ(私たちはを超えて見てすることができる100万の寸法)。 パイプラインで次の手順を実行します(私の要件が何であるかを把握するためです)。 各ドキュメントを特徴ベクトルに変換(tf-idfまたはvector space model) Feature selection(Mutual Informationできればベース、または他の標準的なもの) (分類器をトレーニングSVM、Naive Bayes、Logistic RegressionまたはRandom Forest) 訓練された分類子モデルに基づいて、見えないデータを予測します。 質問は、このような高次元のデータを処理するためにどのツール/フレームワークを使用するのですか?私はいつもの容疑者(R、WEKA ...)を知っていますが、私の知る限り(間違っているかもしれません)、おそらく誰もこの大規模なデータを処理できません。私が見ることができる他の市販のツールはありますか? 並列化する必要がある場合、Apache Mahoutを検討する必要がありますか?必要な機能をまだ提供していないようです。 事前にすべてに感謝します。 更新:このWebサイト、Rメーリングリスト、およびインターネット全般を調べました。私の状況では、次の問題が発生する可能性があります。 (1)R(特にtmパッケージ)を使用したデータの前処理は、非常に遅いため、実用的ではありませんtm。 (2)Rパッケージ(前処理、スパース行列、分類子など)のアンサンブルを使用する必要があるため、パッケージ間の相互運用性が問題になる可能性があり、データをある形式から別の形式に変換する際に追加のオーバーヘッドが発生する可能性があります。たとえば、tm(またはWEKAなどの外部ツール)を使用して前処理を行う場合、このデータをRのHPCライブラリが読み取れる形式に変換する方法を見つける必要があります。繰り返しになりますが、分類器パッケージがHPCライブラリによって提供されるデータを直接取り込むかどうかは明確ではありません。 私は正しい軌道に乗っていますか?そしてもっと重要なことは、私は理にかなっていますか?

1
ニュース記事に基づいて犯罪指数と政治的不安定性指数を構築したい
私は、この国のローカルニュースWebサイトをクロールし、犯罪指数と政治的不安定性指数を構築するこのサイドプロジェクトを持っています。プロジェクトの情報検索の部分についてはすでに説明しました。私の計画は次のとおりです。 監視なしのトピック抽出。 ほぼ重複した検出。 監視された分類とインシデントレベル(犯罪/政治-高/中/低)。 pythonとsklearnを使用し、それらのタスクに使用できるアルゴリズムを既に研究しています。2.ストーリーの関連性の要因を与えることができると思います。ストーリーやトピックについてより多くの新聞が発行すればするほど、その日により関連するようになります。 私の次のステップは、私が持っている機能に基づいて、月ごと、週ごと、日ごとのインデックス(全国および都市ごと)を構築することです。つまり、昨年の主要な不安定事件の指標は、今年の指標よりも低い可能性があります。また、固定スケール0-100を使用するかどうか。 後で、これに基づいてインシデントを予測できるようにしたいと思います。たとえば、過去数週間の一連のイベントが重大なインシデントにつながっているかどうかです。しかし、今のところは、分類を機能させ、インデックスモデルを構築することに満足しています。 論文へのポインタ、関連する読み物、または考えをいただければ幸いです。ありがとう。 PD:質問がここに属さない場合は申し訳ありません。 更新:まだ「作成」していませんが、最近、ニュースアーカイブを使用してイベントを予測するシステムで作業している科学者グループに関するニュースがあり、関連する論文「マイニングthe Web to Predict Future Events」(PDF )。

1
潜在ディリクレ割り当てを使用するための入力パラメーター
トピックモデリング(潜在ディリクレ割り当て)を使用する場合、トピックの数はユーザーが指定する必要がある入力パラメーターです。 Dirichletプロセスがサンプリングする必要がある候補トピックセットのコレクションも提供する必要があるように見えますか?私の理解は正しいですか?実際には、この種の候補トピックセットを設定する方法は?

2
リッジ回帰分類器がテキスト分類で非常にうまく機能するのはなぜですか?
テキスト分類の実験中に、SVM、NB、kNNなどのテキストマイニングタスクに一般的に言及され、適用されている分類子の中で常にテストを上回る結果を生成するリッジ分類子を発見しました。パラメータに関するいくつかの簡単な調整を除き、この特定のテキスト分類タスクで各分類子を最適化する。 そのような結果はディクラン・マースピアルにも言及されました。 統計の背景から来ていない、オンラインでいくつかの資料を読んだ後、私はまだこれの主な理由を理解することはできません。誰でもそのような結果についての洞察を提供できますか?

1
潜在ディリクレ割り当てを使用したトピック予測
ドキュメントのコーパスでLDAを使用し、いくつかのトピックを見つけました。コードの出力は、確率を含む2つの行列です。1つのdoc-topic確率と他のword-topic確率。しかし、実際には、これらの結果を使用して新しいドキュメントのトピックを予測する方法がわかりません。ギブスサンプリングを使用しています。誰もが方法を知っていますか?ありがとう

2
次元削減とクラスタリングを組み合わせるのはいつですか?
ドキュメントレベルのクラスタリングを実行しようとしています。用語ドキュメント頻度行列を作成し、k-meansを使用してこれらの高次元ベクトルをクラスタリングしようとしています。直接クラスタリングの代わりに、最初にLSA(潜在意味解析)特異ベクトル分解を適用してU、S、Vt行列を取得し、スクリープロットを使用して適切なしきい値を選択し、縮小行列(特にVtそれは私に良い結果を与えているように思えた概念ドキュメント情報を提供します)。 SVD(特異ベクトル分解)はクラスタリング(コサイン類似性尺度などを使用)であり、SVDの出力にk-meansを適用できるかどうかわからないと言う人もいます。SVDは次元削減手法であり、多数の新しいベクトルを提供するため、論理的に正しいと考えました。一方、k-meansはクラスターの数を入力として受け取り、これらのベクトルを指定された数のクラスターに分割します。この手順に欠陥はありますか、これを改善できる方法はありますか?助言がありますか?

2
ショートテキストクラスタリングの良い方法は何ですか?
テキストクラスタリングの問題に取り組んでいます。データには複数の文が含まれています。短いテキストで高精度に達する優れたアルゴリズムはありますか? 良い参考資料を提供できますか? KMeans、スペクトルクラスタリングなどのアルゴリズムは、この問題に対してうまく機能しません。

4
テキストマイニング:人工知能でテキスト(ニュース記事など)をクラスター化する方法は?
Pongのプレイ、手書きの数字の分類など、さまざまなタスクのために、いくつかのニューラルネットワーク(MLP(完全接続)、Elman(繰り返し))を構築しました... さらに、複数桁の手書きノートを分類するなど、いくつかの最初の畳み込みニューラルネットワークを構築しようとしましたが、25x25サイズの画像などの標準化された入力に依存できる画像認識/クラスタリングタスクなど、テキストを分析およびクラスター化することはまったく新しいです。 RGBまたはグレースケールなど...前提条件の機能がたくさんあります。 テキストマイニング、たとえばニュース記事の場合、入力のサイズは常に変化しています(異なる単語、異なる文、異なるテキスト長など)。 人工知能、できればニューラルネットワーク/ SOMを利用した最新のテキストマイニングツールをどのように実装できますか? 残念ながら、簡単なチュートリアルを最初から見つけることができませんでした。複雑な科学論文は読みにくく、トピックを学ぶための最良の選択肢ではありません(私の意見では)。MLP、ドロップアウトテクニック、畳み込みニューラルネットワークなどに関するかなりの論文をすでに読んでいますが、テキストマイニングに関する基本的なものを見つけることができませんでした-私が見つけたのは、非常に限られたテキストマイニングスキルにはあま​​りにも高レベルでした。


5
1クラスのテキスト分類を行う方法
テキスト分類の問題に対処する必要があります。Webクローラーは、特定のドメインのWebページをクロールします。Webページごとに、特定の1つのクラスのみに属しているかどうかを確認します。つまり、このクラスをPositiveと呼ぶと、クロールされた各WebページはPositiveクラスまたはNon-Positiveクラスに属します。 クラスPositiveのWebページの大きなトレーニングセットが既にあります。しかし、可能な限り代表的な非陽性クラスのトレーニングセットを作成する方法は?つまり、基本的にそのクラスにすべてを使用できます。確実にクラスPositiveに属さない任意のページを収集できますか?テキスト分類アルゴリズム(私はNaive Bayesアルゴリズムを使用することを好みます)のパフォーマンスは、Non-Positiveクラスに選択したWebページに大きく依存すると確信しています。 だから私は何をしますか?誰かアドバイスをください。どうもありがとうございました!

3
短いドキュメントのトピックモデル
この質問に触発されて、私は非常に短いテキストの大規模なコレクションのトピックモデルで何か作業が行われたかどうか疑問に思っています。私の直感では、Twitterはそのようなモデルの自然なインスピレーションになるはずです。ただし、いくつかの限られた実験から、標準のトピックモデル(LDAなど)は、この種のデータでは非常にパフォーマンスが低いようです。 誰もがこの分野で行われた仕事を知っていますか?このホワイトペーパーでは、LDAをTwitterに適用する方法について説明しますが、ショートドキュメントのコンテキストでより優れたパフォーマンスを発揮する他のアルゴリズムがあるかどうかに興味があります。

2
Rを使用したテキストマイニングの例(tmパッケージ)
tm友達がUCINETでテキストコーパスを探索し、テキストクラウド、2モードネットワークグラフ、および単一値分解(Stataを使用したグラフィックス付き)を示したドラフトペーパーを読んだ後、3日間手を出しました。Mac OS Xでは、Snowball(ステミング)やRgraphviz(グラフ)などのライブラリの背後にあるJavaに問題があります。 誰かのポイントアウトは可能性がないパッケージ -私が見てきましたtm、wordfishそしてwordscores、そしてNLTKについて知っている-しかし、研究は、コードで可能な場合は、テキスト形式のデータに、首尾よく使用しているtmか、何か他のものは、議会の議論や法的文書などのデータを分析するために?私はこの問題について多くを見つけることができず、さらに学ぶべきコードが少ないようです。 私自身のプロジェクトは2か月の議会討論であり、これらの変数はCSVファイルで通知されます:議会セッション、スピーカー、議会グループ、口頭介入のテキスト。講演者間、特に「治安の話」と「市民の自由」の話など、まれな用語とあまり珍しくない用語の使用における議会グループ間の相違を探しています。
14 r  text-mining 

2
n-gramは何nで逆効果になりますか?
自然言語処理を行う場合、コーパスを取得して、nのシーケンスで発生する次の単語の確率を評価できます。nは通常2または3(バイグラムとトライグラム)として選択されます。 特定のコーパスをそのレベルで一度分類するのにかかる時間を考えると、n番目のチェーンのデータの追跡が逆効果になる既知のポイントはありますか?または、(データ構造)ディクショナリから確率を検索するのにかかる時間を考えてみてください。

1
自動キーワード抽出:余弦の類似性を特徴として使用
ドキュメント用語マトリックスを取得しました。次に、教師付き学習方法(SVM、Naive Bayesなど)を使用して、各ドキュメントのキーワードを抽出したいと思います。このモデルでは、すでにTf-idf、Posタグなどを使用しています...MMM しかし、今私は次のことを考えています。項間のコサインの類似性を持つ行列があります。CCC この類似性をモデルの機能として使用する可能性はありますか?私の考えは、言葉のためだったの文書にドキュメント内のすべての用語のコサイン類似点の平均値を使用するように、用語で。これは便利ですか?dはD Iを私私idddddd私私i

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.