タグ付けされた質問 「text-mining」

パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。

1
LDAによって生成されたトピックワードを使用してドキュメントを表す
各ドキュメントを一連の機能として表すことにより、ドキュメントの分類を行いたいと思います。私は多くの方法があることを知っています:BOW、TFIDF、... Latent Dirichlet Allocation(LDA)を使用して、各単一ドキュメントのトピックキーワードを抽出したいと考えています。ドキュメントはこれらのトピックワードで表されます。しかし、私の意見では、LDAは通常、A BUNCH OFドキュメントによって共有されるトピックの単語を抽出するために使用されるため、それが妥当かどうかはわかりません。 LDAを使用して、単一のドキュメントのトピックを検出できますか?

2
「テキスト」と「データ」の間の統計的相関の自動化
特定の企業の製品やパフォーマンスに関するプレスリリース、ブログ投稿、レビューなどに関するテキストデータを収集しています。 具体的には、そのような「テキスト」コンテンツの特定のタイプやソースと、会社の銘柄記号の市場評価との間に相関関係があるかどうかを確認したいと考えています。 このような明らかな相関関係は、人間の心でかなり早く見つけることができますが、それはスケーラブルではありません。このような異種ソースの分析を自動化するにはどうすればよいですか?

1
コンテンツに基づく会話の分類
会話の種類を区別できる分類子を設計できるようにしたいと思います(気分、誠実さ、または結果について必ずしも何も伝えられていませんが、少し離れすぎています)。 たとえば、会話の50のサンプルのうち、10は将来のイベントに関する情報を求める両方の当事者を含み、30は目標がないように見え、10は過去のイベントについて別の当事者から情報を求めることを含みます(実際、アルゴリズムはこれらは、実際の状況に関係なく、タイプI、II、またはIIIです。 言い換えると、話者の順序はコンテンツと一緒に重要であり、おそらく特定のキーワードでアルゴリズムをシードすることによって助けられるでしょう。 このタスクをかなり高い精度で実行できる分類システムはありますか?


4
文字列がランダムでないか確認する
背景 アルファベットのがあるとしますA,B, C, D。次に、いくつかのデータを調べて「単語」を見つけます。これはDDDDDDDDCDDDDDD、このランダムを見つける可能性が低いようですが、BABDCABCDACDBACDランダムではないようです。 質問 遭遇した文字列がランダムでないかどうかを確認するにはどうすればよいですか? 私はRでいくつかのことを試みました。たとえば、文字を数値的にエンコードし、これらを順列と比較しました。しかし、事前のエンコードはかなり面倒であり、これにはより直接的なアプローチがあると思われます。

1
データマトリックス(テキストマイニングデータ)と同様に、距離マトリックスでk平均を実行することは有効でしたか?
(この投稿は私が昨日投稿した質問の再投稿です(現在は削除されています)が、私は言葉の量を減らし、質問の内容を単純化しようとしました) 私が作成したkmeansスクリプトと出力を解釈するのに役立つ情報を得たいと思っています。これはテキスト分析のコンテキストにあります。このスクリプトは、テキスト分析に関するオンラインの記事をいくつか読んだ後に作成しました。それらのいくつかを以下にリンクしました。 この投稿全体で参照するサンプルのrスクリプトとテキストデータのコーパス: library(tm) # for text mining ## make a example corpus # make a df of documents a to i a <- "dog dog cat carrot" b <- "phone cat dog" c <- "phone book dog" d <- "cat book trees" e <- "phone orange" f <- "phone …

2
機械学習を使用してテキストから特定の情報を抽出する方法は?
以下のようなテキストがあり、通常2/3の文と100〜200文字のテキストがあるとします。 ジョニーはウォルマートから50ドルの牛乳を買いました。今、彼はたったの20ドルしか残していない。 抽出したい 人名:ジョニー 使用済み:50ドル 残金:20ドル。 使用した場所:ウォルマート。 私はリカレントニューラルネットワークに関する多くの資料を調べてきました。RNNでcs231nビデオを見て、次のキャラクター予測を理解しました。これらのケースでは、確率を使用して次の文字を見つけるために出力クラスとして使用できる26文字のセットがあります。しかし、ここでは出力クラスがわからないため、問題はまったく異なるように見えます。出力は、テキスト内の単語や数字に依存します。ランダムな単語や数字を使用できます。 畳み込みニューラルネットワークでもテキストの特徴を抽出できることをQuoraで読みました。それもこの特定の問題を解決できるかどうか疑問に思いますか?

1
DBSCANを使用して私のポイントのほとんどがノイズとして分類されるのはなぜですか?
一部のデータをクラスター化するためにsklearnのいくつかのクラスター化アルゴリズムを使用していますが、DBSCANで何が起こっているのか理解できません。私のデータはTfidfVectorizerからのドキュメントタームマトリックスで、数百の前処理されたドキュメントが含まれています。 コード: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = DBSCAN(eps=eps, min_samples=min_samples) result = db.fit_predict(data) svd = TruncatedSVD(n_components=2).fit_transform(data) // Set the colour of noise pts to black for i in range(0,len(result)): if result[i] == -1: result[i] = 7 colors = [LABELS[l] for l in result] pl.scatter(svd[:,0], svd[:,1], c=colors, s=50, …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.