統計とビッグデータ text-mining

1

各ドキュメントを一連の機能として表すことにより、ドキュメントの分類を行いたいと思います。私は多くの方法があることを知っています：BOW、TFIDF、... Latent Dirichlet Allocation（LDA）を使用して、各単一ドキュメントのトピックキーワードを抽出したいと考えています。ドキュメントはこれらのトピックワードで表されます。しかし、私の意見では、LDAは通常、A BUNCH OFドキュメントによって共有されるトピックの単語を抽出するために使用されるため、それが妥当かどうかはわかりません。 LDAを使用して、単一のドキュメントのトピックを検出できますか？

8 feature-selection text-mining topic-models latent-dirichlet-alloc

2

「テキスト」と「データ」の間の統計的相関の自動化

特定の企業の製品やパフォーマンスに関するプレスリリース、ブログ投稿、レビューなどに関するテキストデータを収集しています。具体的には、そのような「テキスト」コンテンツの特定のタイプやソースと、会社の銘柄記号の市場評価との間に相関関係があるかどうかを確認したいと考えています。このような明らかな相関関係は、人間の心でかなり早く見つけることができますが、それはスケーラブルではありません。このような異種ソースの分析を自動化するにはどうすればよいですか？

8 finance correlation text-mining

1

コンテンツに基づく会話の分類

会話の種類を区別できる分類子を設計できるようにしたいと思います（気分、誠実さ、または結果について必ずしも何も伝えられていませんが、少し離れすぎています）。たとえば、会話の50のサンプルのうち、10は将来のイベントに関する情報を求める両方の当事者を含み、30は目標がないように見え、10は過去のイベントについて別の当事者から情報を求めることを含みます（実際、アルゴリズムはこれらは、実際の状況に関係なく、タイプI、II、またはIIIです。言い換えると、話者の順序はコンテンツと一緒に重要であり、おそらく特定のキーワードでアルゴリズムをシードすることによって助けられるでしょう。このタスクをかなり高い精度で実行できる分類システムはありますか？

8 machine-learning classification text-mining

3

Rでフレーズnetを作成する

誰かがRパッケージを知っているか、このようなフレーズネットを作成する方法を持っていますか？

8 r data-visualization text-mining

4

文字列がランダムでないか確認する

背景アルファベットのがあるとしますA,B, C, D。次に、いくつかのデータを調べて「単語」を見つけます。これはDDDDDDDDCDDDDDD、このランダムを見つける可能性が低いようですが、BABDCABCDACDBACDランダムではないようです。質問遭遇した文字列がランダムでないかどうかを確認するにはどうすればよいですか？私はRでいくつかのことを試みました。たとえば、文字を数値的にエンコードし、これらを順列と比較しました。しかし、事前のエンコードはかなり面倒であり、これにはより直接的なアプローチがあると思われます。

8 text-mining randomness

1

データマトリックス（テキストマイニングデータ）と同様に、距離マトリックスでk平均を実行することは有効でしたか？

（この投稿は私が昨日投稿した質問の再投稿です（現在は削除されています）が、私は言葉の量を減らし、質問の内容を単純化しようとしました）私が作成したkmeansスクリプトと出力を解釈するのに役立つ情報を得たいと思っています。これはテキスト分析のコンテキストにあります。このスクリプトは、テキスト分析に関するオンラインの記事をいくつか読んだ後に作成しました。それらのいくつかを以下にリンクしました。この投稿全体で参照するサンプルのrスクリプトとテキストデータのコーパス： library(tm) # for text mining ## make a example corpus # make a df of documents a to i a <- "dog dog cat carrot" b <- "phone cat dog" c <- "phone book dog" d <- "cat book trees" e <- "phone orange" f <- "phone …

8 r clustering k-means text-mining

2

機械学習を使用してテキストから特定の情報を抽出する方法は？

以下のようなテキストがあり、通常2/3の文と100〜200文字のテキストがあるとします。ジョニーはウォルマートから50ドルの牛乳を買いました。今、彼はたったの20ドルしか残していない。抽出したい人名：ジョニー使用済み：50ドル残金：20ドル。使用した場所：ウォルマート。私はリカレントニューラルネットワークに関する多くの資料を調べてきました。RNNでcs231nビデオを見て、次のキャラクター予測を理解しました。これらのケースでは、確率を使用して次の文字を見つけるために出力クラスとして使用できる26文字のセットがあります。しかし、ここでは出力クラスがわからないため、問題はまったく異なるように見えます。出力は、テキスト内の単語や数字に依存します。ランダムな単語や数字を使用できます。畳み込みニューラルネットワークでもテキストの特徴を抽出できることをQuoraで読みました。それもこの特定の問題を解決できるかどうか疑問に思いますか？

7 machine-learning deep-learning data-mining text-mining rnn

1

DBSCANを使用して私のポイントのほとんどがノイズとして分類されるのはなぜですか？

一部のデータをクラスター化するためにsklearnのいくつかのクラスター化アルゴリズムを使用していますが、DBSCANで何が起こっているのか理解できません。私のデータはTfidfVectorizerからのドキュメントタームマトリックスで、数百の前処理されたドキュメントが含まれています。コード： tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = DBSCAN(eps=eps, min_samples=min_samples) result = db.fit_predict(data) svd = TruncatedSVD(n_components=2).fit_transform(data) // Set the colour of noise pts to black for i in range(0,len(result)): if result[i] == -1: result[i] = 7 colors = [LABELS[l] for l in result] pl.scatter(svd[:,0], svd[:,1], c=colors, s=50, …

7 clustering scikit-learn text-mining dbscan

タグ付けされた質問 「text-mining」

タグ付けされた質問「text-mining」