タグ付けされた質問 「text-mining」

パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。

2
n-gramが単語の代わりにテキスト言語の識別に使用されるのはなぜですか?
2つの一般的な言語識別ライブラリ、Compact Language Detector 2 for C ++および Java用の言語検出では、どちらも(文字ベースの)n-gramを使用してテキスト機能を抽出しました。ワードオブワード(単一ワード/辞書)が使用されないのはなぜですか?また、バッグオブワードとNグラムの利点と欠点は何ですか? また、テキスト分類におけるn-gramモデルの他の用途は何ですか? おっと。同様の質問があるようです: バイグラム(N-gram)モデルを使用してテキストドキュメントの特徴ベクトルを構築することについて しかし、誰かがより包括的な答えを出すことができますか?言語識別の場合、どちらが良いですか? (願わくば、n-gramとword-of-wordsの意味を正しく理解できたと思います(笑)。

7
Rのテキストマイニングパッケージとは何ですか?また、他のオープンソースのテキストマイニングプログラムはありますか?
大量のデータに対して使用できるRのテキストマイニングパッケージを推奨できますか? 第二に、Rのテキストマイニングパッケージのいずれかで利用可能なGUIはありますか? 第三に、使いやすく直感的な別のオープンソースのテキストマイニングプログラムがありますか?
12 r  text-mining 


5
テキストマイニングに関する良い本はありますか?
こんにちは私はいくつかのケーススタディでテキストマイニングと分類に関するいくつかの良い本があるかどうか知りたかったのです。そうでない場合は、一般にアクセス可能ないくつかの論文/ジャーナルはそうするでしょう。彼らが彼らの例をRでさらによく説明しているなら。ステップバイステップのマニュアルではなく、さまざまな種類の問題に対するさまざまなテキストマイニングアプローチの長所と短所を示すものを探しています。

1
インクリメンタルIDF(逆ドキュメント頻度)
テキストマイニングアプリケーションでの1つの簡単なアプローチは、ヒューリスティックを使用して、ドキュメントのコンパクトなスパース表現としてベクトルを作成することです。i d fはコーパス全体を必要とするため、コーパス全体が事前に知られているバッチ設定ではこれは問題ありません。t f- I Dftf−idftf-idf私はdfidfidf 私はd f(t )= ログ| D || {d:T ∈ D} |idf(t)=log⁡|D||{d:t∈d}| \mathrm{idf}(t) = \log \frac{|D|}{|\{d: t \in d\}|} ここで、は用語、dはドキュメント、Dはドキュメントコーパス、T(図示せず)は辞書です。tttdddDDDTTT ただし、通常、新しいドキュメントは時間の経過とともに受信されます。1つのオプションは、既存の使用して維持することである新規文書の特定の数が受信されるまで、再計算それ。ただし、これはかなり非効率的です。すべてのデータが事前に確認された場合に、(ほぼ)値に収束する増分更新スキームを知っている人はいますか?または、代わりに、同じ概念をキャプチャしますが、増分的に計算できる別のメジャーがありますか?私はdfidfidf また、時間の経過とともにが適切な指標であるかどうかという関連する質問もあります。idfはコーパスの単語頻度の概念を取り込むため、さまざまな単語の頻度が時間の経過とともに変化するため、コーパス内の古いドキュメント(たとえば、私のコーパスには100年を超えるジャーナル記事が含まれる)が考えられます。この場合、実際にはスライディングウィンドウi d fを使用して、新しいドキュメントが入ったときに古いドキュメントを破棄する方が賢明な場合があります。おそらく、人はまた、以前のすべて格納することができ、私D 、F、新しいものが計算されるベクトルを、そして私たちが言う1920年から1930年からの文書を検索したい場合は、その後、我々は使用することができ、私のD Fをidfidfidfidfidfidfidfidfidfidfidfidfその日付範囲のドキュメントから計算されます。このアプローチは意味がありますか? 編集:辞書は別の関連する問題があります。時が経つにつれ、以前にはなかった新しい辞書用語が登場するでしょう。T | 成長する必要があるため、i d fベクトルの長さ。古いi d fベクトルにゼロが追加される可能性があるため、これは問題にならないようです。TTT|T||T||T|idfidfidfidfidfidf

3
バイグラム(N-gram)モデルを使用したテキストドキュメントの特徴ベクトルの構築について
テキストマイニングの機能構築の従来のアプローチはバッグオブワードアプローチであり、tf-idfを使用して、特定のテキストドキュメントを特徴付ける特徴ベクトルを設定することで拡張できます。現在、バイグラム言語モデルまたは(N-gram)を使用して特徴ベクトルを構築しようとしていますが、その方法がよくわかりませんか?単語の代わりにバイグラムで頻度カウントを計算し、tf-idf重み付けスキームを使用してそれを強化する、つまり、bag-of-wordsのアプローチに従うことはできますか?

1
TF-IDF対数での対数の使用について
読んでいた: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition しかし、なぜこの式がそのように構築されたのか、正確には理解できないようです。 私が理解していること: iDFは、各文書に用語Sが出現する頻度をある程度のレベルで測定する必要があり、用語が出現する頻度が高くなるにつれて値が減少します。 その観点から iDF(S)=# of Documents# of Documents containing SiDF(S)=# of Documents# of Documents containing S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} さらに、用語の頻度は、次のように正しく記述できます。 tf(S,D)=# of Occurrences of S in document D# maximum number of occurrences for any string Q in document Dtf(S,D)=# …

1
スパース性のこの解釈は正確ですか?
パッケージのremoveSparseTerms関数のドキュメントによるとtm、これはスパース性が伴うものです: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor of less than sparse. では、これがsparse.99に等しいかどうかを正しく解釈すると、データの最大1%にしか出現しない用語が削除されますか?

1
逆ドキュメント頻度で1を追加する理由
私の教科書はidfをとしてリストしてい。log(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN:ドキュメントの数 ntntn_t:用語を含むドキュメントの数ttt ウィキペディアは、この公式を実際の平滑化バージョンとしてリストしてい。それは私が理解しているものです:からで、直感的に思えます。 しかし、はからこれは奇妙に見えます... 言語モデリングからの平滑化については少し知っていますが、分子に何かを追加します確率質量について心配しているので、分母も同様です。しかし、追加するだけでは意味がありません。ここで何を達成しようとしていますか?log(Nnt)log(Nnt)log(\frac{N}{n_t})log(NN)=0log(NN)=0log(\frac{N}{N})=0∞∞\inftylog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t})log(1+1)log(1+1)log(1+1)∞∞\infty111


1
計量経済学のためのテキストマイニング/自然言語処理ツールの使用
この質問がここで完全に適切かどうかはわかりませんが、適切でない場合は削除してください。 私は経済学の大学院生です。社会保険の問題を調査するプロジェクトの場合、適格性の評価を扱う多数の行政訴訟(> 20万件)にアクセスできます。これらのレポートは、個別の管理情報にリンクされている可能性があります。これらのレポートから、定量分析に使用できる情報を抽出したいと思います。理想的には、grep/ awkなどを使用した単純なキーワード/正規表現検索以上のものです。 このための自然言語処理はどの程度役に立ちますか?他の有用なテキストマイニングアプローチは何ですか?私が理解しているところによると、これは大きなフィールドであり、コーパスとして使用するにはレポートの一部を変換する必要があると考えられます。文献や方法に慣れるために、少し時間をかける価値はありますか?それは役に立ちますか?同様のことが以前に行われましたか?報酬の点でそれは価値がありますか?すなわち、経済学の実証的研究のためにNLPを使用して潜在的に有用な情報を抽出できますか? 一部のレポートを読んで準備するために誰かを雇うための資金が存在する可能性があります。これはより大きなプロジェクトであり、より多くの資金を申請する可能性があります。必要に応じて、トピックの詳細を提供できます。複雑になる可能性の1つは、言語が英語ではなくドイツ語であることです。 資格に関しては、私は主に計量経済学の訓練を受けており、Hastieらのレベルでの計算統計についてある程度の知識があります。本。私はPython、R、Stataを知っており、おそらくMatlabにすぐに慣れるでしょう。ライブラリを考えると、Pythonがこれに最適なツールであると思います。これに関連する場合、定性的な方法のトレーニングはまったくありませんが、私が連絡をとることができる人を知っています。 私はこれに関する任意の入力を喜んでいます。つまり、これが潜在的に有用かどうか、もしそうなら、どこから読み始めるべきか、そしてどのツールに特に焦点を当てるべきか、です。

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
感情分析の理解と適用
私は、いくつかのドキュメントコレクションの感情分析を行うプロジェクトに割り当てられていたところです。グーグルによって、多くの感情関連の研究が浮上しています。 私の質問は: 機械学習と統計分析の分野における感情分析の主な方法/アルゴリズムは何ですか? 確立された結果はありますか? 感情分析を実行できる既存のオープンソースソフトウェアはありますか?

4
2 X 3テーブルで複数の事後カイ2乗検定を実行する方法
私のデータセットは、沿岸、ミッドチャネル、オフショアの3つのサイトタイプでの生物の全死亡率または生存率で構成されています。下の表の数字は、サイトの数を表しています。 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100%の死亡率が発生したサイトの数がサイトのタイプに基づいて重要かどうかを知りたいです。2 x 3カイ2乗を実行すると、重要な結果が得られます。実行できる事後的なペアワイズ比較はありますか、または実際にロジスティックANOVAまたは二項分布の回帰を使用する必要がありますか?ありがとう!

3
仕事の説明から情報をどのように分類/抽出しますか?
ユーザーが入力した一連のジョブの説明があります。あらゆる種類のミススペルと悪いデータがあります。つまり: ... tulane univ hospital tulip tullett prebon ... weik investment weill cornell university medical center weis weiss waldee hohimer dds welded constrction l.p. welder welder welder ... 仕事に関連する洞察でこの価値を「高める」ためにどのようなステップを踏みますか? 私が考えることができる最高のものは、それをwolfram alphaに与えることです。しかし、Pythonを使用して利用できる他のアクセシブルなテクニックはあるのでしょうか。 更新:標準の職業分類があることがわかりました。名前をSOCに、SOCを平均給与の範囲に一致させたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.