タグ付けされた質問 「text-mining」

パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して、機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。

1
英語の文章の複雑さを判断するにはどうすればよいですか?
私は人々が第二言語として英語を学ぶのを助けるアプリに取り組んでいます。文章が追加のコンテキストを提供することで言語の学習に役立つことを検証しました。60人の生徒の教室で小規模な調査を実施しました。 私はWikipediaから10万以上の文をさまざまな英語の単語(Barronsの800の単語と1000の最も一般的な英語の単語を含む)についてマイニングしました データ全体はhttps://buildmyvocab.inで入手できます コンテンツの品質を維持するために、理解しにくい可能性があるため、160文字を超える文章は除外しました。 次のステップとして、このコンテンツを理解しやすい順に並べ替えるプロセスを自動化できるようにしたいと考えています。私自身は英語を母国語としない人です。簡単な文章と難しい文章を区別するために使用できる機能を知りたい。 また、これは可能だと思いますか?

1
word2vecにはどのくらいのトレーニングデータが必要ですか?
出典が異なる同じ言葉の違いを比較したい。つまり、「民主主義」などの不明確な言葉の使い方が著者によってどのように異なるかです。 簡単な計画は 「民主主義」という用語を述べた本を平文とする それぞれの本には、交換するdemocracyとdemocracy_%AuthorName% word2vecこれらの本でモデルを訓練する 間の距離を計算しdemocracy_AuthorA、democracy_AuthorB及びその他の再ラベルは、「民主主義」の言及 したがって、各作者の「民主主義」は、比較のために使用される独自のベクトルを取得します。 しかし、word2vec信頼できるベクトルを訓練するには、数冊の本よりはるかに多くのラベルが必要です(各ラベルが付けられた単語は、本のサブセットでのみ発生します)。公式ページには、言葉の十億を含むデータセットを推奨しています。 私は、そのような推論を行うために、word2vecまたは利用可能な場合は代替ツールを作成するために、1人の著者の本のサブセットがどのくらいの大きさであるかを尋ねたかっただけですか?

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
特定の単語を名前、携帯電話番号、住所、電子メール、州、郡、市などとして分類するために使用される機械/ディープラーニング/ nlpテクニック
一連の単語または文字列をスキャンし、機械学習またはディープラーニングを使用して、それらを名前、携帯電話番号、住所、都市、州、国、およびその他のエンティティとして分類できるインテリジェントモデルを生成しようとしています。 私はアプローチを探していましたが、残念ながら、どのようなアプローチを取るべきかわかりませんでした。文字列が名前であるか都市であるかなどを予測するために、バッグオブワードモデルとグローブワードの埋め込みを試しました。 しかし、私はバッグオブワードモデルでは成功しませんでした。GloVeには、埋め込み例でカバーされていない名前がたくさんあります。-laurenはGloveに存在し、laurenaは存在しません 私はこの投稿をここで見つけましたが、それは合理的な答えでしたが、NLPとSVMがそれを解決するために使用されたという事実を除いて、その問題を解決するために使用されたアプローチはできませんでした。 どんな提案もありがたいです よろしくお願いいたします。SaiCharan Adurthi。

4
テキスト分類子トレーニングデータセットを提案する
テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか? 私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。 この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。 ありがとう:)

5
コサイン類似度によるクラスタリング
大きなデータセットとそれらの間のコサイン類似度があります。予想するクラスターの数を事前に指定する必要なく、類似のオブジェクトをまとめるコサイン類似度を使用してそれらをクラスター化したいと思います。 私はDBSCANとAffinity Propagationのsklearnドキュメントを読みました。どちらも距離行列(コサイン類似度行列ではない)を必要とします。 本当に、私はa)距離メトリックとb)事前に指定された数のクラスターを必要としないアルゴリズムを探しています。 誰かがそれを行うアルゴリズムを知っていますか?

3
テキストのクラスタリングをどのように評価しますか?
テキストクラスタリングモデルの評価に使用できるメトリックは何ですか?私が使用しましたtf-idf+ k-means、tf-idf+ hierarchical clustering、doc2vec+ k-means (metric is cosine similarity)、doc2vec+ hierarchical clustering (metric is cosine similarity)。どのモデルが最適かを判断するにはどうすればよいですか?

4
Rでのメールの分類
私はRでプロジェクトに取り組んでいます。会社からのメールが約1200通あり、そのほとんどがリクエストのタイプであるclassまたはclassというラベルが付いています。およそ1000通のメールにclassというラベルが付けられ、200通にはclassというラベルが付けられ。私の目標は、教師あり学習を使用して、新しいメールを分類するモデルを構築することです。11_{1}1 222_{2}11_{1}22_{2} しかし、多くの前処理(構文解析、ストップワードの削除など)を行い、ドキュメント用語行列で一般的なアルゴリズム(SVM、決定木など)を試した後、混乱行列には多くの偽陽性と偽陰性が含まれていましたが、 SVMのほんの少しの偽陰性。 どうすれば結果を改善できるでしょうか。オーバーサンプリング、つまりバイグラムの特徴表現を使用する必要がありますか?問題は、2つのカテゴリのトピックが本当に近いということです。

4
スパムメールの検出を学ぶには?
スパムメール検出機能がどのように実行されるかを知りたい。私は市販の製品を作るつもりはありません。それは私にとって真剣な学習課題になります。したがって、私はフォローできる既存のプロジェクト、ソースコード、記事、論文などのリソースを探しています。私は例で学びたいのですが、一から学ぶだけでは十分ではないと思います。ベイジアンで手を汚したいのが理想です。 そのようなものはありますか?プログラミング言語は私にとって問題ではありません。

1
テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか
ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト(2〜5文)の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ(そのうちの約40)には、2〜3行程度のデータしかありません。 各クラス/カテゴリのログ確率を添付しています。(またはクラスの分布)ここに。

1
ランダムフォレストでのtf-idfとtfの違い
私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト(scikitに存在するもの)の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf(項頻度)機能の使用に違いがありますか?各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf(用語の頻度*逆のドキュメントの頻度)があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数)? 私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。 私の推論は正しいですか?

1
パッケージtmを使用したRエラー(テキストマイニング)
tmパッケージを使用して、テキスト文字列のベクトルをコーパス要素に変換しようとしています。 私のコードはこのようなものです Corpus(d1$Yes) ここで、d1$Yes124のレベル、テキスト文字列を含むそれぞれ有する因子です。 例えば、 d1$Yes[246] = "So we can get the boat out!" 次のエラーが表示されます。 "Error: inherits(x, "Source") is not TRUE" これを解決する方法がわかりません。
8 r  text-mining 



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.