データサイエンス text-mining

1

私は人々が第二言語として英語を学ぶのを助けるアプリに取り組んでいます。文章が追加のコンテキストを提供することで言語の学習に役立つことを検証しました。60人の生徒の教室で小規模な調査を実施しました。私はWikipediaから10万以上の文をさまざまな英語の単語（Barronsの800の単語と1000の最も一般的な英語の単語を含む）についてマイニングしましたデータ全体はhttps://buildmyvocab.inで入手できますコンテンツの品質を維持するために、理解しにくい可能性があるため、160文字を超える文章は除外しました。次のステップとして、このコンテンツを理解しやすい順に並べ替えるプロセスを自動化できるようにしたいと考えています。私自身は英語を母国語としない人です。簡単な文章と難しい文章を区別するために使用できる機能を知りたい。また、これは可能だと思いますか？

10 machine-learning classification nlp text-mining

1

word2vecにはどのくらいのトレーニングデータが必要ですか？

出典が異なる同じ言葉の違いを比較したい。つまり、「民主主義」などの不明確な言葉の使い方が著者によってどのように異なるかです。簡単な計画は「民主主義」という用語を述べた本を平文とするそれぞれの本には、交換するdemocracyとdemocracy_%AuthorName% word2vecこれらの本でモデルを訓練する間の距離を計算しdemocracy_AuthorA、democracy_AuthorB及びその他の再ラベルは、「民主主義」の言及したがって、各作者の「民主主義」は、比較のために使用される独自のベクトルを取得します。しかし、word2vec信頼できるベクトルを訓練するには、数冊の本よりはるかに多くのラベルが必要です（各ラベルが付けられた単語は、本のサブセットでのみ発生します）。公式ページには、言葉の十億を含むデータセットを推奨しています。私は、そのような推論を行うために、word2vecまたは利用可能な場合は代替ツールを作成するために、1人の著者の本のサブセットがどのくらいの大きさであるかを尋ねたかっただけですか？

10 text-mining word-embeddings

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

特定の単語を名前、携帯電話番号、住所、電子メール、州、郡、市などとして分類するために使用される機械/ディープラーニング/ nlpテクニック

一連の単語または文字列をスキャンし、機械学習またはディープラーニングを使用して、それらを名前、携帯電話番号、住所、都市、州、国、およびその他のエンティティとして分類できるインテリジェントモデルを生成しようとしています。私はアプローチを探していましたが、残念ながら、どのようなアプローチを取るべきかわかりませんでした。文字列が名前であるか都市であるかなどを予測するために、バッグオブワードモデルとグローブワードの埋め込みを試しました。しかし、私はバッグオブワードモデルでは成功しませんでした。GloVeには、埋め込み例でカバーされていない名前がたくさんあります。-laurenはGloveに存在し、laurenaは存在しません私はこの投稿をここで見つけましたが、それは合理的な答えでしたが、NLPとSVMがそれを解決するために使用されたという事実を除いて、その問題を解決するために使用されたアプローチはできませんでした。どんな提案もありがたいですよろしくお願いいたします。SaiCharan Adurthi。

9 machine-learning deep-learning text-mining natural-language-process

4

テキスト分類子トレーニングデータセットを提案する

テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか？私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。ありがとう:)

9 machine-learning classification dataset clustering text-mining

5

コサイン類似度によるクラスタリング

大きなデータセットとそれらの間のコサイン類似度があります。予想するクラスターの数を事前に指定する必要なく、類似のオブジェクトをまとめるコサイン類似度を使用してそれらをクラスター化したいと思います。私はDBSCANとAffinity Propagationのsklearnドキュメントを読みました。どちらも距離行列（コサイン類似度行列ではない）を必要とします。本当に、私はa）距離メトリックとb）事前に指定された数のクラスターを必要としないアルゴリズムを探しています。誰かがそれを行うアルゴリズムを知っていますか？

8 machine-learning data-mining clustering text-mining

3

テキストのクラスタリングをどのように評価しますか？

テキストクラスタリングモデルの評価に使用できるメトリックは何ですか？私が使用しましたtf-idf+ k-means、tf-idf+ hierarchical clustering、doc2vec+ k-means (metric is cosine similarity)、doc2vec+ hierarchical clustering (metric is cosine similarity)。どのモデルが最適かを判断するにはどうすればよいですか？

8 machine-learning clustering text-mining

4

Rでのメールの分類

私はRでプロジェクトに取り組んでいます。会社からのメールが約1200通あり、そのほとんどがリクエストのタイプであるclassまたはclassというラベルが付いています。およそ1000通のメールにclassというラベルが付けられ、200通にはclassというラベルが付けられ。私の目標は、教師あり学習を使用して、新しいメールを分類するモデルを構築することです。11_{1}1 222_{2}11_{1}22_{2} しかし、多くの前処理（構文解析、ストップワードの削除など）を行い、ドキュメント用語行列で一般的なアルゴリズム（SVM、決定木など）を試した後、混乱行列には多くの偽陽性と偽陰性が含まれていましたが、 SVMのほんの少しの偽陰性。どうすれば結果を改善できるでしょうか。オーバーサンプリング、つまりバイグラムの特徴表現を使用する必要がありますか？問題は、2つのカテゴリのトピックが本当に近いということです。

8 machine-learning r text-mining

4

スパムメールの検出を学ぶには？

スパムメール検出機能がどのように実行されるかを知りたい。私は市販の製品を作るつもりはありません。それは私にとって真剣な学習課題になります。したがって、私はフォローできる既存のプロジェクト、ソースコード、記事、論文などのリソースを探しています。私は例で学びたいのですが、一から学ぶだけでは十分ではないと思います。ベイジアンで手を汚したいのが理想です。そのようなものはありますか？プログラミング言語は私にとって問題ではありません。

8 machine-learning classification text-mining

1

テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか

ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト（2〜5文）の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ（そのうちの約40）には、2〜3行程度のデータしかありません。各クラス/カテゴリのログ確率を添付しています。（またはクラスの分布）ここに。

8 machine-learning classification nlp text-mining

1

ランダムフォレストでのtf-idfとtfの違い

私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト（scikitに存在するもの）の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf（項頻度）機能の使用に違いがありますか？各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf（用語の頻度*逆のドキュメントの頻度）があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数）？私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。私の推論は正しいですか？

8 classification text-mining random-forest

1

パッケージtmを使用したRエラー（テキストマイニング）

tmパッケージを使用して、テキスト文字列のベクトルをコーパス要素に変換しようとしています。私のコードはこのようなものです Corpus(d1$Yes) ここで、d1$Yes124のレベル、テキスト文字列を含むそれぞれ有する因子です。例えば、 d1$Yes[246] = "So we can get the boat out!" 次のエラーが表示されます。 "Error: inherits(x, "Source") is not TRUE" これを解決する方法がわかりません。

8 r text-mining

1

どの深層学習テキスト分類子が健康データに適していますか

私はこのようなデータセットを持っています： postID Sentence drugYesOrNo 1 He went out with his friends 2 He behaved nicely while talking with me 3 He stopped using drugs after a while 1 4 He did not meet any friend during last week 1 He slowly cut usage of drugs 1 2 He smiled like …

7 machine-learning deep-learning classification text-mining

3

良い方法でクラスターをプロットする方法は？

大規模なテキストデータセットがクラスター化されています。各クラスターは、それに属するベクトル化されたテキストの重心、テキストの数、作成日、およびその他のパラメーターによって表されます。クラスタをn次元空間にプロットできません。どのオプションがありますか？

7 clustering text-mining plotting matplotlib

タグ付けされた質問 「text-mining」

タグ付けされた質問「text-mining」