タグ付けされた質問 「text-mining」

パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Keras「埋め込み」レイヤーはどのように機能しますか?
Kerasライブラリの「埋め込み」レイヤーの動作を理解する必要があります。Pythonで次のコードを実行します import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) 次の出力が得られます input_array = [[4 1 3 3 3]] output_array = [[[ 0.03126476 0.00527241] [-0.02369716 -0.02856163] [ 0.0055749 0.01492429] [ 0.0055749 0.01492429] …

6
文字列の2つのベクトルを(Rで)準一致させる方法は?
私はこれがどのように呼ばれるべきかわからないので、より良い用語を知っているなら私を修正してください。 2つのリストがあります。55個のアイテムの1つ(例:文字列のベクトル)、92個のアイテム。アイテム名は似ていますが、同一ではありません。 55リストの項目から92リストの最適な候補を見つけたい(それからそれを調べて正しいフィッティングを選択する)。 どうすればできますか? 私が持っていたアイデア: 一致するものをすべて表示します(何かのリスト?matchを使用) 文字列ベクトル間の距離行列を試してみてください。しかし、それをどのように定義するのが最適かわかりません(同一の文字の数、文字列の順序はどうですか?) では、そのようなタスクを処理するパッケージ/機能/研究分野は何ですか? 更新:一致させたいベクターの例を次に示します vec55 <- c("Aeropyrum pernix", "Archaeoglobus fulgidus", "Candidatus_Korarchaeum_cryptofilum", "Candidatus_Methanoregula_boonei_6A8", "Cenarchaeum_symbiosum", "Desulfurococcus_kamchatkensis", "Ferroplasma acidarmanus", "Haloarcula_marismortui_ATCC_43049", "Halobacterium sp.", "Halobacterium_salinarum_R1", "Haloferax volcanii", "Haloquadratum_walsbyi", "Hyperthermus_butylicus", "Ignicoccus_hospitalis_KIN4", "Metallosphaera_sedula_DSM_5348", "Methanobacterium thermautotrophicus", "Methanobrevibacter_smithii_ATCC_35061", "Methanococcoides_burtonii_DSM_6242" ) vec91 <- c("Acidilobus saccharovorans 345-15", "Aciduliprofundum boonei T469", "Aeropyrum pernix K1", "Archaeoglobus fulgidus DSM …
36 r  text-mining 

6
テキストの統計的分類
私は統計的背景のないプログラマーであり、現在、事前に定義されたカテゴリーに分類したい多数の異なる文書について、異なる分類方法を検討しています。私はkNN、SVM、NNについて読んでいます。ただし、開始するのに苦労しています。どのリソースをお勧めしますか?私は単一変数および多変数計算を非常によく知っているので、私の数学は十分に強力でなければなりません。私は、Neural Networksに関するBishopの本も所有していますが、序論としては少々高密度であることが証明されています。

4
文字列を解析するための機械学習技術?
私はたくさんのアドレス文字列を持っています: 1600 Pennsylvania Ave, Washington, DC 20500 USA それらをコンポーネントに解析したい: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA しかし、もちろんデータは汚れています。さまざまな方法で書かれたさまざまな言語の多くの国から来たもので、つづりの間違い、欠品、余分なジャンクなどが含まれています。 現時点では、ファジーガゼッターマッチングと組み合わせたルールを使用するのがアプローチですが、機械学習の手法を探求したいと考えています。教師あり学習用のトレーニングデータにラベルを付けました。問題は、これはどのような機械学習の問題ですか?クラスタリング、分類、回帰のようには見えません。 私が思いつく最も近い方法は、各トークンを分類することですが、実際には、それらをすべて同時に分類し、「最大で1つの国が存在する必要があります」などの制約を満たします。本当に文字列をトークン化する方法はたくさんあり、それぞれを試して最高のものを選択したいのですが...統計解析と呼ばれるものがあることは知っていますが、それについては何も知りません。 それで、アドレスを解析するためにどんな機械学習技術を探求できますか?

3
Rはテキスト分類タスクにどれだけうまく対応できますか?[閉まっている]
私はRの速度を上げようとしています。最終的にはテキストの分類にRライブラリを使用したいと思います。テキストの分類を行う際に、Rの拡張性に関して人々の経験はどうなっているかと思っていました。 高次元のデータ(〜30万次元)に遭遇する可能性があります。特に分類アルゴリズムとしてSVMとランダムフォレストを使用することを検討しています。 Rライブラリは問題のサイズに合わせて拡張できますか? ありがとう。 編集1:明確にするために、私のデータセットには10​​00〜3000行(おそらくもう少し)と10のクラスがありそうです。 編集2:私はRに非常に新しいので、可能な限りより具体的になるようにポスターを要求します。たとえば、ワークフロー/パイプラインを提案している場合は、可能であれば各ステップに関係するRライブラリを必ず言及してください。いくつかの追加のポインター(例、サンプルコードなど)がケーキに着氷します。 編集3:まず、あなたのコメントをありがとう。第二に、私は謝罪します。おそらく、この問題についてもっと多くの文脈を与えたはずです。私はRには慣れていませんが、テキストの分類にはそれほど慣れていません。物事の感触をつかむために、tmパッケージを使用して、データの一部で前処理(ステミング、ストップワードの削除、tf-idf変換など)を既に実行しています。tmは約200のドキュメントでも非常に遅いため、スケーラビリティについて心配しました。それから私はFSelectorで遊び始めましたが、それでも本当に遅かったです。そして、それが私がOPを作ったポイントです。 編集4:10個のクラスとクラスごとに約300個のトレーニングドキュメントがあり、実際にはトレーニングセット全体からtermXdocマトリックスを構築しているため、非常に高い次元が発生しました。しかし、すべての1-out-of-k分類問題を一連のバイナリ分類問題に減らすのはどうでしょうか?これにより、k-1の各ステップでトレーニングドキュメントの数(したがって次元数)が大幅に削減されます。このアプローチは良いものですか?精度の点で、通常のマルチクラス実装とどのように比較されますか?

2
単純ベイズと多項式単純ベイズの違い
以前、単純ベイズ分類器を扱ったことがあります。私は最近、多項ナイーブベイズについて読んでいます。 また、事後確率=(事前*尤度)/(証拠)。 Naive BayesとMultinomial Naive Bayesの間で見つけた唯一の主な違い(これらの分類子のプログラミング中)は、 多項ナイーブベイズする可能性を算出し、単語/トークンの数(確率変数)とナイーブベイズは、以下のことが可能性を計算します。 私が間違っている場合は修正してください!

4
トピックモデリング/ LDAを実行するためのRパッケージ:単に `topicmodels`と` lda` [終了]
潜在ディリクレ割り当てを実行できるのは2つのRパッケージのみであるように思われます。 1つはlda、Jonathan Changによって作成されました。もう1つはtopicmodelsBettinaGrünとKurt Hornikによって作成されました。 パフォーマンス、実装の詳細、および拡張性に関して、これら2つのパッケージの違いは何ですか?

1
相互検証は検証セットの適切な代替物ですか?
テキスト分類では、約800サンプルのトレーニングセットと約150サンプルのテストセットがあります。テストセットは使用されたことがなく、最後まで使用されるのを待っています。 私は800のサンプルトレーニングセット全体を使用し、分類器と機能を調整および微調整しながら10倍の相互検証を行います。つまり、個別の検証セットはありませんが、10倍に達するたびに検証セットが自動的に選択されます。 すべてに満足し、評価の最終段階に入りたいと思ったら、800サンプル全体で分類器をトレーニングします。150サンプルのテストセットでテストします。 テキスト分類でのクロス検証のそのような使用法を理解していますか?このプラクティスは有効ですか? クロス検証に関するもう1つの質問は次のとおりです。 10倍ではなく、パフォーマンスの一般的な指標として1つを省いてみました。除外する場合、f1 / precision / recallに関する情報を取得することはできないため、leave-one-outの精度と10倍のメトリクスの関係はどうなっているのでしょうか? どんな洞察も大歓迎です。 編集: これは、相互検証の非常に良い紹介です。また、他の研究論文も参照しています。

7
Naive Bayesでは、テストセットに未知の単語があるのに、なぜラプラススムージングに悩まされるのですか?
今日は、単純ベイズ分類について読んでいた。追加のスムージングを使用したパラメーター推定の見出しの下で読みました: してみましょう(例えば正または負など)クラスを参照してください、としましょうトークンまたは単語を参照してください。cccwww の最尤推定量は、P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. この推定は、未知の単語を含むドキュメントに対して確率を与えるため、問題になる可能性があります。この問題を解決する一般的な方法は、ラプラス平滑化を使用することです。P(w|c)P(w|c)P(w|c)000 Vをトレーニングセット内の単語セットとし、単語セットに新しい要素(不明)を追加します。UNKUNKUNK 定義P(w | c )= カウント(w 、c )+ 1カウント(c )+ | V| +1、P(w|c)=カウント(w、c)+1カウント(c)+|V|+1、P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + …

3
トピックモデルと単語の共起法
LDAのような人気のあるトピックモデルは通常、同じトピック(クラスター)に共起する傾向がある単語をクラスター化します。 このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか?(PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。)

2
テキスト分類のための単語の袋:TFIDFの代わりに単語の頻度を使用しないのはなぜですか?
テキスト分類の一般的なアプローチは、「単語の袋」から分類器をトレーニングすることです。ユーザーは分類するテキストを取得し、各オブジェクト内の単語の頻度をカウントします。その後、結果のマトリックスを管理可能なサイズに維持するために何らかのトリミングを行います。 多くの場合、ユーザーはTFIDFを使用して特徴ベクトルを構築します。言い換えれば、上記のテキストの頻度は、コーパス内の単語の頻度によって低くされています。TFIDFが、たとえば、人間のアナリストに表示するために、特定のドキュメントの「最も顕著な」単語を選択するのに役立つのはなぜでしょう。しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか?学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか?もしあれば、IDFがどのような価値を追加するかについてのあなたの考えに感謝します。

1
センチメント分析に段落ベクトルを使用した最新のパフォーマンスが報告されていますか?
LeとMikolovによるICML 2014の論文「Sentences and Documentsの分散表現」の結果に感銘を受けました。「パラグラフベクトル」と呼ばれる彼らが説明する技術は、word2vecモデルの拡張に基づいて、任意の長さのパラグラフ/ドキュメントの教師なし表現を学習します。この技術は、この手法を使用したセンチメント分析に関する最新のパフォーマンスを報告しています。 従来のバッグオブワード表現に代わるものとして、他のテキスト分類問題でこの手法を評価したいと考えていました。しかし、私はword2vec Googleグループのスレッドで2番目の著者の投稿を見つけて、一時停止しました。 夏の間にQuocの結果を再現しようとしました。IMDBデータセットのエラー率は、約9.4%〜10%に達する可能性があります(テキストの正規化の程度によって異なります)。しかし、Quocの論文での報告に近いものは得られませんでした(7.4%のエラー、これは大きな違いです)...もちろん、Quocにコードについて尋ねました。彼はそれを公開すると約束したが、今のところ何も起こっていない。... Quocの結果は実際には再現性がないと考え始めています。 これらの結果を再現することに成功した人はいますか?

3
分類のための半教師あり学習、能動学習、および深層学習
すべてのリソースが更新された最終編集: プロジェクトでは、機械学習アルゴリズムを分類に適用しています。 課題: 非常に限られたラベル付きデータと、より多くのラベルなしデータ。 目標: 半教師付き分類を適用する 何らかの方法で半教師付きのラベル付けプロセスを適用します(アクティブラーニングとして知られています) EM、Transductive SVM、S3VM(Semi Supervised SVM)の適用、またはLDAの使用など、研究論文から多くの情報を見つけました。このトピックに関する本はほとんどありません。 質問: 実装と実際のソースはどこにありますか? 最終更新(mpiktas、bayer、およびDikran Marsupialが提供するヘルプに基づく) 半教師付き学習: TSVM:SVMligthおよびSVMlinで。 PythonのEM Naive Bayes LinePipeプロジェクトのEM 能動的学習: Dualist:テキスト分類に関するソースコードを使用した能動学習の実装 このWebページは、アクティブラーニングの素晴らしい概要を提供しています。 実験的なデザインワークショップ:ここ。 深層学習: ここで紹介ビデオ。 一般サイト。 スタンフォード教師なし機能学習および深層学習チュートリアル。

2
自然言語処理が機械学習ドメインに分類されないのはなぜですか?[閉まっている]
現在のところ、この質問はQ&A形式には適していません。回答は、事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は、議論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善し、おそらく再開できると思われる場合は、ヘルプセンターをご覧ください。 7年前に閉鎖されました。 私は多くの本やウェブでそれと出会います。自然言語処理と機械学習は、人工知能の異なるサブセットであると言われています。それはなぜです?機械学習アルゴリズムにサウンドパターンを供給することで、自然言語処理の結果を達成できます。それでは、違いは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.