タグ付けされた質問 「text-mining」

パターンを認識してテキスト形式のデータから情報を抽出することに関連するデータマイニングのサブセットを指します。テキストマイニングの目的は、多くの場合、特定のドキュメントを自動的にいくつかのカテゴリの1つに分類し、このパフォーマンスを動的に改善して、機械学習の例にすることです。このタイプのテキストマイニングの1つの例は、電子メールに使用されるスパムフィルターです。


1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
履歴書データに基づいてジョブ分類を実行するには、どのアルゴリズムを使用する必要がありますか?
Rですべてを行っていることに注意してください。 問題は次のようになります。 基本的に、履歴書(CV)のリストがあります。一部の候補者は以前に実務経験があり、いくつかはそうではありません。ここでの目標は、CVのテキストに基づいて、それらを異なる職種に分類することです。私は、候補者が経験を持たない/学生である場合に特に興味があり、卒業後にこの候補者がどの職種に属する可能性が高いかを予測する必要があります。 質問1:機械学習アルゴリズムを知っています。ただし、NLPを実行したことはありません。インターネットでLatent Dirichletの割り当てに出会いました。しかし、これが私の問題に取り組むための最良のアプローチであるかどうかはわかりません。 私の元のアイデア: これを教師付き学習問題にします。ラベル付けされたデータがすでに大量にあると仮定します。つまり、候補者のリストのジョブセクターに正しくラベル付けされています。MLアルゴリズム(つまり、最近傍...)を使用してモデルをトレーニングし、これらのラベルのないデータを入力します。これらのデータは、実務経験がない/学生である候補であり、所属するジョブセクターを予測しようとします。 質問2の更新:履歴書のすべてを抽出してテキストファイルを作成し、各履歴書が非構造化文字列を含むテキストファイルに関連付けられるようにテキストファイルを作成することをお勧めします。テキストマイニング手法をテキストファイルに適用し、データを構造化するか、テキストファイルから使用される用語の頻度マトリックスを作成しますか?たとえば、テキストファイルは次のようになります。 I deployed ML algorithm in this project and... Skills: Java, Python, c++ ... これは私が「非構造化」、つまりすべてを1行の文字列に折りたたむことによって意味したものです。 このアプローチは間違っていますか?私のアプローチが間違っていると思われる場合は私を修正してください。 質問3:難しい部分は、キーワードを識別して抽出する方法です。tmRでパッケージを使用しますか?tm パッケージはどのアルゴリズムに基づいていますか?NLPアルゴリズムを使用する必要がありますか?はいの場合、どのアルゴリズムを調べる必要がありますか?ご覧になる良いリソースをいくつか教えてください。 どんなアイデアでも素晴らしいでしょう。


3
ディープラーニングライブラリを使用したテキストからのキーワード/フレーズ抽出
おそらくこれは広すぎるかもしれませんが、テキスト要約タスクでディープラーニングを使用する方法に関するリファレンスを探しています。 標準の単語頻度アプローチと文のランク付けを使用してテキストの要約を既に実装していますが、このタスクにディープラーニングテクニックを使用する可能性を調査したいと思います。また、センチメント分析にConvolutional Neural Networks(CNN)を使用してwildml.comで提供されているいくつかの実装も行っています。テキストの要約とキーワード抽出にTensorFlowやTheanoなどのライブラリをどのように使用できるか知りたいのですが。ニューラルネットの実験を始めてから約1週間が経過しました。これらのライブラリのパフォーマンスが、この問題に対する以前のアプローチと比較してどうなるか、とても楽しみです。 これらのフレームワークを使用したテキスト要約に関連する興味深い論文とgithubプロジェクトを特に探しています。誰かが私にいくつかの参照を提供できますか?

3
テキスト分類とトピックモデルの違いは何ですか?
機械学習におけるクラスタリングと分類の違いは知っていますが、ドキュメントのテキスト分類とトピックモデリングの違いはわかりません。ドキュメントに対してトピックモデリングを使用してトピックを特定できますか?分類方法を使用して、これらのドキュメント内のテキストを分類できますか?


3
初期キーワードに基づいて関連する単語のリストを増やす方法は?
最近、Googleスプレッドシートで利用できるクールな機能を見ました:「青」、「緑」、「黄」などの連続したセルにいくつかの関連キーワードを書くことから始め、同様のキーワードを自動的に生成します(この場合、他の色)。このYouTubeビデオで他の例を参照してください。 これを自分のプログラムで再現したいと思います。私はFreebaseを使用することを考えており、直感的には次のように機能します: Freebaseで指定された単語のリストを取得します。 彼らの「共通分母」を見つけ、これに基づいて距離メトリックを構築します。 元のキーワードとの「距離」に基づいて他の概念をランク付けします。 次に近い概念を表示します。 私はこの分野に詳しくないので、私の質問は次のとおりです。 これを行うためのより良い方法はありますか? 各ステップで使用できるツールは何ですか?

4
メタデータでテキスト文書に注釈を付ける方法は?
多くのテキスト文書(自然言語、構造化されていない)がある場合、それらに何らかのセマンティックメタデータで注釈を付ける可能な方法は何ですか?たとえば、短いドキュメントを考えてみましょう。 I saw the company's manager last day. それから情報を抽出できるようにするには、追加データで注釈を付けてあいまいさを軽減する必要があります。このようなメタデータを見つけるプロセスは問題ではないため、手動で行われると想定します。問題は、これらのデータをさらに便利に/効率的に分析できるように、これらのデータをどのように保存するかです。 可能なアプローチはXMLタグを使用することです(以下を参照)が、冗長すぎるようで、テキストドキュメントにそのようなメタデータを保存するためのより良いアプローチ/ガイドラインがあるかもしれません。 <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

1
テキストクラスタリングのアルゴリズム
大量の文章を意味ごとにグループ化する問題があります。これは、文がたくさんあり、それらを意味ごとにグループ化する場合の問題に似ています。 これを行うにはどのようなアルゴリズムが推奨されますか?クラスターの数が事前にわかりません(さらに多くのデータが追加されるにつれてクラスターも変化する可能性があります)。通常、各文を表すためにどの機能が使用されますか? 私は今、単語のリストと次のように定義された文の間の距離を持つ最も単純な機能を試しています: (AとBは、文AとBの対応する単語のセットです) それはまったく理にかなっていますか? 事前にクラスターの数を必要としないので、scikitライブラリーの平均シフトアルゴリズムをこの距離に適用しようとしています。 誰かが問題のより良い方法/アプローチをアドバイスするなら-私はまだトピックに新しいので、それは非常に高く評価されます。

2
Doc2Vec-段落にラベルを付ける方法(gensim)
gensimでdoc2vecを使用して文/段落/文書にラベルを付ける(タグ付けする)方法を考えています-実際的な観点から。 各文/段落/文書に固有のラベル(「Sent_123」など)を付ける必要がありますか?これは、「 "Sent_123"というラベルの付いた特定の1つの文に最も似ている単語や文を言いたい場合に便利です。 内容に基づいてラベルを繰り返すことはできますか?たとえば、各文/段落/ドキュメントが特定の製品アイテムに関するものである場合(および特定の製品アイテムに複数の文/段落/ドキュメントがある場合)、アイテムに基づいて文にラベルを付けてから、単語または単語間の類似性を計算できます文とこのラベル(製品アイテムに関係するすべての文の平均に似ていると思います)?

2
文書からテキストの最も有益な部分を抽出する
現在のドキュメントに関するほとんどの情報を保持しているテキストの一部を抽出することに関する記事や議論はありますか。 たとえば、同じドメインからの大量のドキュメントがあります。単一のドキュメントが語っている重要な情報を保持するテキストの部分があります。それらの一部を抽出して、テキストの要約として使用したいと思います。このようなことを達成する方法に関する有用なドキュメントはありますか。 自然言語処理のこの分野で既に行われている可能性のある仕事の洞察を得るために、誰かが私が検索または読むべき正しい方向に私を向けることができれば、本当に役立ちます。
16 nlp  text-mining 

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
住所のあいまい一致を行う方法
住所の形式が異なる場合、または住所の1つが間違っている場合の住所の照合方法を知りたい。 これまでのところ、さまざまなソリューションを見つけましたが、それらはかなり古く、あまり効率的ではないと思います。より良い方法がいくつかあると確信しているので、もしあなたが私が読むための参考文献を持っているなら、それは複数の人に興味があるかもしれない主題であると確信しています。 私が見つけた解決策(例はRにあります): レーベンシュタイン距離。1つの単語を別の単語に変換するために挿入、削除、または変更する必要がある文字数に相当します。 agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE) ## [1] "accusait" "abusait" 音素の比較 library(RecordLinkage) soundex(x<-c('accusait','acusait','abusait')) ## [1] "A223" "A223" "A123" スペルコレクター(最終的にはPeter Norvigのようなベイジアンコレクター)を使用しますが、アドレスではあまり効率的ではないと思います。 Googleの提案を使用することを考えましたが、同様に、個人の郵便住所ではあまり効率的ではありません。 機械学習の教師ありアプローチを使用することは想像できますが、ユーザーのスペルミスのリクエストを保存する必要がありますが、これは私にとって選択肢ではありません。

1
ファジートークンのシーケンス内の文法を認識する
主にアイテムのリストを含むテキストドキュメントがあります。 各アイテムは、異なるタイプの複数のトークンのグループです:FirstName、LastName、BirthDate、PhoneNumber、City、Occupationなど。トークンは単語のグループです。 アイテムは複数の行に配置できます。 ドキュメントのアイテムはほぼ同じトークン構文を持っていますが、必ずしも完全に同じである必要はありません。 それらは、アイテム間だけでなくアイテム間でも、より多く/より少ないトークンである場合があります。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目標は、使用されている文法を識別することです。例えば Occupation City 最後に、すべてのアイテムを特定します。完全に一致するとは限りません。 短く読みやすくするために、代わりにいくつかのエイリアスA、B、C、D、...を使用して、これらのトークンタイプを指定しましょう。 例えば A B C D F A B C D …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.