タグ付けされた質問 「information-retrieval」

2
テキストの分類:異なる種類の機能の組み合わせ
私が取り組んでいる問題は、短いテキストを複数のクラスに分類することです。私の現在のアプローチは、tf-idf加重項頻度を使用し、単純な線形分類器(ロジスティック回帰)を学習することです。これはかなりうまく機能します(テストセットで約90%のマクロF-1、トレーニングセットで約100%)。大きな問題は、目に見えない単語/ n-gramです。 私は、他の機能、たとえば分布類似性(word2vecで計算)を使用して計算された固定サイズのベクトル、または例の他のカテゴリ機能を追加して、分類器を改善しようとしています。私の考えは、単語の袋からスパース入力フィーチャにフィーチャを追加するだけでした。ただし、これにより、テストおよびトレーニングセットのパフォーマンスが低下します。追加の機能自体は、テストセットで約80%のF-1を提供するため、不要ではありません。機能のスケーリングも役に立たなかった。私の現在の考えでは、この種の機能は(スパース)ワードオブワード機能とうまく混同されません。 質問は次のとおりです。追加機能が追加情報を提供すると仮定して、それらを組み込む最良の方法は何ですか?別々の分類子をトレーニングし、それらをある種のアンサンブル作業で組み合わせることができますか(これには、おそらく、異なる分類子の機能間の相互作用をキャプチャできないという欠点があります)。他に考慮すべき複雑なモデルはありますか?


5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
ノイズの多い文字列のリストから正規の文字列を抽出する
何千もの文字列のリストがあり、各リストには約10個の文字列があります。特定のリストのほとんどの文字列は非常によく似ていますが、一部の文字列は他の文字列と(ほとんど)まったく無関係であり、一部の文字列には無関係な単語が含まれています。これらは、標準的な文字列のノイズの多いバリエーションと見なすことができます。各リストをこの正規の文字列に変換するアルゴリズムまたはライブラリを探しています。 以下はそのようなリストの1つです。 スター・ウォーズ:エピソードIV新しい希望| StarWars.com スターウォーズエピソードIV-新しい希望(1977) スター・ウォーズ:エピソードIV-新しい希望-腐ったトマト スター・ウォーズ:エピソードIV-新しい希望をオンラインで無料で見る スター・ウォーズ(1977)-グレイテスト・フィルム [REC] 4つのポスターが船外機による死を約束-SciFiNow このリストでは、正規表現に一致する任意の文字列^Star Wars:? Episode IV (- )?A New Hope$が受け入れられます。 私は、Courseraでの機械学習に関するAndrew Ngのコースを見ましたが、同様の問題を見つけることができませんでした。

5
ストップワードの良いリストを作成する方法
ストップワードのリストをキュレートする方法に関するヒントを探しています。誰かが前処理とフィルタリングのためにデータセット自体からストップワードリストを抽出するための良い方法を知っている/誰かが推奨できるか? データ: 数年にわたる可変長の膨大な量の人間によるテキスト入力(検索用語と全文(最大200文字))。テキストには大量のスパム(ボットからのマシン入力、単一の単語、愚かな検索、製品の検索など)が含まれており、数%しか役に立たないようです。時々(ごくまれに)人々が本当にかっこいい質問をして私の側を探すことに気づきました。これらの質問はとてもかっこいいので、時間をかけて人々がどのように検索しているか、人々が私のウェブサイトの使用に興味を持っているトピックを確認するために、それらをより深く調べる価値があると思います。 私の問題: 前処理(つまり、スパムのドロップ)に本当に苦労しています。私はすでにウェブからいくつかのストップワードリスト(NLTKなど)を試しましたが、これらはこのデータセットに関する私のニーズに実際には役立ちません。 あなたのアイデアと議論の人々をありがとう!

5
ngramを指定して類似のドキュメントを検索する最良の方法
抽出したngramの約200のドキュメントのデータベースがあります。クエリドキュメントに最も類似しているドキュメントをデータベースで検索したい。つまり、クエリドキュメントと最も多くのngramを共有するデータベース内のドキュメントを見つけたいのです。現在、1つずつ調べて1つずつ比較できますが、これはO(N)時間を要し、Nが非常に大きい場合はコストがかかります。効率的な類似性検索を行うための効率的なデータ構造または方法があるかどうか疑問に思っていました。ありがとう
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.