タグ付けされた質問 「similarity」


4
Jaccard類似度およびCosine類似度のアプリケーションと違い
ジャカード類似性とコサイン類似性は、アイテムの類似性を比較する2つの非常に一般的な測定値です。ただし、どの状況が他の状況よりも望ましいかについてはあまり明確ではありません。 誰かがこれら2つの測定の違い(定義や計算ではなく、概念や原理の違い)とそれらの望ましい応用を明確にするのを助けることができますか?
27 similarity 

5
文の類似性に最適な実用的なアルゴリズム
S1とS2の2つの文があり、どちらも15未満の単語数(通常)を持っています。 最も実用的で成功している(機械学習)アルゴリズムは、実装がおそらく簡単です(アーキテクチャがGoogle Inceptionなどのように複雑でない限り、ニューラルネットワークは大丈夫です)。 あまり時間をかけなくても問題なく動作するアルゴリズムを探しています。成功した使いやすいアルゴリズムがありますか? これは、クラスタリングのカテゴリに分類できますが、分類する必要はありません。私の背景は機械学習からですので、どんな提案でも大歓迎です:)

4
類似性スコアに基づくクラスタリング
要素Eのセットと、2つの要素ei、ej∈E間の類似性(距離ではない)関数sim(ei、ej)があると仮定します。 simを使用して、Eの要素を(効率的に)クラスター化するにはどうすればよいですか? たとえば、k -meansには所定のkが必要で、Canopy Clusteringには2つのしきい値が必要です。このような事前定義されたパラメーターが必要ない場合はどうなりますか? simは必ずしもメトリックではないことに注意してください(つまり、三角形の不等式は成り立つ場合もあれば、成り立たない場合もあります)。さらに、クラスターが互いに素(Eのパーティション)であるかどうかは関係ありません。

5
シーボーンヒートマップを大きくする
corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
文の類似性予測
私は次の問題を解決しようとしています:データセットとして一連の文があり、新しい文を入力して、新しい文がデータセット内で最も類似している文を見つけたいです。例は次のようになります。 新しい文:「I opened a new mailbox」 データセットに基づいた予測: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% コサインの類似性は、tf-idfと組み合わせたこれらの種類の問題を解決するために使用できることを読みました(およびRNNは基本的な方法に大きな改善をもたらすべきではありません)、またはword2vecも同様の問題に使用されます。これらもこの特定のケースで実際に使用可能ですか?これを解決する他のテクニック/アルゴリズムはありますか(できればPythonとSKLearnを使用しますが、TensorFlowについても学ぶことができます)?

4
異なる形式のドキュメントを比較する場合のTF-IDFおよびコサイン類似性の代替
私は、ユーザーの仕事のスキルを取り入れ、それらのスキルに基づいてユーザーにとって最も理想的なキャリアを提案する小さな個人的なプロジェクトに取り組んできました。これを実現するために、求人リストのデータベースを使用しています。現時点では、コードは次のように機能します。 1)各ジョブリストのテキストを処理して、リストに記載されているスキルを抽出する 2)各キャリア(「データアナリスト」など)について、そのキャリアの求人情報の処理済みテキストを1つのドキュメントに結合します 3)キャリア文書内の各スキルのTF-IDFを計算する この後、ユーザーのスキルのリストに基づいてキャリアをランク付けするためにどの方法を使用する必要があるかわかりません。私が見た最も人気のある方法は、ユーザーのスキルをドキュメントとしても扱い、スキルドキュメントのTF-IDFを計算し、コサイン類似度などを使用してスキルドキュメントと各ドキュメントの類似度を計算することですキャリア文書。 同じ形式の2つのドキュメントを比較するときにコサインの類似性が最もよく使用されるため、これは私にとって理想的な解決策ではないようです。さらに言えば、TF-IDFはユーザーのスキルリストに適用するのに適切なメトリックとは思えません。たとえば、ユーザーがリストに追加のスキルを追加すると、各スキルのTFは低下します。実際には、スキルの頻度がユーザーのスキルリストにあるかどうかは気にしません。ユーザーがそれらのスキルを持っていることを気にしています(そして、それらのスキルをどれだけよく知っているかもしれません)。 より良い測定基準は次のようにすることです。 1)ユーザーが持っているスキルごとに、キャリア文書でそのスキルのTF-IDFを計算します 2)各キャリアについて、ユーザーのすべてのスキルのTF-IDF結果を合計します 3)上記の合計に基づいてキャリアをランク付けする 私はここで正しい線に沿って考えていますか?もしそうなら、これらの線に沿って機能するが、単純な合計よりも洗練されたアルゴリズムはありますか?助けてくれてありがとう!

1
MinHashing vs SimHashing
クラスター化する5つのセットがあるとします。ここで説明するSimHashingテクニックは次のとおりです。 https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ たとえば、結果が次の場合、3つのクラスター({A}、{B,C,D}および{E})を生成できます。 A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同様に、MMDSブックの第3章で説明されているMinHashingテクニック: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 結果が次の場合、同じ3つのクラスターを生成することもできます。 A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - …

3
類似ドキュメントを見つけるためのベクトル空間モデルコサインtf-idf
100万を超えるドキュメントのコーパスを持っている 特定のドキュメントについて、ベクトル空間モデルのように余弦を使用して類似のドキュメントを検索したい d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) このtf-idfのように、より長いドキュメントへのバイアスを防ぐために、すべてのtfは拡張周波数を使用して正規化されています。 tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} すべて事前計算済み 分母の値が事前に計算されている ので、特定のd 1に対して100万を超えるスコアが必要d 2 類似性の0.6コサインのしきい値がある ||d||||d||||d||d1d1d1d2d2d2 特定の状況でそれを観察できます|の範囲はかなり狭いです | d 2 | | 余弦のための≥ 0.6 の余弦のための同様のためのつの検索で例えば≥ 0.6と| | d 1 | | の7.7631 | | d 2 | | 7.0867から8.8339の範囲 コサイン0.6のしきい値の外側| | d 2 | | …

2
ノイズの多い文字列のリストから正規の文字列を抽出する
何千もの文字列のリストがあり、各リストには約10個の文字列があります。特定のリストのほとんどの文字列は非常によく似ていますが、一部の文字列は他の文字列と(ほとんど)まったく無関係であり、一部の文字列には無関係な単語が含まれています。これらは、標準的な文字列のノイズの多いバリエーションと見なすことができます。各リストをこの正規の文字列に変換するアルゴリズムまたはライブラリを探しています。 以下はそのようなリストの1つです。 スター・ウォーズ:エピソードIV新しい希望| StarWars.com スターウォーズエピソードIV-新しい希望(1977) スター・ウォーズ:エピソードIV-新しい希望-腐ったトマト スター・ウォーズ:エピソードIV-新しい希望をオンラインで無料で見る スター・ウォーズ(1977)-グレイテスト・フィルム [REC] 4つのポスターが船外機による死を約束-SciFiNow このリストでは、正規表現に一致する任意の文字列^Star Wars:? Episode IV (- )?A New Hope$が受け入れられます。 私は、Courseraでの機械学習に関するAndrew Ngのコースを見ましたが、同様の問題を見つけることができませんでした。

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
データの不整合を修正する
持っているデータを分析しようとしていますが、データに多くの不整合があります。 分析しようとしているSQLテーブルがあります。 表は次の構造を持つ大学の表です。name:string, city:string, state:string, country:string 名前は常に存在しますが、都市、州、国が欠落している可能性があります。私の主な問題は、タイプミスがたくさんあり、大学名の異なる赤緯があることです。たとえば、ここに私が見つけたときにスタンドフォード大学の赤緯があります SELECT "universities".* FROM "perm_universities" WHERE (name like '%stanford%')。 stanford university - stanford - ca - united states of america the leland stanford junior university - stanford - ca - united states of america leland stanford jr. university - stanford - ca - united …

3
データセットの異なる要素間の類似性を見つける方法
前書き さまざまな人々のさまざまな観察のデータセットがあり、他の人に最も近い人を知るために人々をグループ化したいとします。また、それらが互いにどれだけ近いかを知り、統計的有意性を知るための測定も必要です。 データ eat_rate drink_rate sleep_rate play_rate name game 1 0.0542192259 0.13041721 5.013682e-03 1.023533e-06 Paul Rayman 4 0.0688171511 0.01050611 6.178833e-03 3.238838e-07 Paul Mario 6 0.0928997660 0.01828468 9.321211e-03 3.525951e-07 Jenn Mario 7 0.0001631273 0.02212345 7.061524e-05 1.531270e-07 Jean FIFA 8 0.0028735509 0.05414688 1.341689e-03 4.533366e-07 Mark FIFA 10 0.0034844717 0.09152440 4.589990e-04 5.802708e-07 Mark …

3
スコア文字列の類似性
大量のドキュメントがあり、大量のキーと値のペアが含まれています。キーは一意ではない可能性があるため、値が異なる同じタイプのキーが複数存在する可能性があります。 2つのドキュメント間のキーの類似性を比較したい。より具体的には、これらの値の文字列の類似性。類似性を比較するために、スミス-ウォーターマンアルゴリズムのようなものを使用することを考えています。 それで、データを表現することについて私がどのように考えているかを描いた- セルの値は、smith-watermanアルゴリズム(またはその他の文字列類似性メトリック)の結果です。 このマトリックスが「もの」の主要なタイプを表しているというイメージ次に、「もの」の類似度スコアを0または1のベクトルに追加する必要があります。 私が理解できないのは、マトリックスが似ているか似ていないかを判断する方法です-理想的には、マトリックスを0と1の間の数値に変換し、しきい値を設定して0または1。 マトリックスのスコアを作成する方法はありますか?この種のことを行うアルゴリズムを知っている人はいますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.