データサイエンス similarity

5

「ドキュメント」と言うとき、Wikipediaの記事やニュース記事などのWebページを念頭に置いています。私は、バニラ語彙距離メトリックまたは最新のセマンティック距離メトリックのいずれかを与える回答を好みます。

34 machine-learning data-mining nlp text-mining similarity

4

ジャカード類似性とコサイン類似性は、アイテムの類似性を比較する2つの非常に一般的な測定値です。ただし、どの状況が他の状況よりも望ましいかについてはあまり明確ではありません。誰かがこれら2つの測定の違い（定義や計算ではなく、概念や原理の違い）とそれらの望ましい応用を明確にするのを助けることができますか？

27 similarity

5

文の類似性に最適な実用的なアルゴリズム

S1とS2の2つの文があり、どちらも15未満の単語数（通常）を持っています。最も実用的で成功している（機械学習）アルゴリズムは、実装がおそらく簡単です（アーキテクチャがGoogle Inceptionなどのように複雑でない限り、ニューラルネットワークは大丈夫です）。あまり時間をかけなくても問題なく動作するアルゴリズムを探しています。成功した使いやすいアルゴリズムがありますか？これは、クラスタリングのカテゴリに分類できますが、分類する必要はありません。私の背景は機械学習からですので、どんな提案でも大歓迎です:)

17 nlp clustering word2vec similarity

4

類似性スコアに基づくクラスタリング

要素Eのセットと、2つの要素ei、ej∈E間の類似性（距離ではない）関数sim（ei、ej）があると仮定します。 simを使用して、Eの要素を（効率的に）クラスター化するにはどうすればよいですか？たとえば、k -meansには所定のkが必要で、Canopy Clusteringには2つのしきい値が必要です。このような事前定義されたパラメーターが必要ない場合はどうなりますか？ simは必ずしもメトリックではないことに注意してください（つまり、三角形の不等式は成り立つ場合もあれば、成り立たない場合もあります）。さらに、クラスターが互いに素（Eのパーティション）であるかどうかは関係ありません。

17 clustering algorithms similarity

5

シーボーンヒートマップを大きくする

corr()元のdfからdf を作成します。corr()DFは、70 X 70から出てきたし、ヒートマップを可視化することは不可能です... sns.heatmap(df)。を表示しようとするcorr = df.corr()と、テーブルが画面に収まらず、すべての相関関係を確認できます。dfサイズに関係なく全体を印刷する方法ですか、ヒートマップのサイズを制御する方法ですか？

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

文の類似性予測

私は次の問題を解決しようとしています：データセットとして一連の文があり、新しい文を入力して、新しい文がデータセット内で最も類似している文を見つけたいです。例は次のようになります。新しい文：「I opened a new mailbox」データセットに基づいた予測： Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% コサインの類似性は、tf-idfと組み合わせたこれらの種類の問題を解決するために使用できることを読みました（およびRNNは基本的な方法に大きな改善をもたらすべきではありません）、またはword2vecも同様の問題に使用されます。これらもこの特定のケースで実際に使用可能ですか？これを解決する他のテクニック/アルゴリズムはありますか（できればPythonとSKLearnを使用しますが、TensorFlowについても学ぶことができます）？

15 python nlp scikit-learn similarity text

4

異なる形式のドキュメントを比較する場合のTF-IDFおよびコサイン類似性の代替

私は、ユーザーの仕事のスキルを取り入れ、それらのスキルに基づいてユーザーにとって最も理想的なキャリアを提案する小さな個人的なプロジェクトに取り組んできました。これを実現するために、求人リストのデータベースを使用しています。現時点では、コードは次のように機能します。 1）各ジョブリストのテキストを処理して、リストに記載されているスキルを抽出する 2）各キャリア（「データアナリスト」など）について、そのキャリアの求人情報の処理済みテキストを1つのドキュメントに結合します 3）キャリア文書内の各スキルのTF-IDFを計算するこの後、ユーザーのスキルのリストに基づいてキャリアをランク付けするためにどの方法を使用する必要があるかわかりません。私が見た最も人気のある方法は、ユーザーのスキルをドキュメントとしても扱い、スキルドキュメントのTF-IDFを計算し、コサイン類似度などを使用してスキルドキュメントと各ドキュメントの類似度を計算することですキャリア文書。同じ形式の2つのドキュメントを比較するときにコサインの類似性が最もよく使用されるため、これは私にとって理想的な解決策ではないようです。さらに言えば、TF-IDFはユーザーのスキルリストに適用するのに適切なメトリックとは思えません。たとえば、ユーザーがリストに追加のスキルを追加すると、各スキルのTFは低下します。実際には、スキルの頻度がユーザーのスキルリストにあるかどうかは気にしません。ユーザーがそれらのスキルを持っていることを気にしています（そして、それらのスキルをどれだけよく知っているかもしれません）。より良い測定基準は次のようにすることです。 1）ユーザーが持っているスキルごとに、キャリア文書でそのスキルのTF-IDFを計算します 2）各キャリアについて、ユーザーのすべてのスキルのTF-IDF結果を合計します 3）上記の合計に基づいてキャリアをランク付けする私はここで正しい線に沿って考えていますか？もしそうなら、これらの線に沿って機能するが、単純な合計よりも洗練されたアルゴリズムはありますか？助けてくれてありがとう！

12 nlp text-mining similarity cosine-distance

1

MinHashing vs SimHashing

クラスター化する5つのセットがあるとします。ここで説明するSimHashingテクニックは次のとおりです。 https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ たとえば、結果が次の場合、3つのクラスター（{A}、{B,C,D}および{E}）を生成できます。 A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同様に、MMDSブックの第3章で説明されているMinHashingテクニック： http://infolab.stanford.edu/~ullman/mmds/ch3.pdf 結果が次の場合、同じ3つのクラスターを生成することもできます。 A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - …

12 clustering similarity

3

類似ドキュメントを見つけるためのベクトル空間モデルコサインtf-idf

100万を超えるドキュメントのコーパスを持っている特定のドキュメントについて、ベクトル空間モデルのように余弦を使用して類似のドキュメントを検索したい d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) このtf-idfのように、より長いドキュメントへのバイアスを防ぐために、すべてのtfは拡張周波数を使用して正規化されています。 tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} すべて事前計算済み分母の値が事前に計算されているので、特定のd 1に対して100万を超えるスコアが必要d 2 類似性の0.6コサインのしきい値がある ||d||||d||||d||d1d1d1d2d2d2 特定の状況でそれを観察できます|の範囲はかなり狭いです | d 2 | | 余弦のための≥ 0.6 の余弦のための同様のためのつの検索で例えば≥ 0.6と| | d 1 | | の7.7631 | | d 2 | | 7.0867から8.8339の範囲コサイン0.6のしきい値の外側| | d 2 | | …

10 text-mining similarity

2

ノイズの多い文字列のリストから正規の文字列を抽出する

何千もの文字列のリストがあり、各リストには約10個の文字列があります。特定のリストのほとんどの文字列は非常によく似ていますが、一部の文字列は他の文字列と（ほとんど）まったく無関係であり、一部の文字列には無関係な単語が含まれています。これらは、標準的な文字列のノイズの多いバリエーションと見なすことができます。各リストをこの正規の文字列に変換するアルゴリズムまたはライブラリを探しています。以下はそのようなリストの1つです。スター・ウォーズ：エピソードIV新しい希望| StarWars.com スターウォーズエピソードIV-新しい希望（1977）スター・ウォーズ：エピソードIV-新しい希望-腐ったトマトスター・ウォーズ：エピソードIV-新しい希望をオンラインで無料で見るスター・ウォーズ（1977）-グレイテスト・フィルム [REC] 4つのポスターが船外機による死を約束-SciFiNow このリストでは、正規表現に一致する任意の文字列^Star Wars:? Episode IV (- )?A New Hope$が受け入れられます。私は、Courseraでの機械学習に関するAndrew Ngのコースを見ましたが、同様の問題を見つけることができませんでした。

10 nlp similarity information-retrieval

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

2

データの不整合を修正する

持っているデータを分析しようとしていますが、データに多くの不整合があります。分析しようとしているSQLテーブルがあります。表は次の構造を持つ大学の表です。name:string, city:string, state:string, country:string 名前は常に存在しますが、都市、州、国が欠落している可能性があります。私の主な問題は、タイプミスがたくさんあり、大学名の異なる赤緯があることです。たとえば、ここに私が見つけたときにスタンドフォード大学の赤緯があります SELECT "universities".* FROM "perm_universities" WHERE (name like '%stanford%')。 stanford university - stanford - ca - united states of america the leland stanford junior university - stanford - ca - united states of america leland stanford jr. university - stanford - ca - united …

8 data-cleaning similarity distance

3

データセットの異なる要素間の類似性を見つける方法

前書きさまざまな人々のさまざまな観察のデータセットがあり、他の人に最も近い人を知るために人々をグループ化したいとします。また、それらが互いにどれだけ近いかを知り、統計的有意性を知るための測定も必要です。データ eat_rate drink_rate sleep_rate play_rate name game 1 0.0542192259 0.13041721 5.013682e-03 1.023533e-06 Paul Rayman 4 0.0688171511 0.01050611 6.178833e-03 3.238838e-07 Paul Mario 6 0.0928997660 0.01828468 9.321211e-03 3.525951e-07 Jenn Mario 7 0.0001631273 0.02212345 7.061524e-05 1.531270e-07 Jean FIFA 8 0.0028735509 0.05414688 1.341689e-03 4.533366e-07 Mark FIFA 10 0.0034844717 0.09152440 4.589990e-04 5.802708e-07 Mark …

8 machine-learning r similarity correlation

3

スコア文字列の類似性

大量のドキュメントがあり、大量のキーと値のペアが含まれています。キーは一意ではない可能性があるため、値が異なる同じタイプのキーが複数存在する可能性があります。 2つのドキュメント間のキーの類似性を比較したい。より具体的には、これらの値の文字列の類似性。類似性を比較するために、スミス-ウォーターマンアルゴリズムのようなものを使用することを考えています。それで、データを表現することについて私がどのように考えているかを描いた- セルの値は、smith-watermanアルゴリズム（またはその他の文字列類似性メトリック）の結果です。このマトリックスが「もの」の主要なタイプを表しているというイメージ次に、「もの」の類似度スコアを0または1のベクトルに追加する必要があります。私が理解できないのは、マトリックスが似ているか似ていないかを判断する方法です-理想的には、マトリックスを0と1の間の数値に変換し、しきい値を設定して0または1。マトリックスのスコアを作成する方法はありますか？この種のことを行うアルゴリズムを知っている人はいますか？

8 algorithms similarity

タグ付けされた質問 「similarity」

タグ付けされた質問「similarity」