タグ付けされた質問 「distance」


4
ユークリッド距離と逆のマンハッタン距離を使用するのはいつですか?
機械学習でユークリッド距離よりもマンハッタン距離を使用する理由について、適切な議論を探しています。 私がこれまで良い議論に見つけた最も近いものはこのMIT講義にあります。 36:15に、スライドで次のステートメントを確認できます。 「通常、ユークリッドメトリックを使用します。異なる次元が比較可能でない場合は、マンハッタンが適切な場合があります。」 教授が、爬虫類の足の数が0から4まで変化するので(他の機能はバイナリで、0から1までしか変化しないため)、「足の数」機能の方がずっと多くなると言った直後ユークリッド距離が使用される場合の重み。案の定、それは確かに正しいです。しかし、マンハッタン距離を使用する場合、その問題が発生します(ユークリッド距離のように差を2乗しないため、問題がわずかに軽減されるだけです)。 上記の問題を解決するより良い方法は、「脚の数」機能を正規化して、その値が常に0〜1になるようにすることです。 したがって、問題を解決するためのより良い方法があるため、この場合のマンハッタン距離を使用するという議論には、少なくとも私の意見では、より強力なポイントが欠けているように感じました。 ユークリッド上でマンハッタン距離を使用する理由と時期を誰かが実際に知っていますか?マンハッタン距離を使用するとより良い結果が得られる例を教えてもらえますか?

2
データの不整合を修正する
持っているデータを分析しようとしていますが、データに多くの不整合があります。 分析しようとしているSQLテーブルがあります。 表は次の構造を持つ大学の表です。name:string, city:string, state:string, country:string 名前は常に存在しますが、都市、州、国が欠落している可能性があります。私の主な問題は、タイプミスがたくさんあり、大学名の異なる赤緯があることです。たとえば、ここに私が見つけたときにスタンドフォード大学の赤緯があります SELECT "universities".* FROM "perm_universities" WHERE (name like '%stanford%')。 stanford university - stanford - ca - united states of america the leland stanford junior university - stanford - ca - united states of america leland stanford jr. university - stanford - ca - united …

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.