タグ付けされた質問 「k-nearest-neighbour」

k-Nearest-Neighbor Classifiersこれらの分類器はメモリベースであり、適合させるためのモデルを必要としません。クエリポイントx0を指定すると、x(r)、r = 1、...、kのxに最も近いトレーニングポイントを見つけ、k個の近傍間で多数決を使用して分類します。


2
統計学習の要素からk最近傍分類器の決定境界をプロットする方法は?
Trevor Hastie&Robert Tibshirani&Jerome Friedmanの著書ElemStatLearn "The Elements of Statistics Learning:Data Mining、Inference、and Prediction。Second Edition"に記述されているプロットを生成したい。プロットは次のとおりです。 でこの正確なグラフをどのように作成できるのかR、特に境界線を示すグリッドグラフィックと計算に注意してください。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
なぜ誰もが回帰にKNNを使用するのでしょうか?
私が理解していることから、訓練データの間隔内にある回帰関数のみを構築できます。 例(パネルの1つだけが必要です): KNNリグレッサーを使用して将来をどのように予測しますか?繰り返しますが、トレーニングデータの間隔内にある関数のみを近似しているようです。 私の質問:KNNリグレッサーを使用する利点は何ですか?私はそれが分類のための非常に強力なツールであることを理解していますが、回帰シナリオではパフォーマンスが悪いようです。

3
機械学習モデルの組み合わせ
私は、データマイニング/機械学習/などの初心者です。複数のモデルと同じモデルの実行を組み合わせて予測を改善するいくつかの方法について読んでいます。 いくつかの論文(理論やギリシャ文字では面白くて素晴らしいが、コードや実際の例は短い)を読んだときの印象は、次のようになるはずだということです。 モデル(knn、RFなど)を取得し、0〜1の分類子のリストを取得します。私の質問は、これらの分類子の各リストをどのように組み合わせるかです。最終モデルに入る列の数が同じになるようにトレーニングセットで同じモデルを実行しますか、それとも他のトリックがありますか? 提案/例にRコードが含まれていれば素晴らしいと思います。 注:これは、トレーニングセットに100k行、テストセットに70k行、10列のデータセット用です。

2
今日、「最近傍」はいつ意味がありますか?
1999年、バイエル等。尋ねられ、 ときに「最も近い隣人は」意味がありますか? 1999年以降、距離の平坦性がNN検索に与える影響を分析および視覚化するより良い方法はありますか? [与えられた]データセットは、1-NN問題に対する意味のある答えを提供しますか?10 NN問題?100-NNの問題? 今日、この質問に専門家はどのようにアプローチしますか? 1月24日月曜日の編集: 「次元の増加に伴う距離フラットネス」の短縮名としての「距離ホワイトアウト」はどうですか? 「距離ホワイトアウト」を調べる簡単な方法は、2-NNを実行し、最も近い隣人と2番目に近い隣人までの距離をプロットすることです。以下のプロット は、モンテカルロによるnclustersと次元の範囲のdist 1とdist 2を示しています。この例は、スケーリングされた絶対差| dist 2 -dist 1 | に対してかなり良い距離コントラストを示しています。(相対差| dist 2 / dist 1 |→1次元→∞なので、役に立たなくなります。) 特定のコンテキストで絶対誤差を使用するか相対誤差を使用するかは、もちろん、存在する「実際の」ノイズに依存します。難しいです。 提案:常に2-NNを実行します。2つのネイバーは、近くにあるときに便利で、近くにないときに便利です。

1
k-NN計算の複雑さ
素朴な検索アプローチを使用したk -NNアルゴリズムの時間の複雑さは何ですか(kdツリーなどはありません)? ハイパーパラメータkを考慮した時間の複雑さに興味があります。私は矛盾した答えを見つけました: O(nd + kn)、nはトレーニングセットのカーディナリティ、dは各サンプルの次元です。[1] O(ndk)、ここでもnはトレーニングセットのカーディナリティ、dは各サンプルの次元です。[2] [1] http://www.csd.uwo.ca/courses/CS9840a/Lecture2_knn.pdf(ページ18/20) [2] http://www.cs.haifa.ac.il/~rita/ml_course/lectures/KNN.pdf(18/31ページ)


3
KNNに最適なKを選択する
5倍のCVを実行して、KNNに最適なKを選択しました。そして、Kが大きくなればなるほど、エラーは小さくなるようです... 申し訳ありませんが、伝説はありませんでしたが、異なる色は異なる試行を表しています。合計5つあり、それらの間にはほとんど差がないようです。Kが大きくなると、エラーは常に減少するようです。それでは、どうすれば最高のKを選択できますか?ここでは、K = 3の後にグラフのレベルがオフになるため、K = 3が適切な選択でしょうか?

2
KNNでデータをスケーリングする必要があるのはなぜですか
Kの最近傍を使用するときにデータを正規化する必要がある理由を誰かに説明してください。 これを調べてみましたが、まだ理解できないようです。 私は次のリンクを見つけました: https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715 しかし、この説明では、機能の1つの範囲が広いと予測に影響する理由がわかりません。

1
次元の呪いは、一部のモデルに他のモデルよりも大きな影響を与えますか?
私が次元の呪いについて読んでいた場所は、主にkNNと線形モデル一般に関連してそれを説明します。Kaggleのトップランカーは、10万個のデータポイントをほとんど持たないデータセットで数千の機能を使用しています。主に、特にブーストツリーとNNを使用します。多くの機能が高すぎるように思われ、それらが次元の呪いの影響を受けると感じています。しかし、これらのモデルは競合他社を上回っているため、そうではないようです。それでは、元の質問に戻ります。一部のモデルは、他のモデルよりも次元の呪いの影響を受けますか? 具体的には、次のモデルに興味があります(これらが私が知っている/使用しているモデルだからです)。 線形およびロジスティック回帰 デシジョンツリー/ランダムフォレスト/ブーストツリー ニューラルネットワーク SVM kNN k-meansクラスタリング

5
KNN代入Rパッケージ
KNN補完パッケージを探しています。私は代入パッケージ(http://cran.r-project.org/web/packages/imputation/imputation.pdf)を見てきましたが、何らかの理由でKNN代入関数は(説明の例に続いても) (以下のように)ゼロ値を代入します。私は周りを見回しましたが、まだ何かを見つけることができません。したがって、他の誰かが良いKNN代入パッケージについて他の提案を持っているのではないかと思っていましたか? W 以下のコードでは、NA値はゼロに置き換えられます-Knn平均値ではありません require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

4
kNNでの関係、重み、および投票の処理
私はkNNアルゴリズムをプログラミングしていますが、次のことを知りたいです: タイブレーク: 多数決で明確な勝者がいない場合はどうなりますか?たとえば、k個のすべての最近傍が異なるクラスに属している、またはk = 4の場合、クラスAから2つの近傍とクラスBから2つの近傍がありますか? 同じ距離を持っているより多くの隣人があるために正確にk個の最も近い隣人を決定することが不可能な場合はどうなりますか?たとえば、距離のリストの(x1;2), (x2;3.5), (x3;4.8), (x4;4.8), (x5;4.8), (x6;9.2)場合、3番目から5番目の近傍はすべて同じ距離を持っているため、k = 3またはk = 4の近傍を決定することはできません。 重さ: 勝ったクラスを選択する前に、k最近傍に重みを付けるのが良いと読みました。それはどのように機能しますか?すなわち、隣人はどのように重み付けされ、クラスはどのように決定されますか? 多数決案: 多数決以外の勝ち組を決定する他のルール/戦略はありますか?

3
適応カーネル密度推定器?
誰もが適応カーネル密度推定器の経験について報告できますか? (多くの同義語があります:適応|変数|可変幅、KDE ​​|ヒストグラム|補間...) 可変カーネル密度推定で は、「サンプル空間の異なる領域でカーネルの幅を変更します。実際には2つの方法があります...」と言います。 multigrid ... もちろん、単一の方法ですべてを行うことはできませんが、適応的な方法は魅力的に見えます。 たとえば、有限要素法の適応2Dメッシュの見栄えを参照してください 。 実際のデータ、特に2Dまたは3Dで10万個以上の散在するデータポイントに対して、何が機能し、何が機能しなかったかを聞きたいです。 11月2日追加:「塊状」密度(区分的にx ^ 2 * y ^ 2)、最近傍推定値、およびスコット係数のガウスKDEのプロット。1つの例では何も証明されていませんが、NNが鋭い丘に適度にフィットできることを示しています(KD木を使用すると、2d、3dで高速です...)

4
行の正規化の目的は何ですか
列の正規化の背後にある理由を理解します。これは、同じスケールで測定されていなくてもフィーチャに均等に重み付けされるためです。ただし、最近接文献では、列と行の両方が正規化されていることがよくあります。行の正規化とは何ですか?なぜ正規化するのですか?具体的には、行の正規化の結果は行ベクトル間の類似性/距離にどのように影響しますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.