タグ付けされた質問 「high-dimensional」

データの多数の特徴または次元(変数)に関連します。(多数のデータポイントの場合は、[large-data]タグを使用します。問題がデータよりも変数の数が多い場合は、[underdetermined]タグを使用します。)

8
ユークリッド距離が高次元で適切なメトリックではないのはなぜですか?
「ユークリッド距離は、高次元では良い距離ではない」と読みました。この声明は次元の呪いと関係があると思いますが、正確には何ですか?また、「高次元」とは何ですか?100個の特徴を持つユークリッド距離を使用して階層的クラスタリングを適用しています。このメトリックを使用しても「安全」な機能はいくつまでありますか?

11
「次元の呪い」を子供に説明する
私は次元の呪いについて何度も聞いたが、どういうわけか私はまだアイデアを理解することができません、それはすべて霧です。 あなたが子供に説明するように、誰もがこれを最も直感的な方法で説明できますか? 編集: さて、子供が何らかの形でクラスタリングについて聞いたとしましょう(たとえば、おもちゃをクラスタ化する方法を知っています:))。次元の増加により、おもちゃをクラスタ化する仕事はどのように難しくなりますか? たとえば、かつてはおもちゃの形とおもちゃの色(1色のおもちゃ)だけを考慮していましたが、今ではおもちゃのサイズと重量も考慮する必要があります。子供が似たようなおもちゃを見つけるのが難しいのはなぜですか? 編集2 議論のために、「子供が似たようなおもちゃを見つけるのが難しいのはなぜか」によって明確にする必要があります。また、高次元の空間で距離の概念が失われるのはなぜですか。

7
膨大な数の機能(> 10K)に最適なPCAアルゴリズム?
以前にStackOverflowでこれを尋ねましたが、SOで何の回答も得られなかったことを考えると、ここでの方が適切かもしれません。統計とプログラミングの交差点にあります。 PCA(主成分分析)を行うためのコードを書く必要があります。私はよく知られたアルゴリズムを閲覧し、これを実装しました。これは、私が知る限り、NIPALSアルゴリズムと同等です。最初の2〜3個の主成分を見つけるのに適していますが、収束が非常に遅くなるようです(数百から数千回の繰り返し)。必要なものの詳細は次のとおりです。 アルゴリズムは、膨大な数の機能(10,000〜20,000のオーダー)と数百のオーダーのサンプルサイズを扱う場合に効率的でなければなりません。 ターゲット言語はDであるため、まともな線形代数/マトリックスライブラリがなくても合理的に実装可能でなければなりません。Dはまだ1つもありません。 。 補足として、同じデータセットでRはすべての主成分を非常に高速に見つけるように見えますが、特異値分解を使用します。これは自分でコーディングしたいものではありません。

3
Lassoの収縮パラメータまたは50Kを超える変数を持つリッジ回帰を推定する方法は?
50,000個を超える変数を持つモデルにLassoまたはリッジ回帰を使用したい。Rのソフトウェアパッケージを使用してこれを行います。収縮パラメーター()を推定するにはどうすればよいですか?λλ\lambda 編集: ここに私が立ち上がったポイントがあります: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 私の質問は次のとおりです。どのが私のモデルに最適であるかをどのように知ることができますか?λλ\lambda

3
視覚化のための次元削減は、t-SNEによって解決される「閉じた」問題と見なされるべきですか?
私は次元削減のための -snetttアルゴリズムについてたくさん読んでいます。MNISTのように数字の明確な分離を実現する「クラシック」データセットのパフォーマンスには非常に感銘を受けました(元の記事を参照)。 また、トレーニング中のニューラルネットワークによって学習された機能を視覚化するためにも使用し、結果に非常に満足しています。 だから、私が理解しているように: tttO (n ログn )O(nログ⁡n)O(n \log n) これはかなり大胆な発言であることは承知しています。この方法の潜在的な「落とし穴」を理解することに興味があります。つまり、有用ではないことがわかっているケースはありますか?さらに、この分野の「未解決の」問題は何ですか?

1
LASSOが高次元で完全な予測子ペアを見つけられないのはなぜですか?
RでLASSO回帰を使用した小規模な実験を実行して、完全な予測子ペアを見つけることができるかどうかをテストしています。ペアは次のように定義されます:f1 + f2 =結果 ここでの結果は、「年齢」と呼ばれる所定のベクトルです。F1とf2は、年齢ベクトルの半分を取得し、残りの値を0に設定することによって作成されます。たとえば、次のとおりです。age = [1,2,3,4,5,6]、f1 = [1,2,3、 0,0,0]およびf2 = [0,0,0,4,5,6]。正規分布N(1,1)からサンプリングすることにより、この予測子のペアとランダムに作成される変数の量を増やします。 私が見るのは、2 ^ 16個の変数をヒットしたとき、LASSOがもうペアを見つけられないことです。以下の結果を参照してください。 なぜこうなった?以下のスクリプトで結果を再現できます。たとえば、[1:193]という異なる年齢のベクトルを選択すると、LASSOは高次元(> 2 ^ 16)でペアを見つけます。 スクリプト: ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

1
t-SNEを適用する前に、データを中央揃え+スケーリングする必要がありますか?
一部のデータの機能には大きな値があり、他の機能にはもっと小さな値があります。 大きな値への偏りを防ぐために、t-SNEを適用する前にデータを中央+スケールする必要がありますか? Pythonのsklearn.manifold.TSNE実装をデフォルトのユークリッド距離メトリックとともに使用します。

4
「次元の呪い」は実際のデータに本当に存在しますか?
「次元の呪い」とは何かを理解し、高次元の最適化問題をいくつか実行し、指数関数的可能性の課題を知っています。 しかし、ほとんどの現実世界のデータに「次元の呪い」が存在するかどうかは疑わしい(画像やビデオはしばらく置いておきましょう。顧客の人口統計データや購入行動データなどのデータについて考えています)。 数千の機能を持つデータを収集することはできますが、機能が数千の次元を持つ空間に完全に広がることはほとんど不可能です。これが、次元削減手法が非常に人気がある理由です。 言い換えると、データには指数レベルの情報が含まれていない可能性が非常に高いです。つまり、多くの特徴が高度に相関しており、多くの特徴が80〜20のルールを満たしています。 そのような場合、KNNのようなメソッドはまだ十分に機能すると思います。(ほとんどの本では、「次元の呪い」は次元> 10が問題になる可能性があると述べています。デモでは、エントロピーが非常に高いすべての次元で均一分布を使用します。 私の実際のデータの経験では、「次元の呪い」はテンプレートメソッド(KNNなど)にあまり影響を与えず、ほとんどの場合、次元〜100でも機能します。 これは他の人にも当てはまりますか?(私は本で説明されているように、「すべての距離のペアが同様の値を持っている」ということを観察したことはありませんでした。

1
高次元回帰:
高次元回帰の分野での研究を読み上げようとしています。場合より大きいN、即ち、P > > N。log p / nという用語は、回帰推定量の収束率の観点から頻繁に現れるようです。pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常、これはがよりも小さいことも意味し。logplog⁡p\log pnnn この比率が非常に顕著である理由について直感はありますか?logp/nlog⁡p/n\log p/n また、文献にば、場合、高次元の回帰問題は複雑になり。なぜそうですか?logp≥nlog⁡p≥n\log p \geq n とが互いに比較してどれだけ速く成長するかという問題を議論する良いリファレンスはありますか?pppnnn

1
次元の呪いは、一部のモデルに他のモデルよりも大きな影響を与えますか?
私が次元の呪いについて読んでいた場所は、主にkNNと線形モデル一般に関連してそれを説明します。Kaggleのトップランカーは、10万個のデータポイントをほとんど持たないデータセットで数千の機能を使用しています。主に、特にブーストツリーとNNを使用します。多くの機能が高すぎるように思われ、それらが次元の呪いの影響を受けると感じています。しかし、これらのモデルは競合他社を上回っているため、そうではないようです。それでは、元の質問に戻ります。一部のモデルは、他のモデルよりも次元の呪いの影響を受けますか? 具体的には、次のモデルに興味があります(これらが私が知っている/使用しているモデルだからです)。 線形およびロジスティック回帰 デシジョンツリー/ランダムフォレスト/ブーストツリー ニューラルネットワーク SVM kNN k-meansクラスタリング

3
ランダムな森林分類の前の高次元テキストデータのPCA?
ランダムフォレスト分類を実行する前にPCAを行うことは理にかなっていますか? 高次元のテキストデータを扱っており、次元の呪いを回避するために機能の削減を行いたいのですが、ランダムフォレストは既に何らかの次元の削減を行っていませんか?


2
3次元の多重線形回帰は、最適な平面または最適な直線ですか?
私たちの教授は、多重線形回帰の数学や幾何学的表現さえも理解していないため、少し混乱しています。 一方では、より高い次元においてさえ、それはまだ多重線形回帰と呼ばれています。一方、たとえばあり、とに必要な任意の値をプラグインできる場合、これは可能な解決策の平面を与えません。線ではない?X1X2Y^= b0+ b1バツ1+ b2バツ2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 X_1 + b_2 X_2バツ1X1X_1バツ2X2X_2 一般に、予測の表面は、独立変数の次元超平面になるのではないですか?kkkkkk

4
次元の呪い:kNN分類器
私はケビンマーフィーの本「機械学習-確率論的展望」を読んでいます。最初の章では作者が次元の呪いを説明していて、わからない部分があります。例として、著者は次のように述べています。 入力がD次元の単位立方体に沿って均一に分布していることを考慮してください。データポイントの目的の割合が含まれるまで、xの周りにハイパーキューブを成長させることにより、クラスラベルの密度を推定するとします。この立方体の予想されるエッジの長さはe D(f )= f 1です。fff。eD(f)=f1DeD(f)=f1De_D(f) = f^{\frac{1}{D}} それは私が頭を動かすことができない最後の式です。あなたがカバーしたいなら、エッジの長さは各次元に沿って0.1でなければならないよりもポイントの10%を言うように思われますか?私の推論が間違っていることはわかっていますが、その理由は理解できません。

1
Beyerらの相対コントラスト定理です。論文:「高次元空間における距離計量の意外な振る舞いについて」誤解を招く?
これは、次元の呪いに言及するときに頻繁に引用され、 (相対コントラストと呼ばれる右手の式) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 この定理の結果は、特定のクエリポイントまでの最大距離と最小距離の差が、高次元空間内の任意のポイントへの最も近い距離ほど速く増加しないことを示しています。これは、最も近いものと最も遠いものの区別が不十分であるため、近接クエリを無意味で不安定なものにします。 リンク しかし、サンプル値の相対コントラストを実際に計算してみると、非常に小さな値を含むベクトルを取得してゼロベクトルまでの距離を計算し、はるかに大きな値を含むベクトルについても同じことを行い、次に、次元が3で次元が10910910^9倍大きい場合、比率は減少しますが、変化は非常に小さいため、実際に使用されている次元の数とは無関係です(または誰かが働いていることを知っていますか?ディメンション付きのデータの場合、グラハムの数のサイズ-この論文で説明されている効果が実際に関連するために必要なサイズだと思います-私はそうではないと思います)。 前述したように、この定理は、ユークリッド空間に基づいて近接度を測定することが高次元空間では不十分な戦略であるという主張を支持するために非常に頻繁に引用されます。この定理が誤解を招くように使用されていると思います。 例:dディメンションあり a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin d = 3の 9999999999.0 場合d = 1e8の場合 9999999998.9996738 そして 、d = 1e8の d = 3 99.0に対して、1e5の代わりに1e1を使用します(データが正規化されているとしましょう)。 98.999999999989527

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.