統計とビッグデータ high-dimensional

2

勾配ベースの最適化と遺伝的アルゴリズムの組み合わせを使用して対数事後のグローバル最大値を見つけることにより、MAP推定を確実に実行できる高次元推論問題（約2000モデルのパラメーター）に取り組んでいます。 MAP推定値を見つけることに加えて、モデルパラメーターの不確実性をある程度推定できるようになりたいです。パラメータに関して対数事後の勾配を効率的に計算できるため、長期的にはハミルトニアンMCMCを使用してサンプリングを行うことを目指していますが、今のところ、非サンプリングベースの推定に興味があります。私だけが知っているアプローチ我々は計算してもいるので、多変量正規として後方に近似するモードで、ヘッセ行列の逆行列を計算し、それでもこれは、このような大規模なシステムのために実現不可能と思われることです〜4 × 106∼4×106\sim 4\times10^{6}の要素をHessianその逆を見つけることができなかったと確信しています。このような場合に一般的にどのようなアプローチが使用されているかを誰かが提案できますか？ありがとう！編集 -問題に関する追加情報背景これは、大規模な物理学実験に関連する逆問題です。いくつかの物理フィールドを記述する2D三角形メッシュがあり、モデルパラメーターは、メッシュの各頂点におけるそれらのフィールドの物理値です。メッシュには約650個の頂点があり、3つのフィールドをモデル化するため、2000個のモデルパラメーターがそこから取得されます。私たちの実験データは、これらのフィールドを直接測定しない機器からのものですが、フィールドの複雑な非線形関数である量です。さまざまな機器のそれぞれについて、モデルパラメータを実験データの予測にマップするフォワードモデルがあり、予測と測定の比較により対数尤度が得られます。次に、これらすべての異なる計測器からの対数尤度を合計し、フィールドにいくつかの物理的制約を適用するいくつかの対数優先値を追加します。したがって、この「モデル」がカテゴリにきちんと分類されるかどうかは疑問です。モデルを選択することはできません。実験データを収集する実際の機器がどのように機能するかによって決まります。データセットデータセットは500x500の画像で構成され、カメラごとに1つの画像があるため、合計データポイントは500x500x4 = 10610610^6です。エラーモデル問題のすべてのエラーを現時点でガウス分布と見なします。ある時点で、柔軟性を高めるためにスチューデントtエラーモデルに移行しようとするかもしれませんが、ガウシアンだけでも問題なく機能するようです。可能性の例これはプラズマ物理実験であり、私たちのデータの大部分は、レンズの前に特定のフィルターを備えたプラズマに向けられたカメラから得られ、光スペクトルの特定の部分のみを見ています。データを再現するには、2つのステップがあります。最初に、メッシュ上のプラズマからの光をモデル化する必要があります。次に、その光をモデル化してカメラ画像に戻す必要があります。残念ながら、プラズマからの光のモデル化は、実効レート係数とは何かに依存します。これは、フィールドが与えられたさまざまなプロセスによって放出される光の量を示します。これらのレートはいくつかの高価な数値モデルによって予測されるため、それらの出力をグリッドに保存し、値を検索するために補間する必要があります。レート関数データは一度だけ計算されます-データを保存してから、コードの起動時にそこからスプラインを作成し、そのスプラインをすべての関数評価に使用します。仮定するR1R1R_1及びR2R2R_2（我々は補間によって評価する）速度関数、で次に排出されている私ii「番目頂点メッシュのE私Ei\mathcal{E}_iによって与えられ、 E私= R1（x私、y私）+ z私R2（x私、y私）Ei=R1(xi,yi)+ziR2(xi,yi) \mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i) ここで（x 、y、z）(x,y,z)(x,y,z)メッシュ上でモデル化する3つのフィールドです。放出のベクトルをカメラ画像に取得するのは簡単です。これは、各カメラピクセルがメッシュのどの部分を透視するかをエンコードする行列GG\mathbf{G}を乗算するだけです。エラーはガウスであるため、この特定のカメラの対数尤度は L=−12(GE⃗ −d⃗ )⊤Σ−1(GE⃗ −d⃗ )L=−12(GE→−d→)⊤Σ−1(GE→−d→) \mathcal{L} = -\frac{1}{2} (\mathbf{G}\vec{\mathcal{E}} …

9 bayesian uncertainty high-dimensional variational-bayes

1

GWASデータセットのPCAプロジェクションで、子供たちはどのようにして親をまとめることができますか？

IID座標各10,000次元空間で20個のランダムな点を取るN(0,1)N(0,1)\mathcal N(0,1)。それらを10個のペア（「カップル」）に分割し、各ペア（「子」）の平均をデータセットに追加します。次に、結果の30ポイントでPCAを実行し、PC1とPC2をプロットします。注目すべきことが起こります。それぞれの「家族」は、すべてが互いに近接する3組の点を形成します。もちろん、すべての子供は元の10,000次元の空間ではそれぞれの親に近いので、PCA空間でも親に近いと期待できます。ただし、PCA空間では、親の各ペアは互いに近接しています。ただし、元の空間ではそれらは単なるランダムなポイントです。 PCAプロジェクションでは、子供はどうやって親をまとめるのですか？ \quad\quad\quad\quad これは、子供たちが親よりも規範が低いという事実に何らかの影響を受けていることを心配するかもしれません。これは問題ではないようです：（x + y ）/ √として子供を生成する場合(x+y)/2–√(x+y)/2(x+y)/\sqrt{2}xxxyyy \quad\quad\quad\quad この質問はおもちゃのデータセットを使用していますが、それは、私がゲノム全体の関連研究（GWAS）からの実世界のデータセットで観察した、ディメンションが単一ヌクレオチドの多型（SNP）であることに動機付けられています。このデータセットには、母・父・子のトリオが含まれていました。コード %matplotlib notebook import numpy as np import matplotlib.pyplot as plt np.random.seed(1) def generate_families(n = 10, p = 10000, divide_by = 2): X1 = np.random.randn(n,p) # mothers X2 = np.random.randn(n,p) # fathers X3 = (X1+X2)/divide_by # children X …

9 pca python high-dimensional genetics gwas

1

高次元の相関データと上位の特徴/共変量が発見されました。複数の仮説検定？

約5,000の相関関係のある特徴/共変量とバイナリ応答のデータセットがあります。データは私に与えられました、私はそれを集めませんでした。ラッソとグラディエントブースティングを使用してモデルを構築しています。私は反復されたネストされた相互検証を使用しています。Lassoの最大（絶対）40係数と、勾配ブーストツリーの40の最も重要な機能を報告します（40について特別なことは何もありませんでした。これは、妥当な量の情報であるように思われました）。また、CVのフォールドと反復におけるこれらの量の分散についても報告します。私は「重要な」機能について少し考え、p値や因果関係などについては何も述べていませんが、代わりにこのプロセスをある種の---不完全でランダムなものである-何らかの現象への洞察と見なしています。私がこれをすべて正しく行ったと仮定すると（たとえば、相互検証を正しく実行し、投げ縄用にスケーリングした）、このアプローチは妥当ですか？たとえば、複数の仮説検定、事後分析、誤った発見などの問題はありますか？または他の問題？目的有害事象の確率を予測するまず、正確に確率を推定するよりマイナー-健全性チェックとしてだけでなく、さらに調査できるいくつかの新しい予測子を明らかにするために、上記のように係数と重要性を検査します。消費者このイベントの予測に関心のある研究者、およびイベントが発生した場合にイベントを修正する必要のある人々彼らがそれから抜け出してほしいもの説明されているように、独自のデータを使用してモデリングプロセスを繰り返したい場合は、イベントを予測する機能を提供します。予想外の予測因子に光を当てる。たとえば、完全に予期しないことが最良の予測因子であることが判明する場合があります。したがって、他の場所のモデラーは、この予測子をより真剣に検討するかもしれません。

9 machine-learning multiple-comparisons regression-coefficients lasso high-dimensional

3

n、pの両方が大きい場合、PCAが遅すぎる：代替案？

問題の設定高次元（4096）のデータポイント（画像）があり、それを2Dで視覚化しようとしています。この目的のために、私はKarpathyによる次のコード例のような方法でt- sneを使用しています。 scikit-学ぶドキュメントは、最初のデータの次元を下げるためにPCAを使用することをお勧めします：特徴の数が非常に多い場合は、別の次元削減方法（たとえば、密なデータの場合はPCA、疎なデータの場合はTruncatedSVD）を使用して、次元数を妥当な量（たとえば50）に減らすことを強くお勧めします。私はこのコードをDarks.LiuによってJavaでPCAを実行するために使用しています： //C=X*X^t / m DoubleMatrix covMatrix = source.mmul(source.transpose()).div(source.columns); ComplexDoubleMatrix eigVal = Eigen.eigenvalues(covMatrix); ComplexDoubleMatrix[] eigVectorsVal = Eigen.eigenvectors(covMatrix); ComplexDoubleMatrix eigVectors = eigVectorsVal[0]; //Sort sigen vector from big to small by eigen values List<PCABean> beans = new ArrayList<PCA.PCABean>(); for (int i = 0; i < eigVectors.columns; i++) { …

9 pca dimensionality-reduction high-dimensional java tsne

7

スパースベクトルを使用して非常に高次元の空間で近接ペアを見つける

私が持っている（〜百万）の特徴ベクトルを。ありますM（〜百万）バイナリの機能は、しかし、各ベクトルのみにKになり、それらの（〜千）1、残りはある0を。少なくともL（約100）の特徴が共通する（両方に1つある）ベクトルのペアを探しています。このようなペアの数は、N（約100万）と同程度です。NNNMMMKKK111000LLL111NNN これは、非常に高次元の空間で近接する点のペアを探すことで解決できると思います。距離関数は、2つのベクトルに共通する特徴の数に基づいたものにすることができます。しかし、おそらくこれは、より一般的な距離メトリック（ユークリッドなど）でも役立ちます。この問題に取り組むのに役立つ有名なアルゴリズムはどれですか？NNNまたは 2次式はMMM実用的ではありません。問題の実際の定式化の例は、複数の場所の間を移動するNNN人を考慮することです。2人が同時に同じ場所にいた場合、彼らはお互いに会ったと言います。（少なくとも1人が存在する場所と時間の組み合わせの数はMMMです。）私たちは友達を探しています：少なくともLLL回会った人。

9 algorithms high-dimensional

1

均一に分散された高次元のボールのほとんどのポイントはどこにありますか？

それらは中央（原点）の近くにあるべきですか、それともその表面を閉じるべきですか？

7 distributions high-dimensional

2

大規模なデータで不正な変数をすばやく検出するにはどうすればよいですか？

数百万行、数千列のデータセットがあり、タスクはバイナリ分類であるとします。ロジスティック回帰モデルを実行すると、パフォーマンスは予想よりもはるかに優れています（たとえば、ほぼ完全な分類）。データに不正な変数があると思われますが、どうすればすばやく検出できますか？ここで不正な変数とは、応答を非常に示す変数であり、使用すべきではありません。たとえば、ユーザーがカスタマーサービスに電話をかけた場合に使用して、その人が製品を購入したかどうかを予測します。

7 algorithms linear large-data high-dimensional

2

最近傍が無意味になる高次元データセットの生成

論文では、「「Nearest Neighbor」はいつ意味があるのですか？」特定の広範な条件（データとクエリの分布、またはワークロードの観点から）の下で、次元が増加するにつれて、最近傍への距離が最遠距離への距離に近づくことを示します。言い換えれば、異なるデータポイントまでの距離のコントラストは存在しなくなります。これが発生するという私たちが特定した条件は、他の作業が想定している独立して同一に分散された（IID）ディメンションの想定よりもはるかに広いものです。私の質問は、この効果を生成するデータセットをどのように生成する必要があるかです。私は、各次元について0〜255の範囲の乱数で1000次元の3つのポイントを作成しましたが、ポイントは異なる距離を作成し、上記の内容を再現しません。寸法（10、100、1000など）と範囲（[0,1]など）を変更しても、何も変更されないようです。私はまだ異なる距離を取得しますが、クラスタリングアルゴリズムなどでは問題になりません！編集：私の実験に基づいて、より多くのサンプルを試してみましたが、ポイント間の距離が数値に収束していません。逆に、ポイント間の最大距離と最小距離がよりはっきりしています。これは、次元の呪いのためにもっと直感が必要という最初の投稿に書かれていることや、https：//en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problemsのように同じことを主張する他の多くの場所にも反しています。誰かがコードや実際のデータセットを使って、そのような効果が実際のシナリオに存在することを私に示すことができれば、私はそれでも感謝します。

7 machine-learning clustering dataset k-nearest-neighbour high-dimensional

タグ付けされた質問 「high-dimensional」

タグ付けされた質問「high-dimensional」