統計とビッグデータ sparse

7

多次元データとスパースデータがある場合、古典的な距離（ユークリッド距離など）が弱判別性になることをどこかで見ました。どうして？ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか？この場合、どの類似性を使用する必要がありますか？

72 machine-learning clustering data-mining sparse euclidean

3

スパースPCAはPCAよりどれくらい正確ですか？

数回前に授業でPCAについて学びました。この魅力的な概念についてさらに掘り下げることで、まばらなPCAについて知ることができました。私が間違っていなければ、これはまばらなPCAです：PCAでは、変数を持つデータポイントがある場合、PCAを適用する前に次元空間で各データポイントを表すことができます。PCAを適用した後、同じ次元空間で再び表すことができますが、今回は、最初の主成分に最大の分散が含まれ、2番目の主成分に2番目に大きな分散方向が含まれます。したがって、データの多くの損失を引き起こさないため、最後のいくつかの主要コンポーネントを削除でき、データを圧縮できます。右？p pnnnpppppp スパースPCAは、ベクトル係数に含まれる非ゼロ値がより少ない主成分を選択しています。これはどのようにデータをよりよく解釈するのに役立つと思われますか？誰でも例を挙げることができますか？

24 machine-learning pca sparse

4

非常にまばらなデータでうまく機能するランダムフォレストの実装はありますか？

非常にまばらなデータでうまく機能するRランダムフォレストの実装はありますか？数千または数百万のブール入力変数がありますが、与えられた例では数百またはそれだけがTRUEになります。私はRが比較的新しく、スパースデータを処理するための「Matrix」パッケージがあることに気付きましたが、標準の「randomForest」パッケージはこのデータ型を認識しないようです。重要な場合、入力データはRの外部で生成され、インポートされます。何かアドバイス？また、Weka、Mahout、または他のパッケージの使用について調べることもできます。

23 r random-forest sparse

1

機械学習アルゴリズムの欠損データとスパースデータの違い

スパースデータと欠落データの主な違いは何ですか？そして、それは機械学習にどのように影響しますか？より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰（予測数）タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。

20 machine-learning dataset missing-data sparse

1

疎データ行列で動作するクラスタリングアルゴリズム[非公開]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。次のクラスタリングアルゴリズムのリストをコンパイルしようとしています。 Rで実装 sparseMatrix関数によって作成されるような、スパースデータ行列（（非）非類似度行列ではない）で操作します。 CVにはこの概念を説明する他のいくつかの質問がありますが、スパース行列で直接操作できるRパッケージにリンクするものはありません。大規模で疎なデータセットのクラスタリング高次元のスパースバイナリデータのクラスタリング疎で高次元のクラスタリング実装を探していますスペース効率の高いクラスタリングこれまでのところ、スパース行列をクラスター化できるRの関数を1つだけ見つけました。 skmeans：球面kmeans skmeansパッケージから。コサイン距離を使用したkmeans 。dgTMatrixオブジェクトを操作します。遺伝的k-meansアルゴリズム、pclust、CLUTO、gmeans、およびkmndirsへのインターフェースを提供します。例： library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , …

18 r clustering sparse

4

ノルム

ためノルムが（少なくとも部分的に）ユニークで、P = 1は非凸と凸との間の境界にあります。L 1ノルムが「最もまばらな」凸規範（右？）です。L1L1L_1p=1p=1p=1L1L1L_1 私はそれを理解し、ユークリッドノルムが幾何学にルーツを持ち、寸法が同じ単位を持っている場合には、明確な解釈を持っています。しかし、他の実数p > 1よりも優先的に使用される理由がわかりません：p = 1.5？p = π？完全な連続範囲をハイパーパラメーターとして使用しないのはなぜですか？p=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi 私は何が欠けていますか？

13 regression regularization sparse

1

スパーストレーニングセットはSVMに悪影響を及ぼしますか？

SVMを使用してメッセージをさまざまなカテゴリに分類しようとしています。トレーニングセットの望ましい単語/記号のリストをまとめました。メッセージを表す各ベクトルについて1、単語が存在する場合に対応する行を設定します。「コーパス」は次のとおりです。[メアリー、リトル、ラム、星、きらめき] 最初のメッセージ：「メアリーには小さな子羊がいた」-> [1 1 1 0 0] 2番目のメッセージ：「小さな星をきらめき」-> [0 1 0 1 1] これはSVMでかなり一般的な設定だと思いますが、私の質問は、セットに数千の単語がある場合、実際に表示されるメッセージごとに1-2単語しかない場合はどうでしょうか？トレーニングベクトルのセットの線形依存性は、アルゴリズムの収束能力に悪影響を及ぼしますか？

12 classification svm sparse

1

どのようなものがあり

最近、スパース表現に関する多くの論文を目にしており、それらのほとんどはノルムを使用し、いくつかの最小化を行っています。私の質問は、ノルムと混合ノルムとは何ですか？そして、それらは正則化にどのように関連していますか？ℓ のp ℓのP 、Qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ありがとう

12 machine-learning regularization sparse

1

大規模なPCAも可能ですか？

主成分分析（PCA）の古典的な方法は、列の平均がゼロである入力データマトリックスで行う（PCAが「分散を最大化できる」）方法です。これは、列を中央に配置することで簡単に実現できます。ただし、入力マトリックスがスパースの場合、中央に配置されたマトリックスはスパースになり、マトリックスが非常に大きい場合、メモリに収まりません。ストレージの問題に対するアルゴリズム的な解決策はありますか？

10 pca algorithms dimensionality-reduction large-data sparse

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

4

確率行列のスパース性を誘発する正則化

L1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b}λλ\lambdax⃗ x→\vec{x} ただし、エントリが正で合計がになるという条件に従ってを最小化すると、項は効果がありません（ by fiat）。結果のがスパースであることを促進するためにこの場合に機能する類似のタイプの正規化はありますか？fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥x⃗ ∥1=1‖x→‖1=1\|\vec{x}\|_1=1L1L1L_1x⃗ x→\vec{x}

10 regression matrix normalization regularization sparse

2

事前に指定されたスパースパターンで対称正定行列を生成します

事前に指定されたスパース構造（ノードのグラフで指定）を使用して相関行列（対称psd）を生成しようとしています。グラフで接続されているノードには相関関係、残りはすべて0、対角線はすべて1です。p×pp×pp\times ppppρ∼U(0,1)ρ∼U(0,1)\rho \sim U(0,1) この行列を何度か生成しようとしましたが、有効な相関行列が得られることはまれです。相関行列whpを保証する方法はありますか？私は正の相関しか持つことができないので、などはオプションではないことに注意してください。ρ∼U(−1,1)ρ∼U(−1,1)\rho \sim U(-1,1) どんな助けでも大歓迎です！

9 correlation matrix sparse correlation-matrix

1

スパース入力でニューラルネットワークを使用する場合に従う必要があるガイドライン

入力画像の特定の特徴の場所など、入力が非常にまばらです。さらに、各機能は複数の検出を行うことができます（これがシステムの設計に影響するかどうかは不明です）。これは、その機能の存在を表すONピクセルを備えたkチャネル「バイナリイメージ」として提示するものとします。逆も同様です。このような入力は非常にまばらにバインドされていることがわかります。それでは、ニューラルネットでスパースデータ、特に検出/位置を表すデータを使用する場合の推奨事項はありますか？

9 neural-networks deep-learning sparse

2

回帰に含めるスパース主成分の数の選択

だれでも、回帰モデルに含めるスパース主成分の数を選択するアプローチの経験がありますか？

9 pca sparse regression-strategies

1

L1正則化に対する圧縮センシングの関係

圧縮センシングが最もスパースな解を見つけることを理解しています。ここで、、、および、。、X ∈ R D A ∈ R K × D Y ∈ R K K < < Dy=Axy=Axy = Axx∈RDx∈RDx \in \mathbb{R}^DA∈Rk×DA∈Rk×DA \in \mathbb{R}^{k \times D}y∈Rky∈Rky \in \mathbb{R}^{k}k<<Dk<<Dk << D このようにして、（圧縮）を使用してかなり高速に（元の）を再構築できます。私たちは、と言う疎なソリューションです。、ベクトルのノルムとして理解できます。y x l 0xxxyyyxxxl0l0l_0 また、（線形計画法を使用して解ける）は、（大きなベクトルの場合はNP困難）の良い近似であることも知っています。したがって、は最小の解でもありますl 0 x l 1 A x = yl1l1l_1l0l0l_0バツxxl1l1l_1A x = yAx=yAx=y 圧縮センシングは、投げ縄ペナルティ（）を伴う回帰に類似していることを読んだことがあります。私もこれの幾何学的解釈を見てきましたが、数学的には関係がありません。l1l1l_1 ノルムを最小化する以外に、圧縮とLassoの間の（数学的に）関係は何ですか？l1l1l_1

8 lasso sparse

タグ付けされた質問 「sparse」

タグ付けされた質問「sparse」