タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

1
k-means || 別名スケーラブルなK-Means ++
バーマン・バーマニ他 k-means ||が導入されました。これはk-means ++の高速バージョンです。 このアルゴリズムは、彼らの論文の 4ページ、Bahmani、B.、Moseley、B.、Vattani、A.、Kumar、R.、およびVassilvitskii、S.(2012)から取られています。スケーラブルなk-means ++。VLDB基金の議事録、5(7)、622-633。 残念ながら、これらの派手なギリシャ文字は理解できないので、これがどのように機能するかを理解するのに助けが必要です。私が理解している限り、このアルゴリズムはk-means ++の改良バージョンであり、オーバーサンプリングを使用して反復回数を減らします。k-means++は回反復する必要があります(kは目的のクラスターの数です)。kkkkkk k-means ++がどのように機能するかの具体例を通して非常に良い説明を得たので、同じ例を再び使用します。 例 次のデータセットがあります。 (7,1)、(3,4)、(1,5)、(5,8)、(1,3)、(7,8)、(8,2)、(5,9)、(8 、0) (必要なクラスターの数)k=3k=3k = 3 (オーバーサンプリング係数)ℓ=2ℓ=2\ell = 2 私はそれを計算し始めましたが、私はそれが正しいかどうかわからず、ステップ2、4、または5については知りません。 ステップ1:Xからランダムに点を一様にサンプリングするC←C←\mathcal{C} \leftarrowXXX のは、最初の重心があるとしましょう(k平均++と同じ)(8,0)(8,0)(8,0) ステップ2:ψ←ϕX(C)ψ←ϕX(C)\psi \leftarrow \phi_X(\mathcal{C}) わからない ステップ3: d2(x,C)=[2,41,74,73,58,65,4,90]d2(x,C)=[2,41,74,73,58,65,4,90]d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90] 各ポイントに最も近い中心までの距離の2乗を計算します。このケースでは、これまでのところ唯一のセンターを持っている。(8,0)(8,0)(8,0) ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]\ell \cdot d^2(x, \mathcal{C}) = [4, 81, 148, …

4
これらの相関ベースの距離に対して、三角形の不等式は満たされていますか?
階層的クラスタリングの場合、2つのランダム変数XXXと間の距離を測定するために、次の2つの「メトリック」(正確には言えません)をよく目にしますYYY。 \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &= 1-|\Cor(X,Y)|, \\ d_2(X,Y) &= 1-(\Cor(X,Y))^2 \end{align} どちらかが三角形の不等式を満たしますか?もしそうなら、単に総当たり計算を行う以外にどのように証明する必要がありますか?それらがメトリックではない場合、簡単なカウンターの例は何ですか?

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
交差検証により、グラウンドトゥルースのないデータセット上のさまざまなクラスタリング手法を比較できますか?
現在、根拠のないテキストドキュメントデータセットを分析しようとしています。k分割交差検証を使用して、さまざまなクラスタリング手法を比較できると言われました。ただし、私が過去に見た例では、グラウンドトゥルースを使用しています。このデータセットでk-fold平均を使用して結果を検証する方法はありますか?

5
PCAを使用してクラスター分析の変数を選択できますか?
クラスター分析を行うには、変数の数を減らす必要があります。私の変数は強く相関しているので、因子分析 PCA(主成分分析)を行うことを考えました。ただし、結果のスコアを使用する場合、クラスターはあまり正確ではありません(文献の以前の分類と比較して)。 質問: 回転行列を使用して、各コンポーネント/ファクターの負荷が最も大きい変数を選択し、これらの変数のみをクラスタリングに使用できますか? 書誌参照も参考になります。 更新: いくつかの明確化: 私の目標: SPSSによる2ステップアルゴリズムを使用してクラスター分析を実行する必要がありますが、変数は独立していないため、それらの一部を破棄することを考えました。 私のデータセット: 100,000ケースの15個のスカラーパラメータ(変数)に取り組んでいます。一部の変数は強く相関しています( Pearson)> 0.9>0.9>0.9 疑い: 独立変数のみが必要なので、主成分分析を実行し(申し訳ありませんが、元の質問で間違って因子分析について話しました、私の間違い)、各成分の負荷が最も大きい変数のみを選択します。PCAプロセスにはいくつかの任意のステップがあることは知っていますが、この選択は、変数を選択するためにITジョリフ(1972および2002)によって提案され、1999年にJRキングおよびDAジャクソンによって提案された「メソッドB4。 そのため、この方法で独立変数のサブグループを選択することを考えていました。次に、グループを使用してさまざまなクラスター分析を実行し、結果を比較します。

2
Rでの空間データのクラスタリング
一連の海面水温(SST)の月次データがあり、いくつかのクラスター方法論を適用して、同様のSSTパターンを持つ領域を検出したいと考えています。1985年から2009年まで実行される毎月のデータファイルのセットがあり、最初のステップとして各月にクラスタリングを適用したいと考えています。 各ファイルには358416ポイントのグリッドデータが含まれており、約50%が陸地であり、NAである99.99値でマークされています。データ形式は次のとおりです。 lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 12.39 -9.646 44.979 12.36 CLARAクラスタリング手法を試してみたところ、見かけ上は良い結果が得られましたが、それはただの平滑化(グループ化)アイソラインであるようにも思えます。そして、これが空間データを分析するのに最適なクラスタリング手法であるかどうかはわかりません。 このタイプのデータセット専用のクラスタリング方法はありますか?いくつかの参照は、読み始めるのに良いでしょう。 前もって感謝します。
12 r  clustering  spatial 


1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
Rでのk平均クラスタリングの結果の解釈
kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 この場合、「クラスターの意味」とはどういう意味ですか?クラスタ内のすべてのオブジェクトの距離の平均ですか? また、私は最後の部分で: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) その値は88.4%で、その解釈は何でしょうか?

1
Rでの混合データのための堅牢なクラスター法
私は小さなデータセット(4つの区間変数の64の観測値と1つの3因子のカテゴリ変数)をクラスター化しようとしています。現在、私はクラスター分析に非常に慣れていませんが、階層的クラスター化またはk-meansが唯一の利用可能なオプションであった時代からかなりの進歩があったことを認識しています。特に、chlで指摘されているように、「クラスターまたはクラスの数を決定するための適合度インデックス」の使用を可能にする、モデルベースのクラスタリングの新しい方法が利用できるようです。 ただし、モデルベースのクラスタリング用の標準Rパッケージはmclust、混合データ型のモデルには適合しないようです。fpcモデルがしますが、トラブルのモデルをフィッティングを持って、私はので、連続変数の非ガウス的性質の疑いがあります。モデルベースのアプローチを続行する必要がありますか?できればRを使い続けたいです。私が見るように、私にはいくつかのオプションがあります: 3レベルのカテゴリ変数を2つのダミー変数に変換し、を使用しますmclust。これが結果にバイアスをかけるかどうかはわかりませんが、そうでない場合はこれが私の推奨オプションです。 連続変数をどうにかして変換し、fpcパッケージを使用します。 まだ遭遇していない他のRパッケージを使用します。 Gowerの測度を使用して非類似度行列を作成し、従来の階層的または再配置クラスター技術を使用します。 stats.seハイブマインドにはここで何か提案がありますか?

3
バイナリデータのクラスタリングが重要かどうかをテストするにはどうすればよいですか
私はショッピングカートを分析しています。私のデータセットはトランザクションベクトルのセットであり、購入する商品が含まれています。 トランザクションにk-meansを適用すると、常に何らかの結果が得られます。ランダム行列はおそらくいくつかのクラスターも表示します。 私が見つけたクラスタリングが重要なものであるかどうかをテストする方法はありますか、それは偶然かもしれません。はいの場合、どうすればよいですか。

2
ガワー距離はどのようにバイナリ変数間の差を計算しますか?
データセットには73個のサンプルがあり、17個の数値と5個のバイナリ(0-1)変数があります。クラスター分析を実行する必要があります。ガワー距離は、変数が混在するデータセットに適したメトリックであることを知っています。しかし、ガワー距離がバイナリ変数間の差をどのように計算するのか理解できませんでした。ユークリッド距離と変わらないようです。

1
サンプルの共分散行列が反転可能でない場合はどうすればよいですか?
いくつかのクラスタリング手法に取り組んでいます。d次元ベクトルの特定のクラスターについて、多変量正規分布を仮定し、サンプルのd次元平均ベクトルとサンプルの共分散行列を計算します。 次に、目に見えない新しいd次元ベクトルがこのクラスターに属しているかどうかを判断しようとするときに、次のメジャーを使用してその距離をチェックしています: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) これには、共分散行列の逆行列を計算する必要があります。しかし、いくつかのサンプルを考えると、共分散行列が可逆であることを保証できません。そうでない場合はどうすればよいですか?σ^Xσ^X\hat{\sigma}_X ありがとう


1
Mclustモデルの選択
Rパッケージmclustは、BICをクラスターモデル選択の基準として使用します。私の理解では、BICが最も低いモデルを他のモデルよりも選択する必要があります(BICのみに関心がある場合のみ)。ただし、BIC値がすべて負の場合、Mclust関数はデフォルトで最大のBIC値を持つモデルになります。さまざまなトライアルから私の全体的な理解は、mclust「最良の」モデルをを持つモデルとして識別することです。max{BICi}max{BICi}max\{BIC_i\} 著者がこの決定をした理由を理解しようとしています。CRANサイトで説明されています:https : //cran.r-project.org/web/packages/mclust/vignettes/mclust.html また、mclustパッケージの作成者は、5ページのモデルベースの分類方法:ケモメトリックスでのmclustソフトウェアの使用を参照してください。 「最良の」モデルは、適合モデルの中で最高のBICを持つモデルと見なされます。 誰でもこの問題に光を当てることができますか?低いBICが常に優れている場合、著者はなぜ最小のBICを持つモデルではなく、最小の絶対BICを持つモデルを選択するのですか?可能であれば、参照を提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.