統計とビッグデータ clustering

8

入力パラメーター（クラスターの数）を使用したクラスタリングアルゴリズム（k-meansではない）があります。クラスタリングを実行した後、このクラスタリングの品質を定量的に測定したいと思います。クラスタリングアルゴリズムには、1つの重要な特性があります。以下のために Iフィード場合結果として、このアルゴリズムにそれらの間の任意の有意な区別なしにデータ点を私が含む一つのクラスタ取得するのデータ点とを有するものクラスタのデータポイントを。明らかにこれは私が望むものではありません。そこで、この品質尺度を計算して、このクラスタリングの合理性を推定したいと思います。理想的には、異なるについてこの測定値を比較することができます。したがって、の範囲でクラスタリングを実行しますk = 2 N N − 1 1 k kkkkk=2k=2k=2NNNN−1N−1N-1111kkkkkk最高の品質のものを選択してください。このような品質尺度を計算するにはどうすればよいですか？更新：が不適切なクラスタリングである場合の例を次に示します。平面上に正三角形を形成する3点があるとしましょう。これらのポイントを2つのクラスターに分割することは、1つまたは3つのクラスターに分割することより明らかに悪いです。(N−1,1)(N−1,1)(N-1, 1)

17 clustering

2

Rのノンパラメトリックベイズ分析

R階層型ディリクレプロセス（HDP）（最近人気のノンパラメトリックベイジアン手法の1つ）を使用したデータのクラスタリングに関する優れたチュートリアルを探しています。ノンパラメトリックベイジアン分析にはDPpackage（IMHO、利用可能なすべての中で最も包括的な）がありますR。しかし、R NewsHDPをコーディングするのに十分なほど、パッケージリファレンスマニュアルまたはパッケージリファレンスマニュアルに記載されている例を理解できません。任意のヘルプまたはポインタを歓迎します。トピックモデリング用のHDPのC ++実装はここから入手できます（C ++コードについては下をご覧ください）

17 r bayesian clustering nonparametric

4

クラスターの数を事前に指定する必要のないクラスタリング方法

クラスタ数を指定する必要のない「ノンパラメトリック」クラスタリング方法はありますか？また、クラスターごとのポイント数などのその他のパラメーター

17 clustering

1

PythonのJenks Natural Breaks：最適なブレーク数を見つける方法

私が見つかりました。このPython実装のジェンクス自然ブレークのアルゴリズムを、私はそれが私のWindows 7のマシン上で実行させることができます。それは非常に高速で、私のジオデータのサイズを考慮して、数時間で休憩を見つけます。データにこのクラスタリングアルゴリズムを使用する前に、sklearn.clustering.KMeans （ここで）アルゴリズムを使用していました。私がKMeansで抱えていた問題は、最適なK値パラメーターを見つけることでしたが、異なるK値のアルゴリズムを起動し、sklearn.metrics.silhouette_score （ここで）最適なK値を見つけるためにそれを「解決」しました。私の質問は、Natural Breaksアルゴリズムに5つのクラス（Kとなる）を見つけるように指示した場合、これがデータに最適なクラスの数であることをどのように確認できますか？最適な数の休憩を選択していることを検証する方法は？ありがとう！

16 python clustering optimization

3

Wardの基準でない場合、hclust（）のward.Dはどのアルゴリズムを実装しますか？

オプション "ward.D"（Rバージョン<= 3.0.3の唯一のWardオプション "ward"と同等）で使用されるものは、Ward（1963）クラスタリング基準を実装しませんが、オプション "ward.D2"はその基準（ Murtagh and Legendre 2014）。（http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html）どうやらward.DはWardの基準を適切に実装していないようです。それにもかかわらず、それが生成するクラスタリングに関しては良い仕事をしているようです。ワードの基準でない場合、method = "ward.D"は何を実装しますか？参照資料 Murtagh、F.、およびLegendre、P.（2014）。Wardの階層的凝集クラスタリング手法：どのアルゴリズムがWardの基準を実装していますか？Journal of Classification、31（3）、274-295。

16 r clustering ward

5

なぜk-meansはグローバルな最小値を与えないのですか？

k-meansアルゴリズムは局所的な最小値にのみ収束し、グローバルな最小値には収束しないことを読みました。どうしてこれなの？初期化が最終的なクラスタリングにどのように影響するかを論理的に考えることができ、最適でないクラスタリングの可能性がありますが、数学的にそれを証明するものは見つかりませんでした。また、なぜk-meansは反復プロセスなのですか？目的関数を重心に部分的に区別するだけでは、この関数を最小化する重心を見つけるためにそれをゼロに等しくすることはできませんか？段階的な最小ステップに到達するために勾配降下を使用する必要があるのはなぜですか？

16 clustering k-means convergence gradient-descent minimum

4

1Dデータのクラスタリング

データセットがあり、1つの変数のみに基づいてそのデータにクラスターを作成します（欠損値はありません）。その1つの変数に基づいて3つのクラスターを作成します。使用するクラスタリングアルゴリズム、k-means、EM、DBSCANなど私の主な質問は、どのような状況でEMよりもk-meansを使用すべきか、k-meansよりもEMを使用すべきかということです。

16 clustering

2

次元削減とクラスタリングを組み合わせるのはいつですか？

ドキュメントレベルのクラスタリングを実行しようとしています。用語ドキュメント頻度行列を作成し、k-meansを使用してこれらの高次元ベクトルをクラスタリングしようとしています。直接クラスタリングの代わりに、最初にLSA（潜在意味解析）特異ベクトル分解を適用してU、S、Vt行列を取得し、スクリープロットを使用して適切なしきい値を選択し、縮小行列（特にVtそれは私に良い結果を与えているように思えた概念ドキュメント情報を提供します）。 SVD（特異ベクトル分解）はクラスタリング（コサイン類似性尺度などを使用）であり、SVDの出力にk-meansを適用できるかどうかわからないと言う人もいます。SVDは次元削減手法であり、多数の新しいベクトルを提供するため、論理的に正しいと考えました。一方、k-meansはクラスターの数を入力として受け取り、これらのベクトルを指定された数のクラスターに分割します。この手順に欠陥はありますか、これを改善できる方法はありますか？助言がありますか？

16 clustering pca dimensionality-reduction text-mining svd

4

クラスター分析の前提

初歩的な質問をおologiesび申し上げますが、私はこの形式の分析は初めてであり、これまでのところ原則の理解は非常に限られています。多変量/単変量テストのパラメトリックな仮定の多くがクラスター分析に適用されるかどうか疑問に思っていましたか？私がクラスター分析に関して読んだ情報源の多くは、仮定を特定できていません。観測の独立性の仮定に特に興味があります。私の理解では、この仮定の違反は（たとえば、ANOVAやMAVOVAで）誤差の推定に影響を与えるため、重大であるということです。私のこれまでの読書から、クラスター分析は大部分が記述的な手法であるように思われます（特定の特定のケースでの統計的推論のみを含む）。したがって、独立性や通常の分散データなどの仮定は必要ですか？この問題を説明するテキストの推奨事項は大歓迎です。どうもありがとう。

16 clustering assumptions

2

ショートテキストクラスタリングの良い方法は何ですか？

テキストクラスタリングの問題に取り組んでいます。データには複数の文が含まれています。短いテキストで高精度に達する優れたアルゴリズムはありますか？良い参考資料を提供できますか？ KMeans、スペクトルクラスタリングなどのアルゴリズムは、この問題に対してうまく機能しません。

15 machine-learning clustering text-mining

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

テキストマイニング：人工知能でテキスト（ニュース記事など）をクラスター化する方法は？

Pongのプレイ、手書きの数字の分類など、さまざまなタスクのために、いくつかのニューラルネットワーク（MLP（完全接続）、Elman（繰り返し））を構築しました... さらに、複数桁の手書きノートを分類するなど、いくつかの最初の畳み込みニューラルネットワークを構築しようとしましたが、25x25サイズの画像などの標準化された入力に依存できる画像認識/クラスタリングタスクなど、テキストを分析およびクラスター化することはまったく新しいです。 RGBまたはグレースケールなど...前提条件の機能がたくさんあります。テキストマイニング、たとえばニュース記事の場合、入力のサイズは常に変化しています（異なる単語、異なる文、異なるテキスト長など）。人工知能、できればニューラルネットワーク/ SOMを利用した最新のテキストマイニングツールをどのように実装できますか？残念ながら、簡単なチュートリアルを最初から見つけることができませんでした。複雑な科学論文は読みにくく、トピックを学ぶための最良の選択肢ではありません（私の意見では）。MLP、ドロップアウトテクニック、畳み込みニューラルネットワークなどに関するかなりの論文をすでに読んでいますが、テキストマイニングに関する基本的なものを見つけることができませんでした-私が見つけたのは、非常に限られたテキストマイニングスキルにはあまりにも高レベルでした。

15 clustering neural-networks feature-selection text-mining self-organizing-maps

2

クラスタリングのための混合モデルの適合方法

XとYの2つの変数があり、クラスターを最大（および最適）= 5にする必要があります。変数の理想的なプロットは次のようになります。このクラスターを5つ作成したいと思います。このようなもの：したがって、これは5つのクラスターを持つ混合モデルだと思います。各クラスターには中心点とその周囲の信頼円があります。クラスターは必ずしもこのようにきれいであるとは限らず、次のようになります。2つのクラスターが互いに近接している場合や、1つまたは2つのクラスターが完全に欠落している場合があります。この状況で混合モデルをどのように適合させ、分類（クラスタリング）を効果的に実行できますか？例： set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col = "gray40")

15 r clustering gaussian-mixture

1

帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか？

順列テスト（ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます）は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。注：置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。更新：私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1：1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1（ベースライン）、V2（3か月後）、およびV3（1年後）のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較できますか？-薬物と被験者をV2でプラセボを投与した被験者と比較するますか？-機能Aの対象とV2の機能Bの対象を比較しますか？ -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか？ -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか？

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

時系列と異常検出

時系列の異常を検出するためのアルゴリズムをセットアップしたいので、そのためにクラスタリングを使用する予定です。生の時系列データではなく、クラスタリングに距離行列を使用する必要があるのはなぜですか？異常の検出には、密度ベースのクラスタリング、DBscanとしてのアルゴリズムを使用しますが、この場合、それは機能しますか？データをストリーミングするためのオンラインバージョンはありますか？異常を発生する前に検出したいので、トレンド検出アルゴリズム（ARIMA）を使用するのが良い選択でしょうか？

15 time-series clustering trend

タグ付けされた質問 「clustering」

タグ付けされた質問「clustering」