タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

3
K-MeansとEMを使用したクラスタリング:それらはどのように関連していますか?
データのクラスタリング(教師なし学習)アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます: k-meansはEMの変形であり、クラスターが球形であるという仮定があります。 誰かが上記の文を説明できますか?1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。 また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか?またはEMクラスタリングを使用しますか?


3
曲線形状に基づいて時系列クラスタリングを行うことは可能ですか?
一連のアウトレットの販売データがあり、時間の経過に伴うカーブの形状に基づいてそれらを分類したいと考えています。データはおおよそ次のように見えます(ただし、明らかにランダムではなく、データが欠落しています)。 n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, 1, 200) new.df <- data.frame( var0 = interval + c(0, cumsum(runif(49, -5, 5))), date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters), store = rep(paste("Store", i, sep=""), n.quarters)) if (exists("test.data")){ test.data <- rbind(test.data, new.df) } …

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
クラスタリングの前にデータをスケーリングすることは重要ですか?
私が見つかりました。このチュートリアルあなたは(私はそれがzスコアにデータを変換することを信じている)クラスタ化する前に、機能上のスケールの機能を実行する必要があることを示唆しています。 それが必要かどうか疑問に思っています。私は主に、データをスケーリングしないときに素敵な肘のポイントがあるので尋ねていますが、スケーリングすると消えます。:)

8
重み付けされたソーシャルネットワーク/グラフでコミュニティを検出する方法
重みのある無向のエッジを持つグラフでコミュニティ検出/グラフ分割/クラスタリングを実行することに関して、誰かが良い出発点を提案できるかどうか疑問に思っています。問題のグラフには約300万のエッジがあり、各エッジは接続する2つの頂点間の類似度を表します。特に、このデータセットでは、エッジは個人であり、頂点は観測された動作の類似性の尺度です。 過去に私はstats.stackexchange.comでここに着いた提案に従い、Newmanのモジュール性クラスタリングのigraphの実装を使用し、結果に満足しましたが、それは重みのないデータセットにありました。 私が見るべき特定のアルゴリズムはありますか?

5
動的タイムワーピングクラスタリング
動的タイムワーピング(DTW)を使用して時系列のクラスタリングを実行する方法は何ですか? DTWを2つの時系列間の類似性を見つける方法として読みましたが、それらは時間的にシフトする可能性があります。この方法を、k-meansのようなクラスタリングアルゴリズムの類似性尺度として使用できますか?

5
Rの時系列「クラスタリング」
時系列データのセットがあります。各シリーズは同じ期間をカバーしますが、各時系列の実際の日付がすべて正確に「揃っている」わけではありません。 つまり、時系列が2Dマトリックスに読み込まれる場合、次のようになります。 date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc 時系列{T1、T2、... TN}を「家族」に分離するRスクリプトを記述します。ここで、家族とは、「共感して移動する傾向がある」一連のシリーズとして定義されます。 「クラスタリング」の部分では、一種の距離測定を選択/定義する必要があります。私は時系列を扱っているため、これをどのように行えばよいのかよくわかりません。1つの間隔で同情的に移動する可能性のある一連のシリーズは、後続の間隔ではそうなりません。 ここにいるよりもはるかに経験豊富で賢い人がいると確信しているので、距離測定に使用するアルゴリズム/ヒューリスティックに関する提案、アイデア、および時系列のクラスタリングでそれを使用する方法に関するアイデアに感謝します。 私の推測では、これを行うための確固たる統計的方法は確立されていないので、統計学者のように考えて、人々がこの問題にどのようにアプローチ/解決するのか非常に興味があります。

3
クラスタリング方法を選択する方法は?クラスターソリューションを検証する方法(メソッドの選択を保証するため)
クラスター分析の最大の問題の1つは、使用するさまざまなクラスタリング手法(階層的クラスタリングのさまざまなリンケージ手法を含む)に基づいて異なる結論を導き出さなければならない場合があることです。 これについてのあなたの意見を知りたい- どの方法を選択し、どのようにするか。「クラスタリングの最良の方法は、正しい答えを与えることです」と言う人もいるかもしれません。しかし、クラスター分析は教師なしの手法であると考えられているのではないかと疑問に思うかもしれません。どのメソッドまたはリンケージが正しい答えであるかをどのように知ることができますか? 一般的に:クラスタリングだけで十分に堅牢であるか?または、2つ目のメソッドが必要で、両方に基づいて共有結果を取得しますか? 私の質問は、クラスタリングのパフォーマンスを検証/評価する方法についてだけでなく、より広範なものです- ある基準に基づいて、あるクラスタリング方法/アルゴリズムを選択/優先しますか?また、データをクラスター化する方法を選択する際に注意すべき一般的な警告はありますか? 私はそれが非常に一般的な質問であり、答えるのが非常に難しいことを知っています。これについての詳細を知るためのコメント、アドバイス、提案があれば教えてください。


4
シルエットプロットの平均解釈する方法は?
イムは、私のデータセット内のクラスタの数を決定するためにシルエットプロットを使用しようとしています。データセットを考えると電車、私は次のMATLABコードを使用しました Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 得られたプロットは、x軸としてして以下に与えられるクラスタの数とY軸シルエット値の平均。 どのように私はこのグラフを解釈するのですか?どのように私はこのことから、クラスタの数を決定するのですか?

3
t-SNEがクラスタリングまたは分類の次元削減手法として使用されないのはなぜですか?
最近の割り当てでは、MNISTの数字でPCAを使用して、寸法を64(8 x 8画像)から2に減らすように言われました。その後、ガウス混合モデルを使用して数字をクラスター化する必要がありました。2つの主成分のみを使用するPCAは、明確なクラスターを生成せず、その結果、モデルは有用なグループ化を生成できません。 ただし、2つのコンポーネントを持つt-SNEを使用すると、クラスターの分離が大幅に改善されます。ガウス混合モデルは、t-SNEコンポーネントに適用すると、より明確なクラスターを生成します。 2コンポーネントのPCAと2コンポーネントのt-SNEの違いは、MNISTデータセットに変換が適用された次の画像のペアで見ることができます。 t-SNEは、この回答のように高次元データの視覚化にのみ使用されることを読んでいますが、それが生成する明確なクラスタを考えると、なぜ分類モデルに使用される次元削減手法として使用されないのですか?スタンドアロンのクラスタリング方法?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(なぜ)コホーネンスタイルのSOMは支持されなくなったのですか?
私の知る限り、コホーネンスタイルのSOMは2005年頃にピークを迎えましたが、最近はあまり好まれていません。私は、SOMが別の方法に包まれている、または他の方法と同等であると証明されている(とにかく高次元で)ことを示す論文を見つけませんでした。しかし、たとえばWikipediaやSciKit Learnなどでは、tSNEや他のメソッドがより多くのインクを獲得しているように思われ、SOMは歴史的なメソッドとしてより多く言及されています。 (実際、Wikipediaの記事は、SOMが競合他社に対して一定の利点を持ち続けていることを示しているように見えますが、リストの中で最も短いエントリでもあります。編集:gungのリクエストにより、私が考えている記事の1つは、非線形次元削減です。SOMは他の方法よりも記述されていないことに注意してください。SOMが他のほとんどの方法よりも優れているという利点を述べた記事を見つけることができません。) 洞察はありますか?他の誰かがなぜSOMが使用されていないのかを尋ね、しばらく前から参考文献を入手し、SOM会議の議事録を見つけましたが、SVMやtSNEなどの台頭がポップ機械学習でSOMを覆い隠しただけではないかと思っていました。 編集2:純粋な偶然の一致により、私は今晩、非線形次元削減に関する2008年の調査を読んでいたが、例としてのみ言及している:Isomap(2000)、locally linear embedding(LLE)(2000)、Hessian LLE(2003)、Laplacian eigenmaps(2003)、および半正定値埋め込み(SDE)(2004)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.