タグ付けされた質問 「hierarchical-clustering」

3
クラスタリング方法を選択する方法は?クラスターソリューションを検証する方法(メソッドの選択を保証するため)
クラスター分析の最大の問題の1つは、使用するさまざまなクラスタリング手法(階層的クラスタリングのさまざまなリンケージ手法を含む)に基づいて異なる結論を導き出さなければならない場合があることです。 これについてのあなたの意見を知りたい- どの方法を選択し、どのようにするか。「クラスタリングの最良の方法は、正しい答えを与えることです」と言う人もいるかもしれません。しかし、クラスター分析は教師なしの手法であると考えられているのではないかと疑問に思うかもしれません。どのメソッドまたはリンケージが正しい答えであるかをどのように知ることができますか? 一般的に:クラスタリングだけで十分に堅牢であるか?または、2つ目のメソッドが必要で、両方に基づいて共有結果を取得しますか? 私の質問は、クラスタリングのパフォーマンスを検証/評価する方法についてだけでなく、より広範なものです- ある基準に基づいて、あるクラスタリング方法/アルゴリズムを選択/優先しますか?また、データをクラスター化する方法を選択する際に注意すべき一般的な警告はありますか? 私はそれが非常に一般的な質問であり、答えるのが非常に難しいことを知っています。これについての詳細を知るためのコメント、アドバイス、提案があれば教えてください。

2
階層的クラスタリングのための正しいリンケージ方法の選択
Google BigQueryのredditデータダンプから収集および処理したデータに対して階層クラスタリングを実行しています。 私のプロセスは次のとおりです。 / r / politicsで最新の1000件の投稿を取得 すべてのコメントを集める データを処理し、n x mデータマトリックスを計算します(n:users / samples、m:posts / features) 階層的クラスタリングの距離行列を計算する リンク方法を選択して、階層クラスタリングを実行します データを樹状図としてプロットする 私の質問は、最適なリンケージ方法がどのように決定されるのですか?私は現在、使用していますWardが、私が使用してするかどうか私は知らないsingle、complete、average、など? 私はこのようなものに非常に新しいですが、私は1つが確かではないので、オンラインで明確な答えを見つけることができません。それでは、私のアプリケーションにとって良いアイデアは何でしょうか?n x mマトリックスに多くのゼロがあるという意味で、データは比較的まばらであることに注意してください(ほとんどの人は、数件以上の投稿にコメントしません)。

3
階層クラスター分析の樹状図の解釈方法
以下のRの例を考えてください。 plot( hclust(dist(USArrests), "ave") ) y軸の「高さ」とは正確に何を意味しますか? ノースカロライナ州とカリフォルニア州を見る(むしろ左側)。カリフォルニアはアリゾナよりもノースカロライナに「近い」のでしょうか?この解釈をすることはできますか? ハワイ(右)はかなり遅れてクラスターに参加します。これは他の州よりも「高い」ため、見ることができます。一般に、樹状図のラベルが「高い」または「低い」という事実をどのように解釈できますか?

1
距離メトリックとしての相関の使用(階層クラスタリングの場合)
データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は d= 1 − | r | d=1−|r|\ d = 1-|r| コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問(k-meansクラスタリングに関して)で読みました:d= 2 (1 − r )−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか?

4
階層的クラスタリングの欠点を理解する方法は?
誰かが階層的クラスタリングの長所と短所を説明できますか? 階層的クラスタリングには、Kの意味と同じ欠点がありますか? 階層的クラスタリングのKを超える利点は何ですか? 階層的クラスタリングに対してKを使用する場合、およびその逆の場合はいつですか? この投稿への回答では、kの欠点が非常によく説明されています。 K-meansの欠点を理解する方法

2
クラスタリング—クラインバーグの不可能性定理の裏にある直観
Kleinberg(2002)によるクラスタリングの難しさを探るこの興味深い分析に関するブログ投稿を書くことを考えています。クラインバーグは、クラスタリング関数の3つの一見直感的な設計を概説し、そのような関数が存在しないことを証明しています。3つの基準のうち2つを満足させる多くのクラスタリングアルゴリズムがあります。ただし、3つすべてを同時に満たす機能はありません。 簡潔かつ非公式に、彼が概説する3つの要求事項は次のとおりです。 Scale-Invariance:すべての方向にすべてが均等に引き伸ばされるようにデータを変換する場合、クラスタリング結果は変わらないはずです。 一貫性:クラスター間の距離が増加するように、および/またはクラスター内の距離が減少するようにデータをストレッチする場合、クラスタリングの結果は変わらないはずです。 豊富さ:クラスタリング機能は、理論的には、データポイントの任意のパーティション/クラスタリングを生成できる必要があります(2つのポイント間のペアワイズ距離がわからない場合) 質問: (1)これらの3つの基準間の矛盾を示すことができる、直感的で幾何学的な絵はありますか? (2)これは、論文の技術的な詳細を指します。質問のこの部分を理解するには、上記のリンクを読む必要があります。 論文では、定理3.1の証明は、私がいくつかの点で従うのが少し難しいです。私は、こだわっている:「してみましょう。クラスタリング機能も満たす一貫性私たちはどんなパーティションのためと主張しているΓ ∈ レンジ(F )、正の実数が存在する&lt; bのペアよう(、bが)ですΓ -強制する。」fffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 私はこれがどうなるかわかりません... 反例の下のパーティションではありませんか(つまり、クラスター間の最小距離はクラスター内の最大距離よりも大きい)?a&gt;ba&gt;ba > b 編集:これは明らかに反例ではなく、私は自分自身を混乱させていました(回答を参照)。 その他の論文: Ackerman&Ben-David(2009)。クラスタリング品質の尺度:クラスタリングの公理のワーキングセット 「一貫性」公理に関するいくつかの問題を指摘する

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata &lt;- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] &lt;- "no" mydata$admit_factor[mydata$admit==1] &lt;- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl &lt;- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid &lt;- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


2
階層的クラスタリングが有効であるためには、距離が「メトリック」である必要がありますか?
N個のアイテム間の距離をmetricではないものと定義するとします。 この距離に基づいて、次に凝集階層的クラスタリングを使用します。 既知の各アルゴリズム(単一/最大/平均リンクなど)を使用して、意味のある結果を取得できますか?または別の言い方をすると、距離がメトリックでない場合にそれらを使用することの問題は何ですか?


2
クラスター数の選択-クラスター検証の基準とドメインの理論的な考慮事項
クラスターの数を選択する必要があるという問題によく直面します。私が最終的に選択するパーティションは、多くの場合、品質基準ではなく視覚的および理論的な懸念に基づいています。 主な質問が2つあります。 1つ目は、クラスターの品質に関する一般的な考え方です。「エルボ」などの基準が理解できることから、コスト関数を参照して最適な値を提案しています。このフレームワークで私が抱えている問題は、最適な基準が理論的な検討に影響されないため、最終的なグループ/クラスターに常に必要となるある程度の複雑さ(研究分野に関連)があることです。 また、のように説明し、ここで最適値はまた、あなたがしているかを考慮して、(例えば経済的制約など)、「下流の目的」制約に関連している何をするつもりクラスタリング事項と。 明らかに、1つの面が意味のある/解釈可能なクラスターを見つけることであり、クラスターが多くなるほど、それらを解釈することが難しくなります。 しかし、常にそうであるとは限りません。8、10、または12個のクラスターが、分析で必要なクラスターの最小の「興味深い」数であることがよくあります。 ただし、肘などの基準では、クラスターがはるかに少ないことが示唆されることが多く、通常は2、3または4です。 Q1。私が知りたいのは、特定の基準(エルボなど)によって提案されたソリューションではなく、より多くのクラスターを選択することを決定した場合の最良の議論の行です。直観的には、制約がない場合(取得したグループの了解度や、非常に多額の場合のコースラの例など)は常に優れているはずです。これを科学雑誌の記事でどのように議論しますか? 別の言い方をすれば、(これらの基準を使用して)クラスターの最小数を特定したら、それよりも多くのクラスターを選択した理由を正当化する必要さえあるということです。意味のある最小限のクラスターを選択する場合にのみ、正当化が行われるべきではありませんか? Q2。これに関連して、クラスターの数が増えるにつれて、シルエットなどの特定の品質指標が実際にどのように減少するかはわかりません。シルエットにクラスター数のペナルティが表示されないので、どうすればよいですか?理論的には、クラスターが多いほど、クラスターの品質は高くなりますか? # R code library(factoextra) data("iris") ir = iris[,-5] # Hierarchical Clustering, Ward.D # 5 clusters ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', hc_method = 'ward.D', graph = T, k = 5) # 20 clusters ec20 = eclust(ir, FUNcluster …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.