タグ付けされた質問 「clustering」

クラスター分析は、クラスラベルなどの既存の知識を使用せずに、相互の「類似性」に従ってデータをオブジェクトのサブセットに分割するタスクです。[clustered-standard-errorsおよび/またはcluster-samplesはそのようにタグ付けする必要があります。それらには「クラスタリング」タグを使用しないでください。]

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
(K-平均)クラスタリング手法で平均値のみが使用されるのはなぜですか?
K-meansなどのクラスタリング手法では、ユークリッド距離が使用するメトリックです。結果として、各クラスター内の平均値のみを計算します。そして、各平均値までの距離に基づいて要素が調整されます。 ガウス関数がメトリックとして使用されないのはなぜですか?を使用する代わりにxi -mean(X)、を使用できますexp(- (xi - mean(X)).^2/std(X).^2)。したがって、クラスター間の類似性が測定されるだけでなく(平均)、クラスター内の類似性も考慮されます(標準)。これもガウス混合モデルと同等ですか? ここでは私の質問を超えていますが、平均シフトは上記と同じ質問が発生する可能性があると思います。

1
自己組織化マップとカーネルk平均法
アプリケーションの場合は、データ(潜在的に高次元)をクラスター化し、クラスターに属する確率を抽出します。現時点では、自己組織化マップまたはカーネルk-meansを使用して作業を行うことを検討しています。このタスクの各分類子の長所と短所は何ですか?この場合にパフォーマンスを発揮する可能性のある他のクラスタリングアルゴリズムがありませんか?

2
クラスタリング基準の有害な結果
座標点(経度、緯度)のクラスタリングを実行しましたが、最適なクラスタ数のクラスタリング基準からの驚くべき、不利な結果が見つかりました。基準はclusterCrit()パッケージから取得されます。プロット上でクラスター化しようとしているポイント(データセットの地理的特性がはっきりと見えます): 完全な手順は次のとおりです。 10kポイントで階層的クラスタリングを実行し、2:150クラスターのmedoidを保存しました。 (1)のmedoidを163k観測のkmeansクラスタリングのシードとして取得しました。 最適なクラスター数について、6つの異なるクラスター化基準を確認しました。 2つのクラスタリング基準のみが、私にとって意味のある結果をもたらしました-SilhouetteとDavies-Bouldin基準。どちらの場合も、プロット上で最大値を探す必要があります。どちらも「22クラスタは適切な数です」という答えを与えるようです。以下のグラフの場合:x軸はクラスターの数、y軸は基準の値です。画像の説明が間違っているため、申し訳ありません。SilhouetteとDavies-Bouldin: 次に、Calinski-HarabaszとLog_SSの値を見てみましょう。最大値はプロット上にあります。グラフは、値が高いほどクラスタリングが優れていることを示しています。このような着実な成長は驚くべきことです。150個のクラスターはすでにかなりの数になっていると思います。それぞれCalinski-HarabaszとLog_SSの値のプロットの下。 次に、最も驚くべき部分について、最後の2つの基準について説明します。Ball-Hallの場合、2つのクラスタリング間の最大の差が望ましく、Ratkowsky-Lanceの場合は最大です。Ball-HallとRatkowsky-Lanceのプロット: 最後の2つの基準は、3番目と4番目の基準よりも完全に不利な回答を示します(クラスターの数が少ないほど良い)。そんなことがあるものか?私にとっては、最初の2つの基準だけがクラスタリングを理解できたようです。0.6前後のシルエット幅はそれほど悪くありません。奇妙な答えを出す指標をスキップして、合理的な答えを与える指標を信じるべきでしょうか? 編集:22クラスターのプロット 編集する データが22のグループに非常にうまくクラスター化されていることがわかります。そのため、2つのクラスターを選択する必要があることを示す基準には弱点があるように見え、ヒューリスティックが適切に機能していません。データをプロットできる場合、またはデータを4つ未満の主成分にパックしてプロットできる場合は問題ありません。しかしそうでなければ?基準を使用する以外の方法でクラスターの数を選択するにはどうすればよいですか?CalinskiとRatkowskyが非常に良い基準であることを示すテストを見たことがありますが、それでも一見簡単なデータセットに対しては不利な結果が得られます。したがって、「なぜ結果が異なるのか」ではなく、「これらの基準をどれだけ信頼できるか」という質問ではないでしょうか。 ユークリッドメトリックが適切でないのはなぜですか?それらの間の実際の正確な距離にはあまり興味がありません。私は真の距離が球形であることを理解していますが、すべての点A、B、C、Dについて、Spheric(A、B)> Spheric(C、D)の場合は、Euclidian(A、B)> Euclidian(C、D)よりもクラスタリングメトリックには十分です。 これらのポイントをクラスター化したいのはなぜですか?予測モデルを構築したいのですが、各観測の場所に多くの情報が含まれています。それぞれの観測について、都市と地域も持っています。しかし、都市が多すぎて、たとえば5000の因子変数を作成したくありません。したがって、座標でクラスタリングすることを考えました。異なる領域の密度が異なり、アルゴリズムがそれを見つけたので、それはかなりうまくいきました、22の因子変数は大丈夫でしょう。予測モデルの結果によってクラスタリングの良さを判断することもできますが、これが計算上賢明かどうかはわかりません。新しいアルゴリズムのおかげで、巨大なデータセットで高速に動作する場合は、間違いなく試してみるつもりです。
8 r  clustering 

1
サッカーの試合を分析する:DBSCANを使用した類似の選手とTRACLUSを使用した類似の軌跡
試合中のプレーヤーの靴の近くにあるセンサーに由来するデータセットを分析しようとしています(http://www.orgs.ttu.edu/debs2013/index.php?goto=cfchallengedetails)。 クラスタリングを確認して、次のことを特定することにしました。 TRACLUSクラスタリングアルゴリズムを使用した、試合中の選手の同様の軌跡 失敗したパッセージ、失敗したクロス、ショット、タックルなどのいくつかの特性を数えることによる同様のプレーヤー。DBSCANを使用してそれらをクラスター化することを考えました。 お互いにボールを渡す回数が多いグループプレーヤー。それらをどのようにクラスタリングできますか? このタイプのデータセットから他のものを利用できますか?ポイント2で使用できる他の特性はありますか?

3
バイナリシーケンスでのクラスターの検出
私は次のようなバイナリシーケンスを持っています 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 以下の図のように、ほとんどが1のクラスターの後に多数のゼロが続きます(黒は1を表します)。 これらの1のクラスターを自動的に検出し、スパン(画像では赤い線で示されます)を生成できる手法(RまたはPythonが望ましい)を適用したいと思います。私はこれをしきい値で実行できることを知っています。つまり、2つのクラスターを少なくともn 0 で区切ってクラスターにする必要があると言いますが、事前定義されたしきい値を使用しない他の確立された方法があるのだろうかと思います。 何か案が?

3
逆共分散行列の計算の数値的不安定性
21次元データの65サンプル(ここに貼り付け)があり、それから共分散行列を構築しています。C ++で計算すると、ここに共分散行列が貼り付けられます。そして、データからMATLABで計算すると(以下に示すように)、ここに共分散行列が貼り付けられます データからcovを計算するためのMatlabコード: data = csvread('path/to/data'); matlab_cov = cov(data); 共分散行列の違いがわかるように(〜e-07)、これはおそらく浮動小数点演算を使用するコンパイラーの数値の問題が原因です。 ただし、matlabによって生成された共分散行列とC ++コードによって生成された共分散行列から疑似逆共分散行列を計算すると、大きく異なる結果が得られます。私はそれらを同じ方法で計算しています: data = csvread('path/to/data'); matlab_cov = cov(data); my_cov = csvread('path/to/cov_file'); matlab_inv = pinv(matlab_cov); my_inv = pinv(my_cov); 違いが非常に大きいため、サンプル(ここに貼り付け)から65サンプルの分布までのマハラノビス距離を次のように計算しています。 (65/642)×((sample−mean)×∑−1×(sample−mean)′)(65/642)×((sample−mean)×∑−1×(sample−mean)′)(65/64^2) \times ((sample-mean)\times {\sum}^{-1} \times (sample-mean)') 異なる逆共分散行列()を使用すると、大きく異なる結果が得られます。∑−1∑−1{\sum}^{-1} (65/(64^2))*((sample-sample_mean)*my_inv*(sample-sample_mean)') ans = 1.0167e+05 (65/(64^2))*((sample-sample_mean)*matlab_inv*(sample-sample_mean)') ans = 109.9612 共分散行列の小さな(e-7)差が疑似逆行列の計算にそのような影響を与えるのは正常ですか?もしそうなら、この影響を緩和するために私は何ができますか? これに失敗すると、逆共分散を含まない、使用できる他の距離メトリックスはありますか?私はマハラノビス距離を使用します。これは、n個のサンプルについてはベータ分布に従うため、仮説検定に使用します。 事前に感謝します EDIT:以下、共分散行列を計算するためのC ++コードを追加:vector<vector<double> >貼り付けたファイルからの行の集合を表します。 Mat …

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

2
クラスターのクリックストリームデータ
最近、機械学習の領域に入りました。現在取り組んでいるプロジェクトでは、ユーザーがWebサイトのWebページにアクセスした順序に基づいてクラスター化する必要があります。次の形式のデータがあります。 ['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...] 各番号は、ユーザーがアクセスしたカテゴリ/ページです。さらに、各ユーザーのデータの長さは同じではありません。つまり、一部のユーザーは他のページよりも多くのページにアクセスします。 これは非常にあいまいで、類似性を明確に定義していることに気づきました。私はこの研究論文の例を試してみましたが、正直に言うと、多くのことが頭に浮かびました。 この問題への取り組み方について支援が必要であり、新しいアイデアや提案を受け入れています。

3
混合モデルとディリクレプロセス混合(初級講義または論文)
オンラインクラスタリングのコンテキストでは、「ディリクレプロセス」や「有限/無限混合モデル」など、多くの論文が頻繁に出てきます。 私がディリクレ過程や混合モデルについて一度も使用したり読んだりしていないことを考えると。そのことについて、わかりやすい導入講義や論文の提案を知っていますか?

1
独立変数が自己相関している場合の標準誤差の修正
独立変数に相関関係がある場合の標準誤差の修正方法について質問があります。単純な時系列設定では、一連のラグを持つNewey-West共分散行列を使用できます。これにより、残差の相関の問題が処理されます。パネルデータ設定では何をしますか?時間の経過とともに会社を観察する状況を想像してみてください。 Y私、t= A + B Δ X私、t+ ϵ私、tYi,t=a+bΔXi,t+ϵi,t Y_{i,t} = a + b\Delta{X_{i,t}} + \epsilon_{i,t} ここで、。iとtで標準エラーをクラスタリングすると、この問題が解決するようです。私は正しいですか?Δ X私、t= X私、t− Xi 、t − nΔXi,t=Xi,t−Xi,t−n\Delta{X_{i,t}} = X_{i,t} - X_{i,t-n}私iittt

1
タクソメトリック分析(MAXCOV、MAXEIGなど)と潜在クラス分析の主な違いは何ですか?
最近の研究は、特定の心理的構成要素が潜在的に次元的であるか分類学的であるか(すなわち、分類群またはクラスを含むか)を決定しようとしました。たとえば、研究者は、怪我後に慢性疼痛を発症する可能性が高い特定の「クラス」の人々がいるかどうか、または慢性疼痛を発症するリスクが、限られたリスクから非常に高いリスク。私は、研究者が2種類の分析を使用してこれらのタイプの質問に答えようとすることに気づきました。 以下は、タキソメトリック調査の例です。 不安過敏症の分類学:多国籍分析 不確実性構造の不寛容の潜在構造の評価:初期の分類学的分析 潜在クラス分析を使用した例をいくつか示します。 最近発症したタバコ喫煙者で観察された経験に由来するタバコ依存症候群の潜在クラス:全国確率サンプル調査からの疫学的証拠 外傷後ストレス障害の構造:2つのコミュニティサンプルの潜在クラス分析 ここに私の質問があります: 英語で、これら2つのタイプの分析の主な違いは何ですか?可能であれば、彼らが異なる質問に答えるかどうか、そしてそれらが分析的に(数学的に)どのように異なるかを詳しく説明します。 私の「紹介」で強調した質問のタイプに答えるのにどちらが良いですか、そしてなぜですか?おそらく、これは現時点では本当に答えられないでしょう。 また、このトピックに関連すると思われる情報を共有してください。フォローアップ質問がある気がします!

1
名義属性を持つ順次データの分析のためのデータマイニングアプローチ
経験豊富なデータマイナーへの質問: このシナリオを考えると: N個のショッピングカートがあります 各ショッピングカートには、無限に大きいセットからの任意の数のMアイテムが入っています(私が持っている現在のデータ量では、その任意の数は約1500に達する可能性があります)。 各カートが満たされる順序は重要です 買い物客の地理位置情報などの他の属性もありますが、アルゴリズムをより簡単にするために、これらの属性を破棄することができます(現在は除外しています)。 する必要がある: 特定の時点で、各カートに注文されたアイテムのセットのみが与えられている場合、クラスラベルの事前の知識がなくても「類似した」カートを識別します 一定量のデータが収集され、データが処理されてラベルが割り当てられたら、将来の目に見えないデータをすばやく処理できる分類子を作成します 最初のアプローチ: これまでのところ、私のアプローチは最初の点に焦点を当ててきました。私の方法では、k平均クラスタリングを使用し、カート間のハミング距離を計算して生成された距離行列を使用して、データの順次的な性質を処理します。このように、[りんご、バナナ、梨]は[梨、りんご、バナナ]とは異なりますが、[りんご、バナナ、梨]は[りんご、バナナ、カモシカ]とそれほど異なりません。kの適切な値は、シルエット係数の調査を通じて決定されます。これから生成されたクラスターは理にかなっているように見えますが、私のデータセットがスケーリングするため、私のメソッドの実行時間は明らかに禁止されます。 質問: 誰かがこの問題について初心者のデータマイナーに何か提案をすることはありますか? 詳細情報を含む編集: n-gram機能を使用してペアで比較することを検討する提案を見つけました。これについて私が懸念しているのは順序です。n-gramモデルが使用されている場合、シーケンスの順序は維持されますか?また、この方法ではパフォーマンスの問題が発生する可能性が高くなります。

1
時系列クラスタリング
この形式の多くの時系列があり、日付(d / m / yr)形式の1列と、次のようなさまざまな時系列を表す多くの列があります。 DATE TS1 TS2 TS3 ... 24/03/2003 0.00 0.00 ... 17/04/2003 -0.05 1.46 11/05/2003 0.46 -3.86 04/06/2003 -2.21 -1.08 28/06/2003 -1.18 -2.16 22/07/2003 0.00 0.23 Rを使用して、同様の傾向を示す時系列をどのようにグループ化できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.