バイクラスタリングの概要


9

私は、バイクラスターに関するカジュアルなインターネット調査を行っています。(私はWikiの記事を何度か読みました。)これまでのところ、定義や標準的な用語がほとんどないようです。

  1. バイクラスターを見つけるためのアルゴリズムに興味がある人なら誰でも読むべき標準的な論文や本があるのか​​と思っていました。

  2. この分野の最新技術とは何でしょうか。遺伝的アルゴリズムを使用してバイクラスターを見つけるという概念に興味をそそられたので、特に他のアプローチのコンテキストでそのアプローチについてコメントをいただければ幸いです。

  3. 通常、クラスタリングの目的は、データセットをグループに分割して、各要素がいくつかのグループに含まれるようにすることです。バイクラスターアルゴリズムは、すべての要素を特定のグループに配置することも試みますか?

回答:


16

私はそれを直接使用したことがないので、私が持っていたいくつかの論文とその手法に関する一般的な考え(主にあなたの質問1と3に対処する)しか共有できません。

バイクラスタリングに関する私の一般的な理解は主に、遺伝子のクラスターと個人のグループ化を説明しようとする遺伝学的研究(2-6)から来ています。たとえば、病状など)このパターンの遺伝子プロファイリングに寄与する遺伝子。生物学的「大規模」データセットの最先端の調査は、パルダロスのスライドであるBiclusteringにあります。マイクロアレイデータへのアプリケーションを備えたRパッケージbiclustがあることに注意してください。

実際、私の最初のアイデアは、この方法論を臨床診断に適用することでした。これは、特徴または変数を複数のクラスターに入れることができるためです。これは、集まる症状によって症候群を定義できるため、一部の症状では、さまざまな病気で重複しています。良い議論は、Cramer et al。、Comorbidity:a network Perspective(Behavioral and Brain Sciences 2010、33、137-193)にあります。

やや関連する手法は、協調フィルタリングです。優れたレビューがSuおよびKhoshgoftaar(人工知能の進歩、2009年)によって利用可能になりました:共同フィルタリング技術の調査。その他の参考文献は最後に記載されています。マーケットバスケット問題で例示されているように、頻繁なアイテムセットの分析もそれにリンクされているかもしれませんが、これを調査したことはありません。共同クラスタリングのもう1つの例は、テキストマイニングのように単語とドキュメントを同時にクラスタリングする場合です(例:Dhillon(2001))。2部構成のスペクトルグラフ分割を使用したドキュメントと単語の共クラスタリング手続き KDD、269〜274ページ。

いくつかの一般的な参考文献について、以下はあまり網羅的なリストではありませんが、役立つと思います。

  1. Jain、AK(2010)。データのクラスタリング:K平均を超えて50年パターン認識レター31、651から666
  2. Carmona-Saez et al。(2006)。非滑らかな非負行列因数分解による遺伝子発現データのバイクラスタリングBMCバイオインフォマティクス7、78。
  3. Prelic et al。(2006)。遺伝子発現データのバイクラスタリング手法の体系的な比較と評価バイオインフォマティクス22(9)、1122-1129。www.tik.ee.ethz.ch/sop/bimax
  4. DiMaggio et al。(2008)。システム生物学におけるデータマトリックスの最適な並べ替えによるバイクラスタリング:厳密な方法と比較研究BMCバイオインフォマティクス9、458。
  5. サンタマリア他 (2008)。BicOverlapper:バイクラスターの視覚化のためのツールバイオインフォマティクス24(9)、1212-1213。
  6. サウスカロライナ州マデイラおよびアラバマ州オリベイラ(2004)生物学的データ分析用のBiclusterアルゴリズム:調査IEEEトランス。計算。バイオル。バイオインフォーム。1、24から45。
  7. Badea、L.(2009)。重複するバイクラスターの一般化されたクラスターグラム。IJCAI
  8. Symeonidis、P.(2006)。Nearest-Biclusters Collaborative Filtering。WEBKDD

1
すばらしい答えです。私がもう一度投票した場合、私はこの回答にもう一度投票します。
ヘンリーB.

@chlパルダロスのスライドへの最初のリンクは機能していないようです。誰かが別の場所を知っていますか?
エリック

@Erikスライドの資料のほとんどは、同じ著者によるフラクショナル0–1プログラミングによる一貫したバイクラスタリングにあります。(スライドの内容をデッドリンクのコピーで確認しました。)
2013年

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.