以下のような10,000遺伝子のデータセットがあります
person gene1 gene2 ... gene10000 ethnic
1 0 1 1 asian
2 1 0 1 European
各行は、人がDNAに遺伝子を持っているかどうかを意味します。上記のデータに基づいて、さまざまな民族グループを分類しようとしています。しかし、最初にいくつかのクラスタリングアルゴリズムを使用して、さまざまな民族グループのクラスターがどのように見えるかを視覚化したいと思います。このクラスタリングアルゴリズムを使用してグループを分類することはありません。適切な個別のクラスターや重複するクラスターなどがある場合、それがどのように見えるかを視覚化するためだけに使用されます。
このタイプのデータセットには、いくつかのクラスタリングアルゴリズムをお勧めします。また、次元は10000です。これはクラスタリングの問題になるのでしょうか?最初にいくつかの次元削減アルゴリズムを使用する必要がありますか?もしそうなら、あなたの推奨事項を教えてください。前もって感謝します。