タグ付けされた質問 「clusters」

4
クラスタリングする前にデータを標準化する必要はありますか?
クラスター化する前にデータを標準化する必要がありますか?以下からの例ではscikit learnDBSCANについて、ここで彼らはラインで次の操作を行います。 X = StandardScaler().fit_transform(X) しかし、なぜそれが必要なのかわかりません。結局のところ、クラスタリングはデータの特定の分布を想定していません-それは教師なしの学習方法なので、その目的はデータを探索することです。 なぜデータを変換する必要があるのですか?

3
EC2を使用する場合のインスタンスとコア
「中規模データ」プロジェクトと呼ばれることが多いものに取り組んで、4〜32コアのどこでも単一のシステムでコードを並列化できました(主にPythonでのモデリングと予測)。現在、EC2上のクラスターへのスケールアップを検討しており(おそらくStarCluster / IPythonを使用していますが、他の提案も受け入れています)、インスタンス上のクラスターとインスタンス上のコアに分散する作業を調整する方法に困惑しています。 インスタンス間および各インスタンスのコア間で並列化することは実際的ですか?もしそうなら、誰もがコアの少ないインスタンス対コアの多いインスタンスをいくつか実行することの長所と短所を簡単に説明できますか?インスタンスごとのコアに対するインスタンスの適切な比率を選択するための経験則はありますか? 帯域幅とRAMは私のプロジェクトでは些細な問題ではありませんが、それらがボトルネックになっていて再調整するのは簡単です。繰り返しテストすることなく、コアの適切な組み合わせをインスタンスにベンチマークすることは非常に難しく、単一のテストをすべての状況に適用するにはプロジェクトがあまりにも多様です。事前に感謝します。これを適切にグーグルで検索できなかった場合は、他の場所で正しい答えを教えてください。
12 parallel  clusters  aws 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.