データサイエンス aws

3

Amazon RedShiftは〜1XTBデータのHadoopを置き換えますか？

Hadoopとそのエコシステムを取り巻く多くの誇大宣伝があります。しかし、実際には、多くのデータセットがテラバイトの範囲にある場合、Hadoopクラスターの構築に時間と労力を費やすのではなく、大きなデータセットのクエリにAmazon RedShiftを使用する方が合理的ではありませんか？また、セットアップの複雑さ、コスト、パフォーマンスに関して、Amazon RedshiftはHadoopと比較してどうですか？

12 apache-hadoop map-reduce aws

3

EC2を使用する場合のインスタンスとコア

「中規模データ」プロジェクトと呼ばれることが多いものに取り組んで、4〜32コアのどこでも単一のシステムでコードを並列化できました（主にPythonでのモデリングと予測）。現在、EC2上のクラスターへのスケールアップを検討しており（おそらくStarCluster / IPythonを使用していますが、他の提案も受け入れています）、インスタンス上のクラスターとインスタンス上のコアに分散する作業を調整する方法に困惑しています。インスタンス間および各インスタンスのコア間で並列化することは実際的ですか？もしそうなら、誰もがコアの少ないインスタンス対コアの多いインスタンスをいくつか実行することの長所と短所を簡単に説明できますか？インスタンスごとのコアに対するインスタンスの適切な比率を選択するための経験則はありますか？帯域幅とRAMは私のプロジェクトでは些細な問題ではありませんが、それらがボトルネックになっていて再調整するのは簡単です。繰り返しテストすることなく、コアの適切な組み合わせをインスタンスにベンチマークすることは非常に難しく、単一のテストをすべての状況に適用するにはプロジェクトがあまりにも多様です。事前に感謝します。これを適切にグーグルで検索できなかった場合は、他の場所で正しい答えを教えてください。

12 parallel clusters aws

4

ウェブ上の大きなデータセットをAWS S3に直接ダウンロードする

大規模なデータセットをURLからAmazon S3にインポートできるかどうか誰かが知っていますか？基本的に、私は巨大なファイルをダウンロードして、それをWebポータルからS3に再アップロードしないようにします。ダウンロードURLをS3に提供し、ファイルシステムにダウンロードされるのを待ちたいだけです。簡単なことのように思えますが、ドキュメントが見つかりません。

12 dataset aws

3

科学計算に最適な言語[終了]

閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか？さらに、どの言語が最もパフォーマンスが高くなりますか？PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか？さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

タグ付けされた質問 「aws」

タグ付けされた質問「aws」