私はあなたの質問に答えようとしますが、「大きな」は相対的な概念であるため、「大きなデータセット」という用語を使用することは誤解を招きます。詳細を入力する必要があります。入札データを扱っている場合、この事実は、データ分析のための優先ツール、アプローチ、アルゴリズムの選択に影響を与える可能性が最も高くなります。以下のデータ分析についての私の考えがあなたのサブ質問に対処することを願っています。私のポイントの番号がサブ質問の番号と一致しないことに注意してください。ただし、一般的なデータ分析ワークフローを反映していると思います。少なくとも、私がそれをどのように理解しているかです。
1)まず、少なくともある種の概念モデルを念頭に置いておく必要があると思います(または、より適切には、紙の上で)。このモデルは、探索的データ分析(EDA)に役立つはずです。モデルに従属変数(DV)が存在するということは、分析の後半の機械学習(ML)フェーズで、いわゆる監視されたMLと対比されることを意味します。
2)次に、EDAは重要な部分です。IMHO、EDAには、データについての理解を深めるために、記述統計とデータの視覚化を生成する複数の反復を含める必要があります。このフェーズでは、データセットに関する貴重な洞察が得られるだけでなく、次の重要なフェーズであるデータのクリーニングと変換にも役立ちます。生データを統計ソフトウェアパッケージに投入するだけではそれほど効果はありません。有効な統計分析では、データはクリーンで正確で一貫している必要があります。これは多くの場合、最も時間と労力を要しますが、絶対に必要な部分です。このトピックの詳細については、次のすばらしい論文を読んでください。http://vita.had.co.nz/papers/tidy-data.pdf(ハドリーウィッカムによる)とhttp://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf(でEdwin de JongeおよびMark van der Loo)。
3)これで、データのクリーンアップと変換だけでなく、EDAの作業も完了したので、統計に関連するフェーズを開始する準備ができました。そのようなフェーズの1つは、データの基礎となる構造を抽出できる探索的因子分析(EFA)です。多数の変数を含むデータセットの場合、EFAのプラスの副作用は次元削減です。そして、その意味ではEFAは主成分分析(PCA)に似ていますその他の次元削減アプローチでは、EFAはデータが「記述する」現象の概念モデルを洗練し、データセットを理解できるため、より重要であると思います。もちろん、EFAに加えて、前のフェーズでの発見に基づいて、回帰分析を実行したり、機械学習手法を適用したりできます。
最後に、ソフトウェアツールに関する注意事項。私の意見では、統計ソフトウェアパッケージの現状は、ほとんどすべての主要なソフトウェアパッケージが機能的に同等の製品を提供しているような時点にあります。ソフトウェアツールに関して特定のポリシーと設定がある組織で勉強または仕事をしている場合、それらに制約されます。ただし、そうでない場合は、特定のプログラミング言語の快適さ、学習曲線、およびキャリアの視点に基づいて、オープンソースの統計ソフトウェアを強くお勧めします。現在選択しているプラットフォームはRプロジェクトですは、パッケージ、エキスパート、および愛好家の驚くべきエコシステムとともに、成熟した、強力で、柔軟で、広範囲にわたるオープンな統計ソフトウェアを提供します。その他の優れた選択肢には、Python、Julia、およびHadoop、Spark、NoSQLデータベース、WEKAなどのビッグデータを処理するための特定のオープンソースソフトウェアが含まれます。以下のためのオープンソースソフトウェアのその他の例については、データマイニング:一般的および具体的な統計やMLのソフトウェアが含まれ、Wikipediaのページのこのセクションを参照http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applicationsを。
更新:Rattle(http://rattle.togaware.com)について言及するのを忘れました。これは、データマイニング用の非常に人気のあるオープンソースのR指向GUIソフトウェアでもあります。