Facebookアプリケーションのデータベースがあり、機械学習を使用して、ユーザーが好きなFacebookサイトに基づいてユーザーの年齢を推定しようとしています。
私のデータベースには3つの重要な特徴があります。
私のトレーニングセットの年齢分布(合計で1万2,000ユーザー)は若いユーザーに偏っています(つまり、27歳の1157ユーザーと65歳の23ユーザー)。
多くのサイトには、5人以下のLikerがあります(5人未満のLikerでFBサイトを除外しました)。
サンプルよりも多くの機能があります。
したがって、私の質問は次のとおりです。さらなる分析のためにデータを準備するためにどのような戦略を提案しますか?何らかの次元削減を実行する必要がありますか?この場合、どのMLメソッドを使用するのが最も適切でしょうか?
私は主にPythonを使用しているため、Python固有のヒントをいただければ幸いです。