例外ログ、データベースログ、イベントログなどを含むアプリケーションのサーバーログを分析するためにこのタスクが割り当てられました。機械学習は初めてで、Sparkをエラスティック検索とSparks MLlib(またはPredictionIO)で使用しています。結果は、収集された例外ログに基づいて予測できるようになり、次の例外を発生させる可能性が高いユーザーと機能(および追跡してアプリケーションの最適化を改善する他の要素)を予測できるようになります。
ElasticSearchからSparkにデータを取り込み、DataFrameを作成して必要なデータをマッピングすることに成功しました。私が知りたいのは、実装の機械学習の側面にどのように取り組むかです。私は、データの前処理、データモデルのトレーニング、ラベルの作成、そして予測の生成について説明する記事や論文を読みました。
私が持っている質問は
既存のログデータを、トレーニングするデータセットに使用できる数値ベクトルに変換する方法を教えてください。
データセットをトレーニングするためにどのアルゴリズムを使用しますか?
この問題へのアプローチ方法に関する提案を探しています。
ありがとうございました。