ある製品のいくつかのログファイルにデータセットを構築しようとしています。
異なるログファイルには、独自のレイアウトとコンテンツがあります。私はそれらを一緒にグループ化することに成功しました、あと1ステップだけ...
確かに、ログ「メッセージ」は最良の情報です。私はそれらすべてのメッセージの包括的なリストを持っているわけではありません。そのリストは毎日変更される可能性があるため、それらに基づいてハードコードすることは悪い考えです。
私がやりたいのは、識別テキストを値テキストから分離することです(たとえば、「ロードされたファイルXXX」は(識別:「ロードされたファイル」、値:「XXX」)になります)。残念ながら、この例は単純であり、実際にはさまざまなレイアウトがあり、場合によっては複数の値があります。
文字列カーネルを使用することを考えていましたが、クラスタリングを目的としています...そしてクラウティングはここでは適用されません(メッセージのさまざまなタイプの数はわかりませんが、多すぎます)。
何か考えはありますか?
ご協力いただきありがとうございます。
PS:プログラミングをしている人にとっては、これは理解しやすいかもしれません。コードにログが含まれているとしましょうprintf( "blabla%s"、 "xxx")-> "blabla"と "xxx"を分離させたい