多くのパーサーをコーディングしています。これまでは、解析とブラウザーの自動化にHtmlUnitヘッドレスブラウザーを使用していました。
ここで、両方のタスクを分離したいと思います。
私の作業の80%は解析のみを含むため、HtmlUnitで最初にページをロードしてからソースを取得して解析するのに時間がかかるため、軽量のHTMLパーサーを使用したいと考えています。
どのHTMLパーサーが最適か知りたい。HtmlUnitパーサーに近い場合、パーサーの方が優れています。
編集:
せいぜい、私は少なくとも以下の機能が欲しいです:
- 速度
- 「id」、「name」、「tag type」でHtmlElementを見つけやすくなります。
汚れたHTMLコードをクリーンアップしないのであれば、私には問題ありません。HTMLソースをクリーンアップする必要はありません。HtmlElement間を移動してデータを収集する最も簡単な方法が必要です。