回答:
cheerioもあり、jQueryインターフェースを備えており、以前のバージョンのjsdomよりもはるかに高速ですが、最近のパフォーマンスは似ています。
ストリーミングパーサーであるhtmlparser2を見てみたいと思うかもしれません。そのベンチマークによれば、他のものよりも高速で、デフォルトではDOMがないようです。DOMを作成するハンドラーにもバンドルされているため、DOMを生成することもできます。これはcheerioで使用されるパーサーです。
parse5も良い解決策のように見えます。これはかなりアクティブで(このアップデートの時点での最後のコミットから11日)、WHATWGに準拠しており、jsdom、Angular、Polymerで使用されています。
また、WebスクレイピングのためにHTMLを解析する場合は、YQL 1を使用できます。そのためのノードモジュールがあります。YQL 自分のコードや処理能力ではなくサービスに依存しているため、HTMLが静的な Webサイトからのものである場合、私は最良のソリューションだと思います。ただし、ウェブサイトのrobot.txtによってページが許可されていない場合は機能しませんが、YQLは機能しません。
スクレイピングしようとしているWebサイトが動的である場合は、phantomjsなどのヘッドレスブラウザを使用する必要があります。phantomjsを検討している場合は、casperjsもご覧ください。そして、あなたが持つノードからcasperjsを制御することができSpookyJS。
phantomjsの横にzombiejsがあります。nodejsに埋め込むことができないphantomjsとは異なり、zombiejsは単なるノードモジュールです。
ありますtoturial nettuts +後者の解決策については。
図1に示すように 2014年8月以来、YQLための要件であるYUIライブラリは、もはや積極的に維持されていないソースを
https://github.com/tmpvar/jsdomを試してください。HTMLをいくつか与えると、DOMを与えます。