私はRuby(1.9)でクローラーを書いています。このクローラーは、多くのランダムサイトから大量のHTMLを消費します。
リンクを抽出するとき.scan(/href="(.*?)"/i)
に、nokogiri / hpricot(大幅なスピードアップ)の代わりに使用することにしました。問題は、多くの " invalid byte sequence in UTF-8
"エラーが発生することです。
私が理解したことから、net/http
ライブラリにはエンコーディング固有のオプションがなく、入ってくるものは基本的に適切にタグ付けされていません。
その着信データを実際に処理する最良の方法は何でしょうか?.encode
置換と無効なオプションを設定して試しましたが、今のところ成功していません...
'U*'
元に戻しますか'C*'
?