タグ付けされた質問 「html-content-extraction」

30
HTMLスクレイピングのオプション?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 6年前休業。 HTMLスクレイピング用のPythonパッケージであるBeautiful Soupを試すことを考えています。私が見るべき他のHTMLスクレイピングパッケージはありますか?Pythonは必須ではありません。実際、他の言語についても聞きたいと思っています。 これまでの話: パイソン 美しいスープ lxml HTQL スクレイピー 機械化 ルビー のこぎり プリコット 機械化 scrAPI scRUBYt! ウォンバット ワティル 。ネット HTMLアジリティパック WatiN Perl WWW :: Mechanize ウェブスクレーパー ジャワ タグスープ HtmlUnit ウェブ収穫 jARVEST jsoup Jericho HTMLパーサー JavaScript リクエスト Cheerio アルトゥー ノードホースマン phantomjs PHP グート htmlSQL PHPシンプルHTML DOMパーサー CURLによるPHPのスクレイピング ScarletsQuery それらのほとんど …

30
Pythonを使用してHTMLファイルからテキストを抽出する
Pythonを使用してHTMLファイルからテキストを抽出したいと思います。ブラウザーからテキストをコピーしてメモ帳に貼り付けた場合と基本的に同じ出力が必要です。 整形式のHTMLで失敗する可能性がある正規表現を使用するよりも堅牢なものを望みます。多くの人がBeautiful Soupを推奨するのを見てきましたが、それを使用する際にいくつか問題がありました。1つは、JavaScriptソースなどの不要なテキストを取得することです。また、HTMLエンティティは解釈されませんでした。たとえば、私は'を期待します ブラウザのコンテンツをメモ帳に貼り付けたかのように、HTMLソースでテキストのアポストロフィに変換されます。 アップデート html2textは有望に見えます。HTMLエンティティを正しく処理し、JavaScriptを無視します。ただし、プレーンテキストは正確には生成されません。それは、プレーンテキストに変換する必要があるマークダウンを生成します。例やドキュメントはありませんが、コードはきれいに見えます。 関連する質問: HTMLタグをフィルターで除外し、Pythonでエンティティを解決する PythonでXML / HTMLエンティティをUnicode文字列に変換する

8
正規表現一致の一部を抽出する
HTMLページからタイトルを抽出する正規表現が必要です。現在私はこれを持っています: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') <title>のコンテンツのみを抽出する正規表現はありますか?タグを削除する必要はありませんか?

10
BeautifulSoup Grab Visible Webpage Text
基本的に、BeautifulSoupを使用して、Webページに表示されるテキストを厳密に取得します。たとえば、このウェブページは私のテストケースです。そして、私は主に本文テキスト(記事)を取得したいと思っています。このSOの質問で<script>、不要なタグやHTMLコメントを多数返す提案を試しました。findAll()Webページに表示されるテキストを取得するためだけに、関数に必要な引数を理解できません。 それで、スクリプト、コメント、CSSなどを除くすべての表示テキストをどのように見つければよいですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.