プログラミング html-content-extraction

30

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 6年前休業。 HTMLスクレイピング用のPythonパッケージであるBeautiful Soupを試すことを考えています。私が見るべき他のHTMLスクレイピングパッケージはありますか？Pythonは必須ではありません。実際、他の言語についても聞きたいと思っています。これまでの話：パイソン美しいスープ lxml HTQL スクレイピー機械化ルビーのこぎりプリコット機械化 scrAPI scRUBYt！ウォンバットワティル。ネット HTMLアジリティパック WatiN Perl WWW :: Mechanize ウェブスクレーパージャワタグスープ HtmlUnit ウェブ収穫 jARVEST jsoup Jericho HTMLパーサー JavaScript リクエスト Cheerio アルトゥーノードホースマン phantomjs PHP グート htmlSQL PHPシンプルHTML DOMパーサー CURLによるPHPのスクレイピング ScarletsQuery それらのほとんど …

406 html web-scraping html-parsing html-content-extraction

30

Pythonを使用してHTMLファイルからテキストを抽出する

Pythonを使用してHTMLファイルからテキストを抽出したいと思います。ブラウザーからテキストをコピーしてメモ帳に貼り付けた場合と基本的に同じ出力が必要です。整形式のHTMLで失敗する可能性がある正規表現を使用するよりも堅牢なものを望みます。多くの人がBeautiful Soupを推奨するのを見てきましたが、それを使用する際にいくつか問題がありました。1つは、JavaScriptソースなどの不要なテキストを取得することです。また、HTMLエンティティは解釈されませんでした。たとえば、私は＆＃39;を期待しますブラウザのコンテンツをメモ帳に貼り付けたかのように、HTMLソースでテキストのアポストロフィに変換されます。アップデート html2textは有望に見えます。HTMLエンティティを正しく処理し、JavaScriptを無視します。ただし、プレーンテキストは正確には生成されません。それは、プレーンテキストに変換する必要があるマークダウンを生成します。例やドキュメントはありませんが、コードはきれいに見えます。関連する質問： HTMLタグをフィルターで除外し、Pythonでエンティティを解決する PythonでXML / HTMLエンティティをUnicode文字列に変換する

243 python html text html-content-extraction

8

正規表現一致の一部を抽出する

HTMLページからタイトルを抽出する正規表現が必要です。現在私はこれを持っています： title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') <title>のコンテンツのみを抽出する正規表現はありますか？タグを削除する必要はありませんか？

130 python html regex html-content-extraction

10

BeautifulSoup Grab Visible Webpage Text

基本的に、BeautifulSoupを使用して、Webページに表示されるテキストを厳密に取得します。たとえば、このウェブページは私のテストケースです。そして、私は主に本文テキスト（記事）を取得したいと思っています。このSOの質問で<script>、不要なタグやHTMLコメントを多数返す提案を試しました。findAll()Webページに表示されるテキストを取得するためだけに、関数に必要な引数を理解できません。それで、スクリプト、コメント、CSSなどを除くすべての表示テキストをどのように見つければよいですか？

124 python text beautifulsoup html-content-extraction

タグ付けされた質問 「html-content-extraction」

タグ付けされた質問「html-content-extraction」