Pythonリスト/辞書/オブジェクトの形式でタグを取得するのに役立つPython用のHTMLパーサーモジュールを探しています。
次の形式のドキュメントがある場合:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
次に、HTMLタグの名前またはIDを介してネストされたタグにアクセスする方法を提供します。これにより、基本的に、div
タグclass='container'
内に含まれているbody
タグ内のコンテンツ/テキスト、または類似のものを取得するように要求できます。
Firefoxの「要素の検査」機能(HTMLの表示)を使用している場合は、ツリーのように入れ子になった方法ですべてのタグが提供されることがわかります。
ビルトインモジュールの方がいいと思いますが、少し質問しすぎるかもしれません。
私はStack Overflowとインターネット上のいくつかのブログで多くの質問をしました、そしてそれらのほとんどはBeautifulSoupまたはlxmlまたはHTMLParserを提案しますが、これらのいくつかは機能を詳述し、どちらがより速く/より効率的かについての議論として終わります。