最近、正規表現を使用してWebサイトのHTMLを解析し、必要なデータを取得するのが最善の行動ではないことを学びました。
だから私の質問は簡単です:それでは、このデータを取得するための最良/最も効率的で一般的に安定した方法は何ですか?
私はそれに注意する必要があります:
- APIはありません
- データを取得できる他のソースはありません(データベース、フィードなどはありません)
- ソースファイルへのアクセスはありません。(公開ウェブサイトからのデータ)
- データがHTMLページのテーブルに表示される通常のテキストであるとしましょう
私は現在、私のプロジェクトにpythonを使用していますが、言語に依存しないソリューション/ヒントがいいでしょう。
副次的な質問として、WebページがAjax呼び出しによって構築された場合、どのように対処しますか?
編集:
HTML解析の場合、データを取得する実際の安定した方法はないことを知っています。ページが変更されるとすぐに、パーサーが完了します。この場合の安定とは、ページを解析する効率的な方法です。ページが変更されない限り、同じデータセットに対して(同じデータセットに対して)常に同じ結果が渡されます。