5
安定した効率的な方法でWebページからデータを取得する
最近、正規表現を使用してWebサイトのHTMLを解析し、必要なデータを取得するのが最善の行動ではないことを学びました。 だから私の質問は簡単です:それでは、このデータを取得するための最良/最も効率的で一般的に安定した方法は何ですか? 私はそれに注意する必要があります: APIはありません データを取得できる他のソースはありません(データベース、フィードなどはありません) ソースファイルへのアクセスはありません。(公開ウェブサイトからのデータ) データがHTMLページのテーブルに表示される通常のテキストであるとしましょう 私は現在、私のプロジェクトにpythonを使用していますが、言語に依存しないソリューション/ヒントがいいでしょう。 副次的な質問として、WebページがAjax呼び出しによって構築された場合、どのように対処しますか? 編集: HTML解析の場合、データを取得する実際の安定した方法はないことを知っています。ページが変更されるとすぐに、パーサーが完了します。この場合の安定とは、ページを解析する効率的な方法です。ページが変更されない限り、同じデータセットに対して(同じデータセットに対して)常に同じ結果が渡されます。