Pythonリクエストモジュールを使用してPDFファイルをダウンロードして保存します

Question 1

WebサイトからPDFファイルをダウンロードしてディスクに保存しようとしています。私の試みはエンコードエラーで失敗するか、PDFが空白になります。

In [1]: import requests

In [2]: url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'

In [3]: response = requests.get(url)

In [4]: with open('/tmp/metadata.pdf', 'wb') as f:
   ...:     f.write(response.text)
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-4-4be915a4f032> in <module>()
      1 with open('/tmp/metadata.pdf', 'wb') as f:
----> 2     f.write(response.text)
      3 

UnicodeEncodeError: 'ascii' codec can't encode characters in position 11-14: ordinal not in range(128)

In [5]: import codecs

In [6]: with codecs.open('/tmp/metadata.pdf', 'wb', encoding='utf8') as f:
   ...:     f.write(response.text)
   ...:

ある種のコーデックの問題であることは知っていますが、機能させることができないようです。

Question 2

response.contentこの場合は、次を使用する必要があります。

with open('/tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

ドキュメントから：

テキスト以外のリクエストの場合は、応答本文にバイトとしてアクセスすることもできます。
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

つまりresponse.text、出力を文字列オブジェクトとして返し、テキストファイルをダウンロードするときに使用します。HTMLファイルなど。

そしてresponse.content、出力をバイトオブジェクトとして返し、バイナリファイルをダウンロードするときに使用します。PDFファイル、オーディオファイル、画像など。

response.raw代わりにを使用することもできます。ただし、ダウンロードしようとしているファイルが大きい場合に使用してください。以下は、ドキュメントにも記載されている基本的な例です。

import requests

url = 'http://www.hrecos.org//images/Data/forweb/HRTVBSH.Metadata.pdf'
r = requests.get(url, stream=True)

with open('/tmp/metadata.pdf', 'wb') as fd:
    for chunk in r.iter_content(chunk_size):
        fd.write(chunk)

chunk_size使用するチャンクサイズです。に設定すると2000、リクエストはそのファイルの最初の2000バイトをダウンロードしてファイルに書き込み、終了しない限り、これを何度も繰り返します。

したがって、これによりRAMを節約できます。ただしresponse.content、ファイルが小さいため、この場合は代わりに使用することをお勧めします。ご覧のとおり、使用response.rawは複雑です。

関連：

Webページ上のすべてのPDFファイルを見つけてダウンロードするための適切な説明/解決策は次のとおりです。

https://medium.com/@dementorwriter/notesdownloader-use-web-scraping-to-download-all-pdfs-with-python-511ea9f55e48

Question 6

私は初心者ですのでご注意ください。私の解決策が間違っている場合は、遠慮なく修正するか、私に知らせてください。私も何か新しいことを学ぶかもしれません。

私の解決策：

ファイルを保存する場所に応じてdownloadPathを変更します。絶対パスも自由に使用してください。

以下をdownloadFile.pyとして保存します。

使用法： python downloadFile.py url-of-the-file-to-download new-file-name.extension

拡張機能を追加することを忘れないでください！

使用例： python downloadFile.py http://www.google.co.uk google.html

import requests
import sys
import os

def downloadFile(url, fileName):
    with open(fileName, "wb") as file:
        response = requests.get(url)
        file.write(response.content)


scriptPath = sys.path[0]
downloadPath = os.path.join(scriptPath, '../Downloads/')
url = sys.argv[1]
fileName = sys.argv[2]      
print('path of the script: ' + scriptPath)
print('downloading file to: ' + downloadPath)
downloadFile(url, downloadPath + fileName)
print('file downloaded...')
print('exiting program...')

Question 7

フォルダーに書き込むためのKevinの回答に関してtmpは、次のようになります。

with open('./tmp/metadata.pdf', 'wb') as f:
    f.write(response.content)

彼.はアドレスの前に忘れていました、そしてもちろんあなたのフォルダtmpはすでに作成されているはずです