ファイルをダウンロードしない場合のリモートファイルサイズ


回答:


100

ここでこれについて何かを見つけまし

リモートファイルのサイズを取得するための(私が見つけた)最良の方法は次のとおりです。HEADリクエストはリクエストの実際の本文を取得せず、ヘッダーを取得するだけであることに注意してください。したがって、100MBのリソースへのHEADリクエストの作成には、1KBのリソースへのHEADリクエストと同じ時間がかかります。

<?php
/**
 * Returns the size of a file without downloading it, or -1 if the file
 * size could not be determined.
 *
 * @param $url - The location of the remote file to download. Cannot
 * be null or empty.
 *
 * @return The size of the file referenced by $url, or -1 if the size
 * could not be determined.
 */
function curl_get_file_size( $url ) {
  // Assume failure.
  $result = -1;

  $curl = curl_init( $url );

  // Issue a HEAD request and follow any redirects.
  curl_setopt( $curl, CURLOPT_NOBODY, true );
  curl_setopt( $curl, CURLOPT_HEADER, true );
  curl_setopt( $curl, CURLOPT_RETURNTRANSFER, true );
  curl_setopt( $curl, CURLOPT_FOLLOWLOCATION, true );
  curl_setopt( $curl, CURLOPT_USERAGENT, get_user_agent_string() );

  $data = curl_exec( $curl );
  curl_close( $curl );

  if( $data ) {
    $content_length = "unknown";
    $status = "unknown";

    if( preg_match( "/^HTTP\/1\.[01] (\d\d\d)/", $data, $matches ) ) {
      $status = (int)$matches[1];
    }

    if( preg_match( "/Content-Length: (\d+)/", $data, $matches ) ) {
      $content_length = (int)$matches[1];
    }

    // http://en.wikipedia.org/wiki/List_of_HTTP_status_codes
    if( $status == 200 || ($status > 300 && $status <= 308) ) {
      $result = $content_length;
    }
  }

  return $result;
}
?>

使用法:

$file_size = curl_get_file_size( "http://stackoverflow.com/questions/2602612/php-remote-file-size-without-downloading-file" );

4
ただし、Content-lengthがなくても応答が発生する可能性があることに注意してください。
VolkerK 2010

4
curl_getinfo@mackiが示唆するように、使用する方が良いのではないでしょうか?
Svish 2012

1
@Svish、はい、そのアプローチが実際に機能するためです。ここで紹介するアプローチは、(必然的に?)最終的なContent-Lengthではない最初のContent-Lengthを取得するため、リダイレクトされたURLでは失敗します。私の経験では。
ボビージャック

12
get_user_agent_string()定義されていないので、これは私にとってはうまくいきませんでした。行全体を削除すると、すべてが機能しました。
ラプティ2015年

1
で試験したとき、これは失敗:http://www.dailymotion.com/rss/user/dialhainaut/SOを参照:stackoverflow.com/questions/36761377/...
ErickBest

63

このコードを試してください

function retrieve_remote_file_size($url){
     $ch = curl_init($url);

     curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
     curl_setopt($ch, CURLOPT_HEADER, TRUE);
     curl_setopt($ch, CURLOPT_NOBODY, TRUE);

     $data = curl_exec($ch);
     $size = curl_getinfo($ch, CURLINFO_CONTENT_LENGTH_DOWNLOAD);

     curl_close($ch);
     return $size;
}

これがうまくいかない場合は、を追加することをお勧めしcurl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);ます。
mermshaus 2014年

3
画像の場合は機能しません。私はCURLOPT_FOLLOWLOCATIONtrueに設定しました。
ネイト2014年

5
@Abenilはこのパラメーターを追加します。curl_setopt($ curl、CURLOPT_SSL_VERIFYPEER、false);
Davinder Kumar 2016

1
@Davinder Kumar:ありがとうございます。コードを追加すると上記のコードが機能します。
Trung Le Nguyen Nhat 2016

1
どういたしまして!@TrungLeNguyenNhat
Davinder Kumar

31

何度か述べたように、行く方法は、応答ヘッダーのContent-Lengthフィールドから情報を取得することです。

ただし、注意する必要があります

  • プローブしているサーバーは、必ずしもHEADメソッドを実装しているとは限りません(!)
  • fopenPHPがget_headers()KISSを思い出してください)を使用している場合は、または同様に、またはcurlライブラリを呼び出すためにHEADリクエストを手動で作成する必要はまったくありません(これもサポートされていない可能性があります)。

使用はget_headers()、以下のKISSの原則を し、あなたが探査しているサーバはHEADリクエストをサポートしていない場合でも動作します。

だから、これが私のバージョンです(ギミック:人間が読める形式のサイズを返します;-)):

要旨:https://gist.github.com/eyecatchup/f26300ffd7e50a92bc4d(curlおよびget_headersバージョン)
get_headers()-バージョン:

<?php     
/**
 *  Get the file size of any remote resource (using get_headers()), 
 *  either in bytes or - default - as human-readable formatted string.
 *
 *  @author  Stephan Schmitz <eyecatchup@gmail.com>
 *  @license MIT <http://eyecatchup.mit-license.org/>
 *  @url     <https://gist.github.com/eyecatchup/f26300ffd7e50a92bc4d>
 *
 *  @param   string   $url          Takes the remote object's URL.
 *  @param   boolean  $formatSize   Whether to return size in bytes or formatted.
 *  @param   boolean  $useHead      Whether to use HEAD requests. If false, uses GET.
 *  @return  string                 Returns human-readable formatted size
 *                                  or size in bytes (default: formatted).
 */
function getRemoteFilesize($url, $formatSize = true, $useHead = true)
{
    if (false !== $useHead) {
        stream_context_set_default(array('http' => array('method' => 'HEAD')));
    }
    $head = array_change_key_case(get_headers($url, 1));
    // content-length of download (in bytes), read from Content-Length: field
    $clen = isset($head['content-length']) ? $head['content-length'] : 0;

    // cannot retrieve file size, return "-1"
    if (!$clen) {
        return -1;
    }

    if (!$formatSize) {
        return $clen; // return size in bytes
    }

    $size = $clen;
    switch ($clen) {
        case $clen < 1024:
            $size = $clen .' B'; break;
        case $clen < 1048576:
            $size = round($clen / 1024, 2) .' KiB'; break;
        case $clen < 1073741824:
            $size = round($clen / 1048576, 2) . ' MiB'; break;
        case $clen < 1099511627776:
            $size = round($clen / 1073741824, 2) . ' GiB'; break;
    }

    return $size; // return formatted size
}

使用法:

$url = 'http://download.tuxfamily.org/notepadplus/6.6.9/npp.6.6.9.Installer.exe';
echo getRemoteFilesize($url); // echoes "7.51 MiB"

追記: Content-Lengthヘッダーはオプションです。したがって、一般的な解決策として、それは防弾ではありません



2
これは受け入れられた答えでなければなりません。TrueContent-Lengthはオプションですが、ダウンロードせずにファイルサイズを取得する唯一の方法であり、を取得するためget_headersの最良の方法ですcontent-length
Quentin Skousen 2017

2
これにより、このPHPプロセスの後続のすべてのHTTPリクエスト内でリクエストメソッドの設定がHEADに変更されることに注意してください。(7.1+)stream_context_createへの呼び出しに使用する別のコンテキストを作成するために使用しますget_headers
MatsLindh

ちょうどあなたのURLまたはドキュメントのファイル名にスペースが含まれる場合、これは-1が返されますことを、追加
jasonflaherty

15

承知しました。ヘッダーのみのリクエストを作成し、Content-Lengthヘッダーを探します。



7

よくわかりませんが、get_headers関数を使用できませんでしたか?

$url     = 'http://example.com/dir/file.txt';
$headers = get_headers($url, true);

if ( isset($headers['Content-Length']) ) {
   $size = 'file size:' . $headers['Content-Length'];
}
else {
   $size = 'file size: unknown';
}

echo $size;

この例では、$ urlのターゲットサーバーがget_headersを悪用して、PHPプロセスがタイムアウトするまで接続を開いたままにすることができます(接続が古くなるほど遅くはありませんが、ヘッダーを非常にゆっくりと返します)。PHPプロセスの合計はFPMによって制限される可能性があるため、複数の「ユーザー」がget_headersスクリプトに同時にアクセスすると、一種のスローロリス攻撃が発生する可能性があります。
テッドフィリップス

6

1行の最良の解決策:

echo array_change_key_case(get_headers("http://.../file.txt",1))['content-length'];

phpはデリシャスすぎます

function urlsize($url):int{
   return array_change_key_case(get_headers($url,1))['content-length'];
}

echo urlsize("http://.../file.txt");

3

最も単純で最も効率的な実装:

function remote_filesize($url, $fallback_to_download = false)
{
    static $regex = '/^Content-Length: *+\K\d++$/im';
    if (!$fp = @fopen($url, 'rb')) {
        return false;
    }
    if (isset($http_response_header) && preg_match($regex, implode("\n", $http_response_header), $matches)) {
        return (int)$matches[0];
    }
    if (!$fallback_to_download) {
        return false;
    }
    return strlen(stream_get_contents($fp));
}

OPは「ファイルをダウンロードせずに」と表示しました。このメソッドは、ファイルをリモートサーバーからメモリにロードします(例:ダウンロード)。サーバー間の接続が高速であっても、大きなファイルでは簡単にタイムアウトしたり、時間がかかりすぎたりする可能性があります。注:グローバルスコープにない$ fpを閉じたことはありません
Mavelo 2018

1
この関数は、本体をできるだけ長くダウンロードしません。Content-Lengthヘッダーが含まれている場合。また、明示的な$fp終了は必要ありません。有効期限が切れると自動的に解放されます。php.net/manual/en/language.types.resource.php
mpyw

上記を使用して簡単に確認できますnc -l localhost 8080
mpyw 2018

実際、*close最近のPHPではほとんどの関数は必要ありません。これらは、実装の制限とC言語の模倣という2つの歴史的な理由によるものです。
mpyw 2018

ヘッダーは信頼性が低く、フォールバックダウンロードはOPに反します。最後に、ファイルを開いた場合は、単に閉じます。ガベージコレクターは、怠惰な開発者が1行のコードを保存する言い訳にはなりません。
マヴェロ2018年

2

この質問にはすでに「php」と「curl」のタグが付いているので、PHPでCurlを使用する方法を知っていると思います。

設定curl_setopt(CURLOPT_NOBODY, TRUE)すると、HEADリクエストが作成され、おそらく応答の「Content-Length」ヘッダーを確認できます。これはヘッダーのみになります。


2

以下の関数を試して、リモートファイルサイズを取得します

function remote_file_size($url){
    $head = "";
    $url_p = parse_url($url);

    $host = $url_p["host"];
    if(!preg_match("/[0-9]*\.[0-9]*\.[0-9]*\.[0-9]*/",$host)){

        $ip=gethostbyname($host);
        if(!preg_match("/[0-9]*\.[0-9]*\.[0-9]*\.[0-9]*/",$ip)){

            return -1;
        }
    }
    if(isset($url_p["port"]))
    $port = intval($url_p["port"]);
    else
    $port    =    80;

    if(!$port) $port=80;
    $path = $url_p["path"];

    $fp = fsockopen($host, $port, $errno, $errstr, 20);
    if(!$fp) {
        return false;
        } else {
        fputs($fp, "HEAD "  . $url  . " HTTP/1.1\r\n");
        fputs($fp, "HOST: " . $host . "\r\n");
        fputs($fp, "User-Agent: http://www.example.com/my_application\r\n");
        fputs($fp, "Connection: close\r\n\r\n");
        $headers = "";
        while (!feof($fp)) {
            $headers .= fgets ($fp, 128);
            }
        }
    fclose ($fp);

    $return = -2;
    $arr_headers = explode("\n", $headers);
    foreach($arr_headers as $header) {

        $s1 = "HTTP/1.1";
        $s2 = "Content-Length: ";
        $s3 = "Location: ";

        if(substr(strtolower ($header), 0, strlen($s1)) == strtolower($s1)) $status = substr($header, strlen($s1));
        if(substr(strtolower ($header), 0, strlen($s2)) == strtolower($s2)) $size   = substr($header, strlen($s2));
        if(substr(strtolower ($header), 0, strlen($s3)) == strtolower($s3)) $newurl = substr($header, strlen($s3));  
    }

    if(intval($size) > 0) {
        $return=intval($size);
    } else {
        $return=$status;
    }

    if (intval($status)==302 && strlen($newurl) > 0) {

        $return = remote_file_size($newurl);
    }
    return $return;
}

これは、Ubuntu LinuxApacheサーバーで私のために働いた唯一のものです。関数の開始時に$ sizeと$ statusを初期化する必要がありましたが、それ以外の場合はそのまま動作しました。
Gavin Simpson

2

これは、HEADリクエストをサポートしないサーバーで機能する別のアプローチです。

cURLを使用して、ファイルの最初のバイトを要求するHTTP範囲ヘッダーを使用してコンテンツを要求します。

サーバーが範囲要求をサポートしている場合(ほとんどのメディアサーバーはサポートします)、サーバーはリソースのサイズで応答を受信します。

サーバーがバイト範囲で応答しない場合、サーバーはcontent-lengthヘッダーを探して長さを決定します。

サイズが範囲またはcontent-lengthヘッダーで見つかった場合、転送は中止されます。サイズが見つからず、関数が応答本文の読み取りを開始した場合、転送は中止されます。

HEADリクエストの結果、405メソッドがサポートされていないレスポンスになる場合、これは補足的なアプローチになる可能性があります。

/**
 * Try to determine the size of a remote file by making an HTTP request for
 * a byte range, or look for the content-length header in the response.
 * The function aborts the transfer as soon as the size is found, or if no
 * length headers are returned, it aborts the transfer.
 *
 * @return int|null null if size could not be determined, or length of content
 */
function getRemoteFileSize($url)
{
    $ch = curl_init($url);

    $headers = array(
        'Range: bytes=0-1',
        'Connection: close',
    );

    $in_headers = true;
    $size       = null;

    curl_setopt($ch, CURLOPT_HEADER, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2450.0 Iron/46.0.2450.0');
    curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
    curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
    curl_setopt($ch, CURLOPT_VERBOSE, 0); // set to 1 to debug
    curl_setopt($ch, CURLOPT_STDERR, fopen('php://output', 'r'));

    curl_setopt($ch, CURLOPT_HEADERFUNCTION, function($curl, $line) use (&$in_headers, &$size) {
        $length = strlen($line);

        if (trim($line) == '') {
            $in_headers = false;
        }

        list($header, $content) = explode(':', $line, 2);
        $header = strtolower(trim($header));

        if ($header == 'content-range') {
            // found a content-range header
            list($rng, $s) = explode('/', $content, 2);
            $size = (int)$s;
            return 0; // aborts transfer
        } else if ($header == 'content-length' && 206 != curl_getinfo($curl, CURLINFO_HTTP_CODE)) {
            // found content-length header and this is not a 206 Partial Content response (range response)
            $size = (int)$content;
            return 0;
        } else {
            // continue
            return $length;
        }
    });

    curl_setopt($ch, CURLOPT_WRITEFUNCTION, function($curl, $data) use ($in_headers) {
        if (!$in_headers) {
            // shouldn't be here unless we couldn't determine file size
            // abort transfer
            return 0;
        }

        // write function is also called when reading headers
        return strlen($data);
    });

    $result = curl_exec($ch);
    $info   = curl_getinfo($ch);

    return $size;
}

使用法:

$size = getRemoteFileSize('http://example.com/video.mp4');
if ($size === null) {
    echo "Could not determine file size from headers.";
} else {
    echo "File size is {$size} bytes.";
}

1
あなたの答えは本当に私を助けました。常に答えを返します。Content-Length利用できない場合でも。
ImanHejazi19年

こんにちは、見てコメントしてくれてありがとう。お役に立てて本当にうれしいです!
drew0 1019年

1

ここでのほとんどの回答は、CURLを使用するか、ヘッダーの読み取りに基づいています。ただし、特定の状況では、はるかに簡単なソリューションを使用できます。filesize()PHP.netののドキュメントに関する注記を検討してください。「PHP5.0.0以降、この関数は一部のURLラッパーでも使用できます。サポートされているプロトコルとラッパーを参照して、stat()ファミリーの機能をサポートするラッパーを確認してください」というヒントがあります。

したがって、サーバーとPHPパーサーが適切に構成filesize()されている場合は、関数を使用して完全なURLをフィードし、取得するサイズのリモートファイルを指定して、PHPにすべての魔法をかけることができます。


1

これを試してください:私はそれを使用し、良い結果を得ました。

    function getRemoteFilesize($url)
{
    $file_headers = @get_headers($url, 1);
    if($size =getSize($file_headers)){
return $size;
    } elseif($file_headers[0] == "HTTP/1.1 302 Found"){
        if (isset($file_headers["Location"])) {
            $url = $file_headers["Location"][0];
            if (strpos($url, "/_as/") !== false) {
                $url = substr($url, 0, strpos($url, "/_as/"));
            }
            $file_headers = @get_headers($url, 1);
            return getSize($file_headers);
        }
    }
    return false;
}

function getSize($file_headers){

    if (!$file_headers || $file_headers[0] == "HTTP/1.1 404 Not Found" || $file_headers[0] == "HTTP/1.0 404 Not Found") {
        return false;
    } elseif ($file_headers[0] == "HTTP/1.0 200 OK" || $file_headers[0] == "HTTP/1.1 200 OK") {

        $clen=(isset($file_headers['Content-Length']))?$file_headers['Content-Length']:false;
        $size = $clen;
        if($clen) {
            switch ($clen) {
                case $clen < 1024:
                    $size = $clen . ' B';
                    break;
                case $clen < 1048576:
                    $size = round($clen / 1024, 2) . ' KiB';
                    break;
                case $clen < 1073741824:
                    $size = round($clen / 1048576, 2) . ' MiB';
                    break;
                case $clen < 1099511627776:
                    $size = round($clen / 1073741824, 2) . ' GiB';
                    break;
            }
        }
        return $size;

    }
    return false;
}

次に、次のようにテストします。

echo getRemoteFilesize('http://mandasoy.com/wp-content/themes/spacious/images/plain.png').PHP_EOL;
echo getRemoteFilesize('http://bookfi.net/dl/201893/e96818').PHP_EOL;
echo getRemoteFilesize('/programming/14679268/downloading-files-as-attachment-filesize-incorrect').PHP_EOL;

結果:

24.82 KiB

912 KiB

101.85 KiB


1

HTTP / 2リクエストをカバーするには、https://stackoverflow.com/a/2602624/2380767で提供されている関数を少し変更する必要があります。

<?php
/**
 * Returns the size of a file without downloading it, or -1 if the file
 * size could not be determined.
 *
 * @param $url - The location of the remote file to download. Cannot
 * be null or empty.
 *
 * @return The size of the file referenced by $url, or -1 if the size
 * could not be determined.
 */
function curl_get_file_size( $url ) {
  // Assume failure.
  $result = -1;

  $curl = curl_init( $url );

  // Issue a HEAD request and follow any redirects.
  curl_setopt( $curl, CURLOPT_NOBODY, true );
  curl_setopt( $curl, CURLOPT_HEADER, true );
  curl_setopt( $curl, CURLOPT_RETURNTRANSFER, true );
  curl_setopt( $curl, CURLOPT_FOLLOWLOCATION, true );
  curl_setopt( $curl, CURLOPT_USERAGENT, get_user_agent_string() );

  $data = curl_exec( $curl );
  curl_close( $curl );

  if( $data ) {
    $content_length = "unknown";
    $status = "unknown";

    if( preg_match( "/^HTTP\/1\.[01] (\d\d\d)/", $data, $matches ) ) {
      $status = (int)$matches[1];
    } elseif( preg_match( "/^HTTP\/2 (\d\d\d)/", $data, $matches ) ) {
      $status = (int)$matches[1];
    }

    if( preg_match( "/Content-Length: (\d+)/", $data, $matches ) ) {
      $content_length = (int)$matches[1];
    } elseif( preg_match( "/content-length: (\d+)/", $data, $matches ) ) {
        $content_length = (int)$matches[1];
    }

    // http://en.wikipedia.org/wiki/List_of_HTTP_status_codes
    if( $status == 200 || ($status > 300 && $status <= 308) ) {
      $result = $content_length;
    }
  }

  return $result;
}
?>
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.