最初に、使用されているエンコーディングを検出する必要があります。RSSフィードを解析しているときに(おそらくHTTP経由で)、HTTPヘッダーフィールドのcharset
パラメーターからエンコードを読み取る必要がありContent-Type
ます。存在しない場合encoding
は、XML処理命令の属性からエンコーディングを読み取ります。それもない場合は、仕様で定義されているUTF-8を使用してください。
編集 これはおそらく私がすることです:
cURLを使用して、応答を送信およびフェッチします。これにより、特定のヘッダーフィールドを設定し、応答ヘッダーも取得できます。応答をフェッチした後、HTTP応答を解析し、ヘッダーと本文に分割する必要があります。ヘッダーにContent-Type
は、MIMEタイプと(うまくいけば)charset
エンコーディング/文字セットを含むパラメーターを含むヘッダーフィールドを含める必要があります。そうでない場合は、encoding
属性の存在についてXML PIを分析し、そこからエンコーディングを取得します。それも欠落している場合、XML仕様ではエンコーディングとしてUTF-8を使用するように定義されています。
$url = 'http://www.lr-online.de/storage/rss/rss/sport.xml';
$accept = array(
'type' => array('application/rss+xml', 'application/xml', 'application/rdf+xml', 'text/xml'),
'charset' => array_diff(mb_list_encodings(), array('pass', 'auto', 'wchar', 'byte2be', 'byte2le', 'byte4be', 'byte4le', 'BASE64', 'UUENCODE', 'HTML-ENTITIES', 'Quoted-Printable', '7bit', '8bit'))
);
$header = array(
'Accept: '.implode(', ', $accept['type']),
'Accept-Charset: '.implode(', ', $accept['charset']),
);
$encoding = null;
$curl = curl_init($url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_HEADER, true);
curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
$response = curl_exec($curl);
if (!$response) {
// error fetching the response
} else {
$offset = strpos($response, "\r\n\r\n");
$header = substr($response, 0, $offset);
if (!$header || !preg_match('/^Content-Type:\s+([^;]+)(?:;\s*charset=(.*))?/im', $header, $match)) {
// error parsing the response
} else {
if (!in_array(strtolower($match[1]), array_map('strtolower', $accept['type']))) {
// type not accepted
}
$encoding = trim($match[2], '"\'');
}
if (!$encoding) {
$body = substr($response, $offset + 4);
if (preg_match('/^<\?xml\s+version=(?:"[^"]*"|\'[^\']*\')\s+encoding=("[^"]*"|\'[^\']*\')/s', $body, $match)) {
$encoding = trim($match[1], '"\'');
}
}
if (!$encoding) {
$encoding = 'utf-8';
} else {
if (!in_array($encoding, array_map('strtolower', $accept['charset']))) {
// encoding not accepted
}
if ($encoding != 'utf-8') {
$body = mb_convert_encoding($body, 'utf-8', $encoding);
}
}
$simpleXML = simplexml_load_string($body, null, LIBXML_NOERROR);
if (!$simpleXML) {
// parse error
} else {
echo $simpleXML->asXML();
}
}