「文字化け」したファイル名を持つ「簡体字中国語」ファイルからUFT8への変換について


2

私は英語版のMacOSインターフェイスでMacを使用しています。中国語のウェブサイト(簡体字中国語)からファイルをダウンロードします。文字化けしたファイル名です。

文字化けしたファイル名:

%E6%B9%96%E5%8D%97IPTV.apk

実際のファイル名:

湖南IPTV.apk

ダウンロードしたファイルを知っているので、私は本当の新しいことを知っています。MacOSには「iconv」というコマンドがあることは知っています。しかし、適切なエンコードタイプがわかりません。

コマンド「iconv -l」は、多くのタイプを表示します。それらすべてをリストします。

たとえば、「iconv -f GB_2312-80 -t UTF-8 orig.txt > new.txt」を実行します。

つまり、GB_2312-80形式のファイルをUTF-8に変換します。

ただし、サイトからダウンロードしたファイルの名前がシステム上で「文字化け」している理由はわかりません。

この文字化けしたファイルの実際の文字フォーマットを知りたいです。これは私の質問です。

さらに、iconv -lこのコマンドの以下のリストによると、以下のような「簡体字中国語のファイル名形式タイプ」とは何ですか?知っていれば。

回答形式に関連する可能性のあるすべての形式を試す必要がありますか?それは退屈で遅い方法のようです。

さらに、MacOSの文字形式に問題はありますか?知っていれば。

> ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US 
> ISO_646.IRV:1991 US US-ASCII CSASCII UTF-8 ISO-10646-UCS-2 UCS-2   
> CSUNICODE UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11 UCS-2LE   
> UNICODELITTLE ISO-10646-UCS-4 UCS-4 CSUCS4 UCS-4BE UCS-4LE UTF-16   
> UTF-16BE UTF-16LE UTF-32 UTF-32BE UTF-32LE UNICODE-1-1-UTF-7 UTF-7  
> CSUNICODE11UTF7 UCS-2-INTERNAL UCS-2-SWAPPED UCS-4-INTERNAL   
> UCS-4-SWAPPED C99 JAVA CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 
> ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1 ISO-8859-2   
> ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2 
> ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3  
> CSISOLATIN3 ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4   
> ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4 CYRILLIC ISO-8859-5 ISO-IR-144  
> ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC ARABIC   
> ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6   
> ISO_8859-6:1987 CSISOLATINARABIC ECMA-118 ELOT_928 GREEK GREEK8   
> ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987   
> ISO_8859-7:2003 CSISOLATINGREEK HEBREW ISO-8859-8 ISO-IR-138   
> ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW ISO-8859-9   
> ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5 
> ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6   
> LATIN6 CSISOLATIN6 ISO-8859-11 ISO8859-11 ISO_8859-11 ISO-8859-13   
> ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7 ISO-8859-14 ISO-CELTIC  
> ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8   
> ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998   
> LATIN-9 ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16   
> ISO_8859-16:2001 L10 LATIN10 KOI8-R CSKOI8R KOI8-U KOI8-RU CP1250   
> MS-EE WINDOWS-1250 CP1251 MS-CYRL WINDOWS-1251 CP1252 MS-ANSI   
> WINDOWS-1252 CP1253 MS-GREEK WINDOWS-1253 CP1254 MS-TURK WINDOWS-1254 
> CP1255 MS-HEBR WINDOWS-1255 CP1256 MS-ARAB WINDOWS-1256 CP1257   
> WINBALTRIM WINDOWS-1257 CP1258 WINDOWS-1258 850 CP850 IBM850   
> CSPC850MULTILINGUAL 862 CP862 IBM862 CSPC862LATINHEBREW 866 CP866   
> IBM866 CSIBM866 CP1131 MAC MACINTOSH MACROMAN CSMACINTOSH   
> MACCENTRALEUROPE MACICELAND MACCROATIAN MACROMANIA MACCYRILLIC   
> MACUKRAINE MACGREEK MACTURKISH MACHEBREW MACARABIC MACTHAI HP-ROMAN8  
> R8 ROMAN8 CSHPROMAN8 NEXTSTEP ARMSCII-8 GEORGIAN-ACADEMY GEORGIAN-PS  
> KOI8-T CP154 CYRILLIC-ASIAN PT154 PTCP154 CSPTCP154 KZ-1048 RK1048   
> STRK1048-2002 CSKZ1048 MULELAO-1 CP1133 IBM-CP1133 ISO-IR-166 TIS-620 
> TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1 CP874   
> WINDOWS-874 VISCII VISCII1.1-1 CSVISCII TCVN TCVN-5712 TCVN5712-1   
> TCVN5712-1:1993 ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP   
> CSISO14JISC6220RO JISX0201-1976 JIS_X0201 X0201 CSHALFWIDTHKATAKANA   
> ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983   
> JIS_X0208-1990 X0208 CSISO87JISX0208 ISO-IR-159 JIS_X0212   
> JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990 CN   
> GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988 CHINESE GB_2312-80   
> ISO-IR-58 CSISO58GB231280 CN-GB-ISOIR165 ISO-IR-165 ISO-IR-149 KOREAN 
> KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987 EUC-JP EUCJP   
> EXTENDED_UNIX_CODE_PACKED_FORMAT_FOR_JAPANESE CSEUCPKDFMTJAPANESE   
> MS_KANJI SHIFT-JIS SHIFT_JIS SJIS CSSHIFTJIS CP932 ISO-2022-JP   
> CSISO2022JP ISO-2022-JP-1 ISO-2022-JP-2 CSISO2022JP2 CP50221   
> ISO-2022-JP-MS CN-GB EUC-CN EUCCN GB2312 CSGB2312 GBK CP936 MS936   
> WINDOWS-936 GB18030 ISO-2022-CN CSISO2022CN ISO-2022-CN-EXT HZ   
> HZ-GB-2312 EUC-TW EUCTW CSEUCTW BIG-5 BIG-FIVE BIG5 BIGFIVE CN-BIG5 
> CSBIG5 CP950 BIG5-HKSCS:1999 BIG5-HKSCS:2001 BIG5-HKSCS:2004   
> BIG5-HKSCS BIG5-HKSCS:2008 BIG5HKSCS EUC-KR EUCKR CSEUCKR CP949 UHC 
> CP1361 JOHAB ISO-2022-KR CSISO2022KR

Googleはファイル名はHunan IPTV
Ruskes

E6 B9 96は、U + 6e56湖のUTF-8バイトです。そのため、エンコーディングはすでにutf-8であり、名前は何らかの理由でバイトのエスケープを使用しているだけで、おそらくダウンロード元のファイルシステムまたはダウンロードプロセスに関連しています。
トムGewecke

こんにちは、変換できるツールを見つけました。「url-encoding」も見つけました。 tool.chinaz.com/tools/urlencode.aspxこのような文字形式のように思えます-%E6%B9%96%E5%8D%97-"%文字と大きな文字と数字"。しかし、iconvを使用できる場合、実行時の形式の種類は何ですか。他の文字フォーマットも見つけました。「url-encoding」ではありません。他のスレッドに投稿することがあります。(ここ)私はここに投稿します。" ×ÔÓòο¼_config_Ó³Éä¼ü_¿ì½Ý¼ü "これはURL エンコードではありませんか?
ジェファーイヤー

回答:


3

earthlingsoft(フリーウェア)のUnicodeCheckerを使用できます。
彼らのウェブサイトから:

変換:HTML、CSS、URL、IDNA、さまざまなプログラミング言語•文字列がすでに正規化されているかどうかを示すUnicode正規化(NFC、NFKC、NFD、NFKD)違いを強調します。•ほとんどの機能は、「サービス」メニューとAppleScriptを使用して、使用するすべてのアプリケーションで使用できます。

文字列%E6%B9%96%E5%8D%97IPTV.apkをコピーし、TextEditに貼り付け、選択してからを選択しましたTextEdit menu → Services → Replace Percent Escapes。選択したテキストを湖南IPTV.apkに置き換えました。

これは素晴らしいアプリで、多くの変換オプションを提供し、2000年代初頭から私のMacに搭載されていました。有効にするサービスを選択できます

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.