タグ付けされた質問 「character-encoding」

文字エンコードとは、文字が一連のバイトとして表される方法を指します。Webの文字エンコーディングは、Encoding Standardで定義されています。

17
逆さまのキャレット文字はありますか?
古典的なASPページを多数維持する必要があります。その多くは、並べ替え機能のない表形式のデータを持っています。元の開発者がデータベースクエリで使用した順序は、何にでも対応できます。 これらのページの束への基本的な並べ替えに取り組みたいのですが、すべてJavaScriptでクライアント側で実行しています。特定の列の特定のテーブルを特定の方向に並べ替えるための基本的なスクリプトを既に作成しましたが、ここで使用する特定の規則によってテーブルが制限されている限り、問題なく機能します。 UIに対して実行したいのは、キャレット文字(^)でソート方向を示すことだけです... キャレットの正反対の特殊文字はありますか?手紙vはそれを完全にカットしません。または、使用できる別の文字の組み合わせはありますか?


8
Unicodeテキストをテキストファイルに書き込みますか?
Googleドキュメントからデータを引き出して処理し、ファイルに書き込みます(最終的にはWordpressページに貼り付けます)。 いくつかの非ASCIIシンボルがあります。これらをHTMLソースで使用できるシンボルに安全に変換するにはどうすればよいですか? 現在、私は途中ですべてをUnicodeに変換し、それをすべてPython文字列に結合してから、次のようにしています: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-8859-1", "replace")) 最終行にエンコードエラーがあります: UnicodeDecodeError: 'ascii'コーデックは位置12286のバイト0xa0をデコードできません:序数が範囲(128)にありません 部分的な解決策: このPythonはエラーなしで実行されます。 row = [unicode(x.strip()) if x is not None else u'' for x in row] all_html = row[0] + "<br/>" + row[1] f = open('out.txt', 'w') f.write(all_html.encode("utf-8")) しかし、実際のテキストファイルを開くと、次のような多くの記号が表示されます。 Qur‚Äôan テキストファイル以外のものに書き込む必要があるのでしょうか。

18
Bashで4桁のUnicode文字をどのようにエコーしますか?
シェルプロンプトにUnicodeの頭蓋骨とクロスボーン(具体的には 'SKULL AND CROSSBONES'(U + 2620))を追加したいのですが、それをエコーで吐き出す魔法の呪文などを理解できません。 4桁のUnicode文字。2桁のものは簡単です。たとえば、echo -e "\ x55"、。 以下の回答に加えて、出力が期待どおりになるためには、明らかに、端末がUnicodeをサポートしている必要があることに注意してください。gnome-terminalはこれをうまく行いますが、デフォルトで必ずしもオンになっているとは限りません。 macOSのターミナルアプリで、[設定]-> [エンコード]に移動し、[Unicode(UTF-8)]を選択します。


10
垂直タブとは何ですか?
垂直タブ文字(\vC言語、ASCII 11)の元々の歴史的使用は何でしたか? キーボードにキーがあったことはありますか?誰かがそれをどのように生成しましたか? 垂直タブ文字が面白くて役に立つ何かをする言語またはシステムが現在も使用されていますか?

10
「for line in…」の結果、UnicodeDecodeError: 'utf-8'コーデックはバイトをデコードできません
これが私のコードです、 for line in open('u.item'): #read each line このコードを実行すると、次のエラーが発生します。 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 2892: invalid continuation byte これを解決してopen()にパラメーターを追加しようとすると、コードは次のようになります。 for line in open('u.item', encoding='utf-8'): #read each line ただし、同じエラーが発生します。それなら私は何をすべきか!助けてください。

6
文字セット名が定数ではないのはなぜですか?
文字セットの問題はそれ自体が混乱して複雑ですが、その上、文字セットの正確な名前を覚えておく必要があります。ですよ"utf8"ね?または"utf-8"?それとも"UTF-8"?インターネットでコードサンプルを検索すると、上記のすべてが表示されます。なぜそれらを名前付き定数にして使用しCharset.UTF8ないのですか?

16
「&」を「&」として本当にエンコードする必要がありますか?
&私のサイトのHTML5およびUTF-8で「」記号を使用しています<title>。Googleは、タイトルのすべてのブラウザと同様に、SERPにアンパサンドを表示します。 http://validator.w3.orgは私にこれを与えています: &は文字参照を開始しませんでした。(&おそらくエスケープされるべきだった&。) 私は本当にする必要があり&ますか? 検証のために自分のページを検証することに戸惑うことはありませんが、これについての人々の意見を聞き、それが重要かどうか、そしてその理由を知りたいです。

12
PHP DOMDocument loadHTMLがUTF-8を正しくエンコードしない
DOMDocumentを使用して一部のHTMLを解析しようとしていますが、その場合、突然エンコードが失われます(少なくとも、それは私には見えます)。 $profile = "<div><p>various japanese characters</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); $divs = $dom->getElementsByTagName('div'); foreach ($divs as $div) { echo $dom->saveHTML($div); } このコードの結果、日本語以外の文字がたくさん表示されます。ただし、私が行う場合: echo $profile; 正しく表示されます。saveHTMLとsaveXMLを試しましたが、どちらも正しく表示されません。PHP 5.3を使用しています。 私が見るもの: ã¤ãªãã¤å·ã·ã«ã´ã«ã¦ãã¢ã¤ã«ã©ã³ãç³»ã®å®¶åº­ã«ã9人åå¼ã®5çªç®ã¨ãã¦çã¾ãããå½¼ãå«ãã¦4人ã俳åªã«ãªã£ããç¶è¦ªã¯æ¨æã®ã»ã¼ã«ã¹ãã³ã§ãæ¯è¦ªã¯éµä¾¿å±ã®å®¢å®¤ä¿ã ã£ããé«æ ¡æ代ã¯ã­ã£ãã£ã®ã¢ã«ãã¤ãã«å¤ãã¿ãæè²è³éãåããªããã«ããªãã¯ç³»ã®é«æ ¡ã¸é²å­¦ã 何を表示すべきか: イリノイ州シカゴにて、アイルランド系の家庭に、9人兄弟の5番目として生まれる。彼を含めて4人が俳優になった。父親は木材のセールスマンで、母親は郵便局の客室係だった。高校時代はキャディのアルバイトに勤しみ、教育資金を受けながらカトリック系の高校へ進学 編集:自分でテストできるように、コードを5行に簡略化しました。 $profile = "<div lang=ja><p>イリノイ州シカゴにて、アイルランド系の家庭に、</p></div>"; $dom = new DOMDocument(); $dom->loadHTML($profile); echo $dom->saveHTML(); echo $profile; 返されるhtmlは次のとおりです。 <div …

6
エンコード/デコードの違いは何ですか?
str / unicodeのデコードとエンコードの違いを理解していることを確信できませんでした。 私はそれstr().decode()が特定の文字エンコーディングを持っていることがわかっているバイトの文字列を持っているときに、そのエンコーディング名がUnicode文字列を返すことを知っています。 unicode().encode()与えられたエンコーディング名に従ってユニコード文字をバイトの文字列に変換することを知っています。 しかし、私は何str().encode()を理解していないのかunicode().decode()。誰かが説明できますか、そしておそらく私が上で間違っている他の何かを修正することもできますか? 編集: いくつかの答え.encodeは文字列で何が行われるかについての情報を提供しますが、誰.decodeもがユニコードで何が行われるのかを知りません。

11
PythonでエラーなしにUnicodeをASCIIに変換する
私のコードはWebページを削って、それをUnicodeに変換するだけです。 html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) しかし、私はUnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", line 55, in get html.encode("utf8","ignore") UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 2818: ordinal not in range(128) 私はそれがHTMLがどこかに間違った形式のUnicodeの試みを含んでいることを意味すると思います。エラーが発生する代わりに、問題の原因となっているコードバイトを削除できますか?

4
@charset“ UTF-8”を指定する理由; あなたのCSSファイルで?
私はこの指示を、私に引き渡された多数のCSSファイルの最初の行として見てきました。 @charset "UTF-8"; それは何をしますか、そしてこの規則は必要ですか? また、このメタタグを「head」要素に含めた場合、CSSファイル内にも存在させる必要がなくなりますか? <meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

11
エンコーディングと文字セットの違いは何ですか?
テキストのエンコーディングと文字セットについて混乱しています。多くの理由で、私は次の仕事で非ユニコード、非UTF8のものを学ばなければなりません。 「ISO-2022-JP」のように電子メールのヘッダーに「charset」という単語を見つけましたが、テキストエディターにはそのようなエンコーディングはありません。(私はさまざまなテキストエディタを見回しました。) テキストエンコーディングと文字セットの違いは何ですか?いくつかの使用例を見せていただければ幸いです。

11
PHP:元の文字セットを認識せずに任意の文字列をUTF-8に変換するか、少なくとも試してください
私は世界中のクライアントを扱うアプリケーションを持っており、当然、データベースに送られるすべてのものをUTF-8でエンコードしたいと思っています。 私にとっての主な問題は、文字列のソースがどのエンコーディングになるかわからないということです-テキストボックスからのものである可能性があります(これ<form accept-charset="utf-8">は、ユーザーが実際にフォームを送信した場合にのみ役立ちます)。アップロードされたテキストファイルからなので、実際には入力を制御できません。 私が必要としているのは、データベースに入るものが可能な限りUTF-8でエンコードされていることを確認する関数またはクラスです。私は試しましたiconv(mb_detect_encoding($text), "UTF-8", $text); が、問題があります(入力が「fiancée」の場合、「fianc」を返します)。私はたくさんのことを試しました= / ファイルのアップロードについては、エンドユーザーに使用するエンコードを指定して、出力がどのようになるかをプレビュー表示するように依頼するのが好きですが、これは厄介なハッカーには役立ちません(実際、ハッカーに命を吹き込む可能性があります)少し簡単です)。 この件に関して他のSOの質問を読みましたが、「RSSフィードを解析する必要がある」または「Webサイトからデータをスクレイピングする」などの微妙な違いがあるようです(または、実際には「できません」)。 しかし、少なくとも良い試みがあるはずです!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.