ユニコード標準には、それらをすべて格納するために4バイトが必要となる十分なコードポイントが含まれています。これは、UTF-32エンコーディングが行うことです。しかし、UTF-8エンコーディングは、「可変幅エンコーディング」と呼ばれるものを使用して、これらを何らかの方法ではるかに小さなスペースに圧縮します。
実際、US-ASCIIの最初の127文字を実際のASCIIのように見えるちょうど1バイトで表すことができるので、何もしなくても多くのASCIIテキストをUTF-8であるかのように解釈できます。きちんとしたトリック。それはどのように機能するのでしょうか?
私はここで自分の質問をし、それに答えるつもりです。なぜなら、それを理解するために少し読んだだけで、誰かが時間を節約できると思ったからです。それに、もし私がそれのいくつかを間違っているなら、誰かが私を訂正してくれるかもしれません。