「右から左」や「ゼロ幅の非結合子」などの非表示の制御文字が多く、通常のスペースとは異なるスペースがあるファイルを処理する必要があり、その処理に問題があります。
ここで、特定のファイルのすべての文字を1文字ずつ表示します(「左から右」と言いたいのですが、残念ながら右から左への言語を扱います)を、Unicodeコードポイントとして、基本的なbashのツール(のようなvi
、less
、cat
...)。どういうわけか可能ですか?
でファイルを16進数で表示できることはわかっていますがhexdump
、コードポイントを再計算する必要があります。私は実際のUnicodeコードポイントを本当に見たいので、それらをグーグルして何が起こっているのかを知ることができます。
編集:私はそれを別のエンコーディングにトランスコードしたくないことを追加します(それが私がオンラインで見つけているものだからです)。ファイルはUTF8であり、問題ありません。すべての文字の正確なコードポイントを知りたいだけです。