破損したテキストの修正


2

このようなテキストがあります:

移植リストにとどまるために毎年心臓検査を受けることになっています。しかし、緊急カルデアック情報を失っている患者がいます。それはあなたの仕事である、それはあなたがあなたの心を癒すために電話をかけることです

ご覧のとおり、最初の行は問題ありませんが、2番目の行は破損しています。VimまたはLibreOfficeを使用して開いても、このように見えます。これを修正する方法はありますか?エンコーディングをUTF-8に変更しようとしましたが、役に立ちませんでした。ありがとう!


平文ファイルとは何ですか?ワード?PDF?…
Synetech

そのようなテキストはどれくらいありますか?
lornix

プレーンテキストファイルのようなものです。Vim、LibreOffice、GEditで開いても、名前を付けると、そのように見えます。変換する必要のあるテキストがたくさんあります。それが、入力するのを妨げている理由です。
oort

私はそれをいじくり回すことができたので、ここに置くためにカットアンドペーストするのを見てうれしかったです。生のテキストファイルを見るとより便利です。通常のASCII(またはUTF-8)とワイド文字が混在しているように見えるので、修正するために「フィルタ」を使用することもできます。
lornix

回答:


2

ある種の置換テキスト付きの標準テキストとして始まり、十分な防御コーディングを持たないユーティリティによって処理されたように思えます- このxkcdコミックのバリエーションです。たとえば、バグのあるXSLTプロセッサを使用して生成された可能性があります。

これがプレーンテキストとして表示される場合、元のソースに戻る以外にできることはおそらくあまりありません。プレーンテキストファイルには、追加の非表示情報は含まれません。エンコードが間違っていると問題が発生する可能性がありますが、エディターが文字ごとのバイトエンコードを想定してロードし、そのエンコードが間違っている場合は、文字化けの形でさらに多くのものが表示されます。

ファイルの終わりまたはヌル文字がテキストの末尾の表示を妨げている可能性がありますが、最近は中途半端なテキストエディタにだまされるべきではありません。


1

バックアップコピーが機能することが確実になるまで、常にバックアップコピーを作成してください。

別のエンコード方法を強制しながら、テキストファイルをvimにロードしてみてください。

vim(またはgvimのいずれか)を起動します

:e ++enc=utf-8 textfilename.txt

vimはいくつかのエンコーディングタイプを知っています。これを繰り返して試してください。ヘルプファイルから:

サポートされている「エンコード」値は次のとおりです。

latin1、iso-8859-n、cp437、cp737、cp775、cp850、cp852、cp855、cp857、cp860、cp861、cp862、cp863、cp865、cp866、cp869、utf-8、ucs-2、ucs-2le、utf- 16、utf-16le、ucs-4、ucs-4le

生のテキストファイルに関する私の質問は、先頭にBOM(バイトオーダーマーク)があるかどうかを判断することです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.