このPDFが括弧を正しくエンコードしているように見えるのに、pdftotextを使用したり、コピーアンドペーストしたりできないのはなぜですか?


4

いくつかの雑誌記事へのリンクは次のとおりです。

それらはすべて、括弧(および括弧などの他の文字)を誤ってエンコードします。ただし、これはテキストをテキストに変換するか、コピーして貼り付けようとする場合にのみ明らかです。たとえば、最初の記事の本文の最初の行は次のようになります。

Proton exchange membrane fuel cells (PEMFCs) have received

代わりに、Acrobat Readerからコピーして貼り付けると、

Proton exchange membrane fuel cells PEMFCs have received

「テキストとして保存」を使用すると、

Proton exchange membrane fuel cells ^CPEMFCs�
have received 

開き括弧がである^C場合、03 ASCII制御シーケンス、閉じ括弧はUnicode 65533、置換文字、それに続く改行です。同様に、次のようにpdf2txtエンコードします

Proton exchange membrane fuel cells 共PEMFCs兲 have received

(Unicode 20849および20850)およびpdftotextそれを次のようにエンコードします

Proton exchange membrane fuel cells ͑PEMFCs͒ have received

(Unicode 849および850)。

Unicode 851(͓)、852(͔)、1003(ϫ)、1011(ϳ)、1015(Ϸ)、8217( ')、8211(–)、8722(−)、64257(fi)、64258( fl)、およびpdftotext出力内の制御文字Ctrl-L(ASCII 12)。それらのいくつかはかなり簡単にASCIIに正規化できますが、それらのいくつかは手動マッピングが必要になると思います。

私の質問は:

  1. これを修正する最良の方法は何ですか?スクリプトを使用して誤って処理された文字を置き換えるなど、いくつかの同様の質問を見てきましたが、マッピングの設定は簡単ではなく、PDFを修正しません。

  2. さまざまなPDFリーダーとPDF toテキストユーティリティがこのような異なる結果をもたらすのはなぜですか

pdfinfoand の出力はpdffonts次のとおりです。

Title:          
Subject:        
Keywords:       
Author:         
Creator:        XPP
Producer:       Acrobat Distiller 6.0.1 (Windows)
CreationDate:   Thu Mar 23 12:07:23 2006
ModDate:        Sun Nov  4 12:48:02 2012
Tagged:         no
Pages:          6
Encrypted:      no
Page size:      657 x 855 pts
File size:      266467 bytes
Optimized:      no
PDF version:    1.4

name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Helvetica                            Type 1            no  no  no      89  0
Helvetica-Oblique                    Type 1            no  no  no     109  0
Helvetica-Bold                       Type 1            no  no  no      88  0
LFNLKJ+Times-Bold                    Type 1C           yes yes no      63  0
LFNLLK+Times-Italic                  Type 1C           yes yes no      64  0
LFNLMK+Times-Roman                   Type 1C           yes yes no      65  0
LFNLML+MathematicalPi-Three          Type 1C           yes yes no      66  0
LFNLMM+MathematicalPi-One            Type 1C           yes yes no      67  0
LFNLMN+Universal-GreekwithMathPi     Type 1C           yes yes no      72  0

回答:


2

答えは「uni」列にあります。これらのフォント、特に括弧に使用されたフォントには、Unicodeへの明示的なマッピングがありません。任意のシンボルの最も正しいコードポイントを特定するのは難しい問題です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.