いくつかの雑誌記事へのリンクは次のとおりです。
- https://doi.org/10.1149/1.2183927
- https://doi.org/10.1149/1.2988135
- https://doi.org/10.1149/1.3021012
- https://doi.org/10.1149/1.2159298
それらはすべて、括弧(および括弧などの他の文字)を誤ってエンコードします。ただし、これはテキストをテキストに変換するか、コピーして貼り付けようとする場合にのみ明らかです。たとえば、最初の記事の本文の最初の行は次のようになります。
Proton exchange membrane fuel cells (PEMFCs) have received
代わりに、Acrobat Readerからコピーして貼り付けると、
Proton exchange membrane fuel cells PEMFCs have received
「テキストとして保存」を使用すると、
Proton exchange membrane fuel cells ^CPEMFCs�
have received
開き括弧がである^C
場合、03 ASCII制御シーケンス、閉じ括弧はUnicode 65533、置換文字、それに続く改行です。同様に、次のようにpdf2txt
エンコードします
Proton exchange membrane fuel cells 共PEMFCs兲 have received
(Unicode 20849および20850)およびpdftotext
それを次のようにエンコードします
Proton exchange membrane fuel cells ͑PEMFCs͒ have received
(Unicode 849および850)。
Unicode 851(͓)、852(͔)、1003(ϫ)、1011(ϳ)、1015(Ϸ)、8217( ')、8211(–)、8722(−)、64257(fi)、64258( fl)、およびpdftotext
出力内の制御文字Ctrl-L(ASCII 12)。それらのいくつかはかなり簡単にASCIIに正規化できますが、それらのいくつかは手動マッピングが必要になると思います。
私の質問は:
これを修正する最良の方法は何ですか?スクリプトを使用して誤って処理された文字を置き換えるなど、いくつかの同様の質問を見てきましたが、マッピングの設定は簡単ではなく、PDFを修正しません。
さまざまなPDFリーダーとPDF toテキストユーティリティがこのような異なる結果をもたらすのはなぜですか
pdfinfo
and の出力はpdffonts
次のとおりです。
Title:
Subject:
Keywords:
Author:
Creator: XPP
Producer: Acrobat Distiller 6.0.1 (Windows)
CreationDate: Thu Mar 23 12:07:23 2006
ModDate: Sun Nov 4 12:48:02 2012
Tagged: no
Pages: 6
Encrypted: no
Page size: 657 x 855 pts
File size: 266467 bytes
Optimized: no
PDF version: 1.4
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Helvetica Type 1 no no no 89 0
Helvetica-Oblique Type 1 no no no 109 0
Helvetica-Bold Type 1 no no no 88 0
LFNLKJ+Times-Bold Type 1C yes yes no 63 0
LFNLLK+Times-Italic Type 1C yes yes no 64 0
LFNLMK+Times-Roman Type 1C yes yes no 65 0
LFNLML+MathematicalPi-Three Type 1C yes yes no 66 0
LFNLMM+MathematicalPi-One Type 1C yes yes no 67 0
LFNLMN+Universal-GreekwithMathPi Type 1C yes yes no 72 0