MS Wordのコンテンツをプレーンテキストにエクスポートして、text&fileユーティリティで使用します。MSソフトウェアで行番号付け機能が有効になっているという制約があり、最終出力の行番号への参照はすべてその番号付けと一致する必要があります。したがって、「番号付け行」を入力します。
(ポー、EA)
明らかにWordの場合、この種の番号付けは改行で改行せず、右マージン(または何か)の後の「行」を改行します。のようなスクリプトはdocx2txt
、デフォルトではこれを考慮に入れていないようで、改行で改行します。したがってgrep -n
、番号付けを使用すると、上記のように、行はソース行番号機能と一致しません。この場合、Perlスクリプトを編集してファイルを変換する方法をドキュメントから明確に明確にすることはできません。
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
代用\n
してみました\r\n
が、うまくいきません。そこで、次の設定でWordから直接ドキュメントをエクスポートすることにしました(v.2013,64pcでプレーンテキストとして保存)。
- Unicode(UTF-8)
- (CR / LF)で改行と行末を挿入
- 文字の置換を許可する
そして実際に、ファイルを使用する.txt
と、ソース番号付け機能の行番号とgrep -n
出力が完全に一致します。
- 私が知っている必要がある特定の構成/プロセス、
docx2txt
または私がしたようにWordに頼ることなく改行を維持しながら.docxファイルをプレーンテキストに変換できる同様のコマンドラインユーティリティはありますか? - 改行やフォーマットに関して、MS Wordドキュメント(アクセント付き文字が含まれている場合があります)をプレーンテキストにエクスポートしてファイル/テキストユーティリティで使用する場合のベストプラクティスはどれですか。また、エクスポート用に選択した設定、つまりCR / LFの挿入に否定的な影響はありますか?
サンプル
提案されているように、サンプルを提供します。このrar アーカイブでは、単純な段落を含む.docxファイルと、前述のオプションを使用してWordを使用してエクスポートされた.txtファイルをバンドルしました。後者はdocx2txt
、ソースファイルのデフォルトの実行と比較できます。