タグ付けされた質問 「microsoft-word」

2
pandocで.docxを.pdfに変換する
メールで受信した.docxをpandocを使用して正しいPDFに変換しようとしています(GNU / Linuxを使用しています)。 文字エンコードに関するエラーがあります: $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream 私はエンコーディングを特定しようとしました: $ file -i file .docx file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary charset=binary(私は期待していたcharset=iso8859-15)に少し驚いています。しかし、とにかく.docxをutf8に変換しようとしましたが、機能していません: $ iconv -t utf-8 file.docx P! $iconv: séquence d'échappement non permise à la position 16 pandocドキュメントのコマンドラインでも同じエラーが発生します。 iconv -t utf-8 file.docx | pandoc …

1
.docxファイルをプレーンテキストに変換し、改行を保持してソースドキュメントへの行番号参照を維持する:ハウツーと影響?
MS Wordのコンテンツをプレーンテキストにエクスポートして、text&fileユーティリティで使用します。MSソフトウェアで行番号付け機能が有効になっているという制約があり、最終出力の行番号への参照はすべてその番号付けと一致する必要があります。したがって、「番号付け行」を入力します。 (ポー、EA) 明らかにWordの場合、この種の番号付けは改行で改行せず、右マージン(または何か)の後の「行」を改行します。のようなスクリプトはdocx2txt、デフォルトではこれを考慮に入れていないようで、改行で改行します。したがってgrep -n、番号付けを使用すると、上記のように、行はソース行番号機能と一致しません。この場合、Perlスクリプトを編集してファイルを変換する方法をドキュメントから明確に明確にすることはできません。 our $config_newLine = "\n"; # Alternative is "\r\n". our $config_lineWidth = 80; # Line width, used for short line justification. 代用\nしてみました\r\nが、うまくいきません。そこで、次の設定でWordから直接ドキュメントをエクスポートすることにしました(v.2013,64pcでプレーンテキストとして保存)。 Unicode(UTF-8) (CR / LF)で改行と行末を挿入 文字の置換を許可する そして実際に、ファイルを使用する.txtと、ソース番号付け機能の行番号とgrep -n出力が完全に一致します。 私が知っている必要がある特定の構成/プロセス、docx2txtまたは私がしたようにWordに頼ることなく改行を維持しながら.docxファイルをプレーンテキストに変換できる同様のコマンドラインユーティリティはありますか? 改行やフォーマットに関して、MS Wordドキュメント(アクセント付き文字が含まれている場合があります)をプレーンテキストにエクスポートしてファイル/テキストユーティリティで使用する場合のベストプラクティスはどれですか。また、エクスポート用に選択した設定、つまりCR / LFの挿入に否定的な影響はありますか? サンプル 提案されているように、サンプルを提供します。このrar アーカイブでは、単純な段落を含む.docxファイルと、前述のオプションを使用してWordを使用してエクスポートされた.txtファイルをバンドルしました。後者はdocx2txt、ソースファイルのデフォルトの実行と比較できます。

3
docxファイルを検索するコマンドラインツール
docxファイルをテキスト検索するコマンドラインツールはありますか?試してみましたがgrep、txtファイルとxmlファイルでは問題なく機能しますが、docxでは機能しません。最初にdocxをtxtに変換することもできますが、docxファイルを直接操作するツールを使用します。Cygwinで動作するツールが必要です。 OP編集:後で、grepを実現する最も簡単な方法は、実際にはこれらのdocxをtxtに変換してからgrepで変換することであることがわかりました。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.