タグ付けされた質問 「text-processing」

プログラム、スクリプトなどによるテキストの操作または検査





1
rsync --dry-run出力を再利用して、後で実際の転送を高速化します
私は通常rsync -n実際に行う前にやるrsync。問題は、2回目の実行を自動化して、生成されたリストを正確に再利用するにはどうすればよい--dry-runでしょうか? つまり、実行するrsync -nとどうrsyncなるかをシミュレーションできます。つまり、その出力を取得して処理し、その出力rsyncのみ--include-fromを何らかの方法で作成するのが私の考えです。したがって、完全なリストは一度だけ計算する必要があります。 これが意味をなさない場合は、教えてください。 ところで、私はを使用する傾向がありますrsync -hva --progress --stats --delete --exclude-from "$EXCLUDEFILE"。どのオプションを使用するかについても提案がある場合は、お知らせください。外部ハードドライブ(画像、ビデオ、ドキュメントのみを含む)のコンテンツを別の外部ハードドライブに複製しようとしています。


5
「sed」インプレース変更を報告する方法
sedインプレースで文字列を置き換えるために使用する場合、(古いファイルと新しいファイルの差分に依存せずに)変更を報告する方法はありますか? たとえば、コマンドラインをどのように変更できますか find . -type f | xargs sed -i 's/abc/def/g' その場で行われた変更を見ることができますか?

7
2つのタグ間のテキスト
これら2つのタグの間にあるものはすべて<tr> </tr>、HTMLドキュメントから取得したいです。現在、HTMLパーサーを保証する特定のHTML要件はありません。私は単に一致<tr>し</tr>、その間にすべてを取得するものが必要であり、複数trのものが存在する可能性があります。私はawkを試しましたが、それはうまくいきますが、何らかの理由で抽出された各行の複製を与えることになります。 awk ' /<TR/{p=1; s=$0} p && /<\/TR>/{print $0 FS s; s=""; p=0} p' htmlfile> newfile これについてどうやって行くのですか?

9
ファイルの最初の数行と最後の数行を表示するコマンド
多くの行を持つファイルがあり、各行には開始時にタイムスタンプがあります。 [Thread-3] (21/09/12 06:17:38:672) logged message from code..... そのため、このログファイルから2つのことを頻繁にチェックします。 グローバル条件と開始時刻を含む最初の数行も示されています。 最後の数行は、終了ステータスに他の情報が含まれています。 ファイルの最初と最後の数行だけを表示できる、便利な単一のコマンドはありますか?

4
シェルで何百ものHTMLソースコードファイルを解析する方法は?
数百のHTMLソースコードファイルがあります。<div>これらの各ファイルから特定の要素の内容を抽出する必要があるため、各ファイルをループするスクリプトを作成します。要素の構造は次のとおりです。 <div id='the_div_id'> <div id='some_other_div'> <h3>Some content</h3> </div> </div> the_div_idlinuxコマンドラインを使用してファイルからdiv とすべての子要素とコンテンツを抽出する方法を提案できる人はいますか?

1
ファイル名に日付と時刻をどのように入れますか?
コマンドを実行しようとしていますが、出力ファイル名に日付と時刻を入れたいと思います。 実行したいサンプルコマンドを次に示します。 md5sum /etc/mtab > 2016_4_25_10_30_AM.log 日付時刻形式は、アンダースコアを使用して適切に設定できます。AMとPMを使用できない場合はUTCでも。

4
インプレース引数のための複数の表現を使用したsed
を使用してファイル内の複数の単語を置き換えようとしています sed -i #expression1 #expression2 ファイル Something 123 item1 Something 456 item2 Something 768 item3 Something 353 item4 出力(望ましい) anything 123 stuff1 anything 456 stuff2 anything 768 stuff3 anything 353 stuff4 トライアウト sed -iforを2回使用すると、次の出力を取得できます。 sed -i 's/Some/any/g' file sed -i 's/item/stuff/g' file これを単一のインプレースコマンドとして作成する方法はありますか sed -i 's/Some/any/g' -i 's/item/stuff/g' file 上記のコードを試してみたときs/item/stuff/g、ファイルとして取得し、作業を試みます。

7
コンマ区切りファイルでのみ引用符の間のコンマを削除します
入力ファイルがコンマ(,)で区切られています。二重引用符で囲まれたいくつかのフィールドには、カンマが含まれています。ここにサンプル行があります 123,"ABC, DEV 23",345,534.202,NAME 二重引用符と二重引用符内で発生するすべてのコンマを削除する必要があります。したがって、上記の行は以下に示すように解析されるはずです 123,ABC DEV 23,345,534.202,NAME を使用して次のことを試みましたsedが、期待した結果が得られませんでした。 sed -e 's/\(".*\),\(".*\)/\1 \2/g' sed、awkまたはその他のUNIXユーティリティを使用した簡単なトリックはありますか?
23 text-processing  sed  awk  csv 


5
カットを使用して複数の空白で区切るにはどうすればよいですか?
このサンプルの最後の列を取得したい: [ 3] 1.0- 2.0 sec 1.00 MBytes 8.39 Mbits/sec [ 3] 2.0- 3.0 sec 768 KBytes 6.29 Mbits/sec [ 3] 3.0- 4.0 sec 512 KBytes 4.19 Mbits/sec [ 3] 4.0- 5.0 sec 256 KBytes 2.10 Mbits/sec ... 私が使用する場合 cut -d\ -f 13 私は得る Mbits/sec 6.29 4.19 2.10 時々、間に追加のスペースがあるためです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.