これら2つのタグの間にあるものはすべて<tr> </tr>
、HTMLドキュメントから取得したいです。現在、HTMLパーサーを保証する特定のHTML要件はありません。私は単に一致<tr>
し</tr>
、その間にすべてを取得するものが必要であり、複数tr
のものが存在する可能性があります。私はawkを試しましたが、それはうまくいきますが、何らかの理由で抽出された各行の複製を与えることになります。
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
これについてどうやって行くのですか?
awk
が働いているが、重複を与えているので、awkの出力を渡しsort -u
て明確にして
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
です。動作しない場合は、入力例と期待される出力を投稿してください。