以下のようにcURLを使用してWebサイトからURLを抽出しています。
curl www.somesite.com | grep "<a href=.*title=" > new.txt
私のnew.txtファイルは以下の通りです。
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
ただし、以下の情報のみを抽出する必要があります。
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
私はそれらに情報があり、タイトルがNOTNEEDEDで終わるものを無視しようとして<a href
います。
grepステートメントを変更するにはどうすればよいですか?
ここに表示されている出力は正しいですか?これを説明するテキストは、この例では意味がありません。
—
slm
探していません
—
テルドン
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
か?
@terdon、まさにそれが私が探していたものでした。あなたがそれを投稿するならば、私はそれを答えとして受け入れることができます。
—
ラメシュ14
Ramesh、それは基本的に@slmの答えです。あなたがそれを受け入れることができるように、私はそれを編集しました。
—
テルドン
ええ、パイプがこんなに強力だとは思いませんでした。私はそれを答えとして受け入れました。ありがとう!
—
ラメシュ14