良いリンク抽出ツールは何ですか?


0

リンク抽出-より良い名前がわからないので。.htmファイルを取得し、そこからのリンクを提供できるユーティリティ。テキストなどにある多数のhtmlリンクがあるファイルに役立ちます...

誰か知っている人はいますか?

回答:


0

Firefoxは、Web Developerアドオンを使用してこれを行うことができます。HTMLファイルを開き、Web Developerツールバーを表示します。

[情報]ドロップダウンメニューで、[リンク情報の表示]を選択します。HTMLファイル内のすべてのリンクのリストを含む新しいタブが開きます。

ここに画像の説明を入力してください

Firefoxのアクセシビリティ拡張機能もウィンドウ内のリンクのリストを表示することができますが、それは障害を持つ人々のために意味の他の機能のトンをやっているとして、それは、多分やり過ぎだ。

ここに画像の説明を入力してください


2

過去1〜2回、このクイックダーティバージョンが必要でした。私の解決策は一般的にこれです:

  • 「http://」を検索して「\ r \ nhttp://」に置き換えます(すべてのhttp URLを独自の行に移動します
  • 「http://」で始まるすべての行でfind / grepまたはその他の方法でフィルタリングします(「^ http://」などの正規表現)
  • 重複した行を削除するオプションを使用して、フィルタリングされた結果をソートします

これが私のすばやい解決策ですが、これに実際のツールを使用したことはありません。ただし、これを.batまたはAutoHotkeyスクリプトでラップできると思います。そのために十分な頻度で必要としなかっただけです。


ええ、あなたが何を意味するか知っています。残念なことに、それは私が今までやっていたこととほとんど同じです。今だけ、ccaがあります。いくつかの参照を比較するためにリンクを取得する必要のある200個のhtmファイル...離れて。
ルーク

また、リンクはhtmlだけでなく、ftp、telnet、およびメールです。さらに悪いことは、以前にそのようなものを持っていたが、今ではもう見つけることができません。
ルーク

簡単なGoogleが、無料のものを含むいくつかのオプションを提供しました。私は「フリーウェア」よりもオープンソースを好む傾向があるので、おそらく「URLエクストラクター」もSourceForge.netで検索するでしょう。
JMD

1
href="(?<url>(((ht|f)tp(s?))\://)?((([a-zA-Z0-9_\-]{2,}\.)+[a-zA-Z]{2,})|((?:(?:25[0-5]|2[0-4]\d|[01]\d\d|\d?\d)(?(\.?\d)\.)){4}))(:[a-zA-Z0-9]+)?(/[a-zA-Z0-9\-\._\?\,\'/\\\+&amp;%\$#\=~]*)?)"

これを実現できる正規表現になります。


1

Text Crawler(フリーウェア)をダウンロードしてインストールします。インストールが完了したら起動してください。[ファイル名/フィルター]ボックスに「* .htm * .html * .php」と入力するか、解析するHTMLファイルの拡張子を入力します。[開始場所]ボックスで、ファイルがあるディレクトリを参照します。デフォルトでは、サブディレクトリもスキャンします。この機能が必要ない場合は、[オプション]をクリックし、[サブフォルダのスキャン]の選択を解除できます。[検索]ボックスに次を入力します。

<a.*?href\s*=\s*["'](.*?)['"].*?>(.*?)</a>

[正規表現を使用]の横にチェックマークが付いていることを確認してください。次に、「検索」をクリックします。すべてのリンクがファイルごとにグループ化されて表示されます。また、抽出をクリックすると、すべてのファイルからのすべてのリンクを含むウィンドウがポップアップ表示されます。あなたはリンクが欲しいと言ったので、私はあなたが全体が欲しいと思った

<a href="something.php">Something</a>

リンクが指す場所とその説明を確認できます。タグ全体を使用せずにリンクのみが必要な場合は、正規表現を

href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\']

戻る

href="something.php"

これがあなたの質問に答えるかどうかを教えてください。TextCrawlerは素晴らしいアプリケーションであり、無料なので試してみる価値があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.