wgetには-np
、親ディレクトリからのファイルの取得を無効にするオプションがあります。私は似たようなものをもう少し柔軟にする必要があります。検討してください:
www.foo.com/bar1/bar2/bar3/index.html
すべてを取得したいが(ツリー階層で)bar2
(!)より「高く」ない。したがってbar2
、フェッチする必要がありますが、フェッチしないでくださいbar1
。
wgetをより選択的にする方法はありますか?
背景:私は、同様の論理構造を持つWebサイトをミラーリングしようとしています-開始点、上、下の順です。そのwget
ようなレイアウトにより適した以外のツールがある場合は、私にもお知らせください。
更新
または、可能な深さを指定する代わりに、「これまたはそのURLに一致しない限り、親はありません」のようなものかもしれません。
アップデート2
サーバーには何らかの構造がありますよね?ツリーとして視覚化できます。したがって、通常、「-no-parent」を使用すると、あるポイントAから開始して、下に行くだけです。
私の望みは、上昇する能力です-Xノードを上昇することが許可されている、または(100%相当)Bノードまで到達することが許可されている(距離BA = X)
すべての場合において、ダウンするためのルールは、ユーザーによって定義されたままです(たとえば、Yレベルだけダウンします)。
保管方法は?実際には問題ではありません。wget
デフォルトではサーバー構造が再作成され、恐れることは何もありません。または、何も修正する必要はありません。それで、2ワードで-いつものように。
アップデート3
以下のディレクトリ構造-各ディレクトリにRのファイルが1つだけあると仮定しましょう-R.htmlなど。もちろん、複数のページを持つことができるため、これは単純化されています。
R
/ \
B G
/ \
C F
/ \
A D
/
E
A(A.html)は私の出発点、X = 2です(つまり、Bはフェッチしたい最上位のノードです)。この特定の例では、これはR.htmlとG.htmlを除くすべてのページをフェッチすることを意味します。A.htmlはBからではなく、そこから開始する必要があるため、「開始点」と呼ばれます。
アップデート4
ネーミングはUpdate 3から使用されます。
wgetオプションwww.foo.com/B/C/A/A.html
問題は、ディレクトリB以下からすべてのページを取得するためのオプションは何ですか(A.htmlから開始する必要があることを知っている)。
bar2
ディレクトリとそのすべての内容が欲しいということです。そうでない場合は、明確にしてください。
bar2
フェッチしたいが欲しくないbar1
?どこbar2
に居住する予定ですか?不要な2つ以上のディレクトリに同じ名前のサブディレクトリがある場合、それらのコンテンツをマージする必要がありますか?サイト全体を取得してから、必要に応じてプルーニング/移動する方がほぼ確実に簡単です。