はい。これは、プロセスをより明確にするために私が処理するケースの1つになります。多少長くなりますが、うまくいけばそれほど長くはありません。
最初から始めましょうか。
1997年のBrin and Pageの調査報告に基づいて、Googleがどのように機能するかについて知っていることから始めて、今日まだまだありそうなことがいくつかわかっています。
GoogleのインデックスとフェッチキューにURLがあり、ページをフェッチします。ページのコードは、さまざまな形式の処理のためにデータベース内に保存されます。プロセスの1つは、新しいリンクを見つけることです。Googleによって検出されたリンクは、存在する場合、最初にリンクインデックスに配置されます。そうでない場合、リンクはリンクテーブルに追加され、フェッチキューに追加されます。
リンクテーブル内のリンクには、少なくともこれらの要素、リンクURL、ソースURL、およびリンクテキストがあります。他のデータ要素がある可能性がありますが、これらは議論を進めるものではありません。リンクテーブルに追加されたリンクには、検証済みのソースURLがありますが、必ずしもターゲットURLではありません。例としてリレーショナルデータベースを使用すると、ソースとターゲットのURLはURLテーブル内のURL IDとなり、結合テーブルはIDを使用してリンクテーブルのソースURLとターゲットURL要素をURLテーブルに結合します。混乱していますか?しないでください。
ターゲットページがフェッチされていない場合、リンクテーブル内のリンクはダングリングリンクと呼ばれます。ページがフェッチされると、リンクテーブル内のリンクが完成します。ターゲットページが存在しない場合、リンクテーブル内のリンクは壊れたリンクです。簡単?
完全なリンクのみが値を渡すことができます。PageRankアルゴリズムでは、値を計算するために完全なリンクが必要です。ぶら下がりリンクと壊れたリンクはすべて、リンクを使用した計算を停止します。以前は、PRは再帰的なプロセスで、リンクテーブルを使用してリンクの値を繰り返し計算し、リンクに合わせて調整できる値が非常に小さい数値の範囲内に収まるため、効果的に違いが生じることはありませんでした。これはまだハウスキーピングプロセスとして発生します。ただし、今日のPRは、あるページから別のページへの距離を相対的に重要度で測定するネットワークのホップと同様の別の方法を使用して計算されます。これは、元のPageRankモデルがエミュレートするために設計された方法である信頼ネットワークモデルに基づいています。リンクは、あるエンティティから別のエンティティへの信頼投票です。これよりも複雑になりますが、あなたは写真を取得します。精度は低くなりますが、信頼できるほど正確ですが、よりリアルタイムの計算を使用して再帰プロセスと同じことを効果的に実行します。信頼が確立されていない場合、信頼値(信頼ネットワークモデルを使用)を渡すことができないため、これには完全なリンクが必要です。リンクは、信頼投票または信頼ネットワークモデルのリンクであることを忘れないでください。PageRankは、信頼ネットワークの信頼値として表されます。
リンクとその重要性を理解したところで、次に進みましょう。
検索エンジンの場合、URLを削除しても意味がありません。URLがURLテーブル内に存在しない場合、URLについて何も知ることができず、途方に暮れてしまいます。URLが存在しなくなった場合など、意味がなければ、URLは一般に削除されない可能性があります。ただし、ページがNOINDEXに設定されている場合、検索エンジンはページにインデックスを付けないように明示的に指示されています。インデックス内のWebページは、URLとHTMLソースコードの2つで構成されているため、NOINDEXはこの時点でページを効果的に削除します。NOINDEXページへのリンクは少なくともぶら下がっています。
インデックス付きページがどのように見えるかがわかったので、さらに先に進みましょう。
検索エンジンがウェブページやサイトにペナルティを課す方法はたくさんあります。1つは上場廃止です。これはすべてのペナルティの中で最も深刻であり、回復には長い時間がかかります。このペナルティのカテゴリは、ページが見つからない、または見つからないため、証明できます。また、Google Search Consoleは、大まかに言って、ページが除外されていることを通知します。残りのペナルティのうち、ペナルティはSERPフィルターに適用されます。
検索クエリが実行されると、実際には、インデックスに対するいくつかのクエリが一度に存在し、アルゴリズムの一部に基づいて結果セットにブレンドされます。残りのアルゴリズムは、多くの場合単一エンティティと呼ばれ、比較的単純な一連のSERPアルゴリズムです。トレンドなどのよりリアルタイムのメトリックに基づいて結果セットを並べ替える主要なアルゴリズム。アルゴリズムのうち、結果セットからエントリを削除するアルゴリズム、または結果セット内のエントリの配置を大幅にダウングレードするアルゴリズムは、フィルターと呼ばれます。適用されるのは、DMCAを処理するフィルターです。...we have removed 1 result(s) from this page...
では、ペナルティがどのように適用されるかを理解したところで、リンク、PR、およびDMCAフィルターが接続されていますか?
これで、フィルターが適用されたことがわかりますが、これはPageRankの計算方法であるリンクインデックスとは関係ありません。リンク/ PRプロセスから可能な限り削除されます。リンクとPRはインデックス作成プロセスの最初にありますが、DMCAペナルティページの削除はクエリプロセスの最後にあります。実際、これらは2つの完全に別個のエンジンです。そのため、DMCAの違反によりページが削除される可能性がありますが、実際にはインデックスから削除されないため、ページへのリンクやページからのリンクは引き続き計算されます。
泥だらけ?私はこれをよく説明したことを望みます。ご不明な点がございましたら、お気軽にお問い合わせください。
[更新]
OPのシナリオに適用されない例外。
@StephenOstermillerは、上記を損なうことのない良い点を示していますが、完全を期すために追加したいと思います。
ご存じのとおり、検索でサイトまたはページにスコアを付けるには、多くの要素が必要です。これは想像できるほど技術的でも神秘的でもありませんが、それでもまだ多くの要因や考慮すべき要素があります。信頼スコアの影響を忘れたのは、OPの場合には当てはまらなかったためです。ここに追加します。
明らかに、スパムサイトなど、まったく役に立たないサイトがあります。このサイトの分類の中には、著作権コンテンツを常習的に乱用しているサイトがあります。これは何年も前に、コンテンツスクレイパーがあなたのハードワークからサイトを構築するという大きな問題でした。長い間、何も行われていませんでした。オリジナルのコンテンツを持つサイトは、かなり一貫してスクレイパーサイトに負けてしまいます。私は知っておくべきだ。PR 8サイトが2つあり、スクレイパーサイトが原因でトラフィックがほぼすべて失われました。
しかし、物事は変わった。そして、大幅な変更が始まってから約4年が経過しました。
これらのサイトの特別な分類では、サイトの信頼スコアを大幅に下げることができます。これはよく知られています。信頼スコアの再構築には何年もかかり、一部のサイトでは、これが発生することはありません。たとえば、ドメインマネタイザーが何十万人ものユーザーが同じ悪用を求めてサイトを徹底的にゴミ箱に捨てようとするのはなぜだと思いますか?それはドメインが償還を超えてその価値を台無しにすることができるというのが現実だからです。
信頼を築くには多くの要因があります。ここでは説明しません。ただし、信頼はすべてのサイトのランクを構築する主要なコンポーネントであることを知ってください。
とは言え、かなり広範囲にわたる実績を持つDMCAの重大な違反者であるサイトの場合、その信頼スコアに重大な影響が及ぶことになります。これはOPが説明しているシナリオではありません。ただし、ここで想定しているシナリオです。
リンクとPageRankの確立には、複数のコンポーネントがあります。1つは、ページ自体のPageRank(権限)です。権限の高いページには、権限の上限があります。PR 8ページは、そのページのリンク間で値8を共有しません。これは、より自然な曲線をPRに組み込むことを目的とした元のPageRankアルゴリズムの一部です。そうしないと、長期間経っても新しいページが高い権限を持つページと競合することはほぼ不可能です。リンク自体の値は、リンクテキストのセマンティック値、リンクURL、リンクの場所(目立ち)、リンクが適用される場合はそのリンクを含むコンテンツブロックのセマンティック値など、いくつかの要素を使用してスコアリングされます。すべてのリンクスコアは0から.9です。権限とリンクスコアの計算は、リンクによって渡される値です。
まあ、良い。では、これはDMCAの重大な違反者であるサイトにどのように影響するのでしょうか。
リンクの値はソースサイトから取得されるため、インバウンドリンクの値は必ずしもターゲットサイトの信頼スコアの影響を受けません。ただし、送信リンクは可能です。重要なDMCAの乱用者であるサイトの権限は、信頼スコアの影響を受けます。結局のところ、権威は信頼から来ています。したがって、この方法では、信頼スコアに応じて、インバウンドリンクの値が低下せずにアウトバウンドリンクを通過することはありません。
これは答えを多少変えます。
これはOPのシナリオには適用されませんが、インバウンドリンクの値がDMCA違反でサイトを完全に通過しないシナリオがあります。ただし、これはハードケースであるため、これが発生する前のしきい値は重要です。