回答:
私は物事の組み合わせがあると確信しています:
たくさん-データは多くのノードと異なるデータセンターに分散され、複製されます
ハト。
Googleの検索技術の中核は、PigeonRank™です。これは、スタンフォード大学のGoogle創設者Larry PageとSergey Brinによって開発されたWebページのランキングシステムです。
BFスキナーの画期的な研究を基に、PageとBrinは、低価格の鳩クラスター(PC)を使用して、人間のエディターやマシンベースのアルゴリズムよりも高速にWebページの相対価値を計算できると考えました。また、Googleには毎日サービスのあらゆる側面を改善するために働いている何十人ものエンジニアがいますが、PigeonRankはすべてのWeb検索ツールの基盤を提供し続けています。
Googleが特許を取得したPigeonRank™がこれほどうまく機能する理由
PigeonRankの成功は、主に依存しているドバトの優れた訓練可能(コルンバのリヴィア)とそのオブジェクトを認識するためのユニークな能力に関係なく、空間的配向の。一般的な灰色の鳩は、わずかな違いのみを表示するアイテムを簡単に区別できます。これにより、数千の類似ページから関連するWebサイトを選択できます。
ハトの群れを密集したクラスターに収集することで、Googleは従来の検索エンジンよりも優れた速度で検索クエリを処理できます。従来の検索エンジンは、関連性のランク付けを行うために通常、猛禽類、陰気な雌鶏または動きの遅い水鳥に依存しています。
場合は、検索クエリが送信され、Googleに、それがデータ小屋にルーティングされるモニターが燃える速度で結果ページをフラッシュ。ときに、関連する結果が観察されたクラスタ内のハトのいずれかによって、ページを一のPigeonRank値を割り当てくちばしとゴム引きスチールバーに当たります。各ペックについて、PigeonRankは増加します。最も多くのペックを受け取ったページは、ユーザーの結果ページの上部に返され、他の結果がペック順に表示されます。
グーグルに関するいくつかのことを念頭に置くことが重要です。
DBは独自のBigTableであり、ニーズにぴったり合うようにGOOGLEがカスタム設計しました
プロプライエタリDBは、プロプライエタリファイルシステム(Google File System)の上に構築されています。これも、GOOGLEによって、一般的な汎用ハードウェアを使用して簡単に拡張できるように設計されました。アーロンが答えで述べたように、彼らは少数の非常に強力なサーバーではなく、多数の平均的なサーバーを持っています。
アクセスを高速化する方法として、複数のマシンに個別のテーブルを保存します-ソフトウェアはどのデータがどのマシンにあるかを認識し、ディスクをたどってデータを見つけるのではなく、関連情報とともにサーバーに直接アクセスできます。
Googleは、従来のリレーショナルデータベーステクノロジーを使用していません。独自の技術を開発し、大きなテーブルとマップを削減しました。元の研究論文はこちら:Big TableとMap / Reduceです。興味深いのは、並べ替えられた文字列テーブルSSTableです。
同様の技術が現在hadoopおよびNoSQLデータベースで使用されています。
Steven Levyの「In The Plex:Googleが私たちの生活をどのように考え、機能し、形作るか」を読んでください。この本は、Googleのすべてのことに関する魅力的な読み物であり、検索の背後にあるテクノロジーとエンジニアリングの一部を高レベルで説明しています。アーロンは彼の答えの中でそれを非常にうまく要約しており、レヴィの本は彼らがそれをどのように行うかについての詳細をあなたに提供します。