大きな検索エンジンはどのデータベーステクノロジーを使用していますか?[閉まっている]


32

GoogleやYahooが非常に大量のデータに対してキーワードを検索する方法を知っている人はいますか?このためにどのような種類のデータベースまたはテクノロジーを採用していますか?

数ミリ秒かかりますが、10億ページ以上のインデックスが作成されています。


Stack Overflowにも同様の質問があります:stackoverflow.com/questions/362956/…–
splattne

回答:


21

私は物事の組み合わせがあると確信しています:

  • 深刻なハードウェア
  • たくさん-データは多くのノードと異なるデータセンターに分散され、複製されます

    • (実際には、少なくともGoogleの場合、少なくとも数千の本当にローエンドのサーバーがあると思います)
  • 多くの一般的なクエリの結果がキャッシュされます。これまで検索したことがないことがわかっているものについて、潜在的な検索が事前入力される方法に注意してください。彼らはあなたが何を検索するかを予測しており、すでに結果が事前に計算され、どこかにキャッシュされていることを望んでいます。多くの場合、彼らはそうします-あなたが前に誰かから尋ねられていないGoogleで今日出てくることができる多くの検索はありません。彼らが新しい検索フレーズを取得すると、おそらくフリーテキスト検索のようなものを使用します-そして、あなたがそれらを検索した後にドキュメント内のキーワードを見つけようとするのではなく、ページが最初にクロールされるときにキーワードが意味的に抽出されることを期待します。もちろん、これらのキャッシュを定期的に無効にし、ページランクを再計算し、

34

ハト

Googleの検索技術の中核は、PigeonRank™です。これは、スタンフォード大学のGoogle創設者Larry PageとSergey Brinによって開発されたWebページのランキングシステムです。

ここに画像の説明を入力してください

BFスキナーの画期的な研究を基に、PageとBrinは、低価格の鳩クラスター(PC)を使用して、人間のエディターやマシンベースのアルゴリズムよりも高速にWebページの相対価値を計算できると考えました。また、Googleには毎日サービスのあらゆる側面を改善するために働いている何十人ものエンジニアがいますが、PigeonRankはすべてのWeb検索ツールの基盤を提供し続けています。

Googleが特許を取得したPigeonRank™がこれほどうまく機能する理由

PigeonRankの成功は、主に依存しているドバトの優れた訓練可能(コルンバのリヴィア)とそのオブジェクトを認識するためのユニークな能力に関係なく、空間的配向の。一般的な灰色の鳩は、わずかな違いのみを表示するアイテムを簡単に区別できます。これにより、数千の類似ページから関連するWebサイトを選択できます。

ハトの群れを密集したクラスターに収集することで、Googleは従来の検索エンジンよりも優れた速度で検索クエリを処理できます。従来の検索エンジンは、関連性のランク付けを行うために通常、猛禽類、陰気な雌鶏または動きの遅い水鳥に依存しています。

場合は、検索クエリが送信され、Googleに、それがデータ小屋にルーティングされるモニターが燃える速度で結果ページをフラッシュ。ときに、関連する結果が観察されたクラスタ内のハトのいずれかによって、ページを一のPigeonRank値を割り当てくちばしとゴム引きスチールバーに当たります。各ペックについて、PigeonRankは増加します。最も多くのペックを受け取ったページは、ユーザーの結果ページの上部に返され、他の結果がペック順に表示されます。


6
注:このページは2002年エイプリルフールに投稿されました
ジンボブ博士

19

グーグルに関するいくつかのことを念頭に置くことが重要です。

  • DBは独自のBigTableであり、ニーズにぴったり合うようにGOOGLEがカスタム設計しました

  • プロプライエタリDBは、プロプライエタリファイルシステム(Google File System)の上に構築されています。これも、GOOGLEによって、一般的な汎用ハードウェアを使用して簡単に拡張できるように設計されました。アーロンが答えで述べたように、彼らは少数の非常に強力なサーバーではなく、多数の平均的なサーバーを持っています。

アクセスを高速化する方法として、複数のマシンに個別のテーブルを保存します-ソフトウェアはどのデータがどのマシンにあるかを認識し、ディスクをたどってデータを見つけるのではなく、関連情報とともにサーバーに直接アクセスできます。



9

Steven Levyの「In The Plex:Googleが私たちの生活をどのように考え、機能し、形作るか」を読んでください。この本は、Googleのすべてのことに関する魅力的な読み物であり、検索の背後にあるテクノロジーとエンジニアリングの一部を高レベルで説明しています。アーロンは彼の答えの中でそれを非常にうまく要約しており、レヴィの本は彼らがそれをどのように行うかについての詳細をあなたに提供します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.