Pinterestのようなサイトでは、これらの写真をすべて保持できますか?


4

サイトが一般的に膨大な数の写真を保持する方法を知っている人はいますか?私はこれを調査しようとしましたが、トリックがなければ、これらすべてを保持するために巨大なストレージスペースが必要になるようです。彼らはそれらを圧縮すると確信していますが、それでも1つのサイトのために保持する膨大な量のデータです。


howstuffworks.com/pinterest.htmこれを見たことがありませんか?
ブルーベリー-Vignesh4303

4
はい、彼らは単にそれらを保存します。ストレージはCPUおよびメモリに比べて安価です。
ポール

4
Pinterestのようなサイトで明らかにできることの1つは重複排除です。表示されるページ数に関係なく、各画像を1回だけ保存します。
マイケルボルグワード

私の推測では、複数のハードドライブです!:)
デイブ

回答:


5

それは保存することになると大規模なデータの量を、コンテンツプロバイダはまたとして知られている、ストレージ・エリア・ネットワークを使用してSAN sおよびSANストレージハードウェア。

ウィキペディアから:

ストレージエリアネットワーク(SAN)は、統合されたブロックレベルのデータストレージへのアクセスを提供する専用ネットワークです。SANは主に、ディスクアレイ、テープライブラリ、光学ジ​​ュークボックスなどのストレージデバイスをサーバーからアクセス可能にし、デバイスがオペレーティングシステムにローカル接続されたデバイスのように見えるようにするために使用されます。SANには通常、ストレージデバイスの独自のネットワークがあり、通常、ローカルエリアネットワークを介して他のデバイスからアクセスすることはできません。SANのコストと複雑さは2000年代初頭に低下し、エンタープライズ環境と中小規模のビジネス環境の両方に広く採用できるレベルになりました。

それでは、SANストレージデバイスはどのように見えますか?一部は次のようになります。

この

これらのスロット(赤い四角はドライブ取り出しボタン)のすべてがハードディスクドライブです。写真の1つは比較的小さなSANストレージデバイスですが、他のものは大きく異なって見えることがあり、サイズがはるかに大きくなる可能性があります。

私が働いていた場所には、基本的にハードドライブで満たされた3台の冷蔵庫のサイズの箱であるSANストレージがありました。その後、必要に応じてこれらのドライブを取り上げ、冗長性のためにRAIDアレイを作成しました。より多くのスペースが必要になったため、より多くのSANストレージデバイスを注文し、ストレージエリアネットワークに接続することができました。これにより、ペタバイトの冗長ストレージを確保できました。

Flickr、Picassa、Facebookなどのサイトには、大規模なデータセンターを埋める非常に大きな SANSがあります。


2

あなたの質問から、コンピュータサイエンスのバックグラウンドを持っていないということを収集しました。

非常に大量のデータ(またはトラフィック)を処理する人気のWebサイトは、新しいものでも非常にユニークなものでもありません。通常、大規模な圧縮に関してはトリックはありません(JPEGとしてアップロードされたほとんどの写真はすでに高度に圧縮されているため、さらに圧縮すると詳細が失われることがよくあります)。うまくいくのは、巧妙なアーキテクチャ、大量のコンピューター、高速で信頼性の高いネットワーク、そしてもちろん数テラバイト(またはペタバイト)のストレージです。実際、ストレージは多くの場合、最も問題が少ないです。ストレージと計算能力は最近非常に安価です。

多くの場合、データは複数のコンピューターに分散(複数のコピー)され、冗長性と高速な検索が行われ、データのシーク/検索は並行して行われます。頻繁に使用されるデータをネットワークまたはユーザーのエッジの近くに保ち、そのようなデータを使用状況に基づいて更新し続けることは、いくつかの手法です。

頻繁に使用され、魔法のように見えるかもしれないオタクのキーワードは次のとおりです。

  • マルチレベルキャッシング
  • 分散ストレージ
  • データウェアハウス
  • NoSQL
  • Map-Reduce
  • データのシャーディング(主にSQLの世界)
  • 並列処理
  • CDN(コンテンツ配信ネットワーク)

これをより効率的かつ効果的に行う方法は、コンピューターサイエンスとコンピューターアーキテクチャの分野における研究分野であり、研究分野でもあります。データの性質、アクセスの性質/頻度(より多くの書き込み対より多くの読み取り)、必要な信頼性の種類などに基づいて、異なる手法が使用されます。

編集: Googleのサーバーラック(1999年以降)のこの写真は壮大です:!各サーバーの「トレイ」(特に「g61」というラベルが付いているもの)の中央にある露出したハードドライブ(3〜4台)に注意してください。

ここに画像の説明を入力してください

完全な旅は、この投稿キャプチャされます


@Keltariの別の良い答えにコメントを残すのに十分な担当者がいないので、ここでコメントします。SANは、多くの大企業とそのIT部門が好む人気のある、より一般的でわずかに伝統的なアプローチです。ただし、GoogleやYahooなどで人気を博した代替アプローチがあります。大まかに言うと、このアプローチは、それぞれが大きなストレージを備えた巨大なサーバークラスター(ピザボックス)を持つという原則に基づいています。その分散計算をする...使用されている
カケス

...複雑な検索を分解し、クラスタ全体に分散して並行して実行されるより小さな操作へのルックアップ操作。次に、検索結果を組み合わせて、より複雑な質問に対する答えを形成します。これは、検索ネットワークおよび「読み取りが多い」操作の典型です。最近では、Google、YahooなどもSANを使用していることに注意してください。これらの組織は非常に複雑すぎて、急速に成長してストレージまたはコンピューティング用の単一のテクノロジーに固執しています。最終的には、適切なツールを適切な仕事に使用することになります。
ジェイ

1

写真はほぼ確実に、JPEGまたはPNG圧縮ですでに圧縮されており、すでに圧縮されたデータを圧縮することはできないため、写真を圧縮することはできません。(それは少し単純化しすぎていますが、情報理論に深く入り込みたいのでなければ、それを与えられたものとして受け入れてください。)

近道は本当にありません。膨大な量のデータを保持するサイトには、大量のデータを保持するコンピューターがあります。

画像の重さが1 MBであるとします。大きいものも小さいものもたくさんありますが、単純にするために、平均的な画像が1 MBであるとしましょう。最近では手頃な価格の2 TBドライブを見つけるのは難しくありません。つまり、各ドライブは理論的には約200万個のイメージを保持できます。(明らかに、オーバーヘッドのためにいくらかのスペースが失われますが、あなたはそのアイデアを得ます。)

サーバーは、複数のハードドライブでセットアップされたRAID構成を持つことができます。一部のデータは冗長性のために失われますが、それでもコンピューターごとに数TB相当のドライブを持つことができます。また、サーバーファームは、数十、数百、または数千ものサーバーを保持できます。これが、PinterestやFacebookのようなサイトが大量のコンテンツを管理する方法です。

Webブラウザーからの要求をルーティングし、サーバーファーム内の適切な場所でコンテンツを検索してユーザーに提供するコンピューターを前に配置した大規模なサーバーファームを使用する傾向があります。ここで取り上げようとするのは非常に大きなトピックですが、それが基本的な考え方です。


1
コンピューターの数は、ストレージの容量や機能とは関係ありません
ケルタリ

1
@Keltariは確かにそうです。コントローラーに接続できるドライブは非常に多く、サーバーには非常に多くのコントローラーしか接続できません。1台のサーバーで処理できるスペースには限りがあるため、複数のサーバーに分散する必要があります。
リッチーフレーム

@Richie:これがSANを使用する理由の1つです。「非常に多くのドライブ」用のコントローラーが不要になり、SANと通信するためのインターフェイスカードのみが必要になり、サーバーはSANに含まれるドライブの数を気にする必要がなくなります。もちろん、OSにはまだ最大のパーティションサイズがありますが、通常は非常に大きくなります。
sleske

@RichieFrame、あなたはサーバーが非常に多くのドライブを物理的に保持できることは正しいです。ただし、これがSANおよびNASの理由です。ストレージが抽象化されているため、実質的に無限になります。サーバーは、0個のドライブを保持でき、単純にSANまたはNASに接続できます。
ケルタリ

公平を期すと、SANは本当に大量のディスクを保持できるコンピューターの集まりにすぎません。それらは特にその目的のために構築されています。しかし、SANが普及する前でさえ、一部のサーバーは100台を超えるディスクを保持できました。
MSalters
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.