最初のページには何千もの結果があるとGoogleが言っているのに、最後のページには100未満の結果があるのはなぜですか?


11

最初のページには何千もの結果があるとGoogleが言っているのに、最後のページには100未満の結果があるのはなぜですか?

それは一種の再帰的な Google検索であり、自明です。文を微調整して正確に対応する数を見つけようとするのに少し時間がかかりましたが、代わりに「数百」に変更しました。:P

Googleを十分に長く使用している場合、これに似た状況に何度も遭遇したことは確かです。表示されるページが10ページ未満の場合はいつでも簡単に確認できます。ポイントは次のとおりです。結果の数最後の1以外のすべてのページはのように思えるひどい見積もり

さらに奇妙なことに、ランダムな時間の見積もりが突然、すべてのページで最後のページよりもはるかに良くなり、ほぼ正確に同じになる-常に正しい唯一のページ。

だから、誰もが理由を知っていますか?


1
現在、その検索の1ページ目には3200件の結果が表示されていますが、最後のページには75(更新に関心のある人向け)と表示されています
dkuntz2

@DKuntzそれは私に2990と65です(ログインしている間)。一方、サインアウトすると(最初にそれを行った方法です)、3120と77になります。多分後で質問を少し変更してビルドしますより一貫性のある再帰クエリを作成します。ただし、誰でも実行できます。:P
cregox

グーグルは変だ。
dkuntz2

鉱山は、常にそれが4つの結果のページまたは22のかどうか、最後のページの208件の結果を言い、それは常に208語る
mchid

回答:


6

正確な答えはわかりません。おそらくGoogle以外の人は知りません。しかし、私は2つのデータポイントを持っています。

最初の問題は、XKCDの問題に対する見方です。

そのため、Googleは明らかに「それをねじ込んで」と言って巨大な数値をスローする結果ボリュームの特定のしきい値があるように見えます。これはおそらく、意図的な欺瞞ではなく無能によるものだと思います。多くのソースからすばやくページを生成するのは難しいと思います。おそらく、多くの結果が得られた検索の場合、すべてを同期させる時間はありません。だから彼らは数字をごまかす。これが彼らが彼らよりもはるかに多くの結果を持っているように見えるという事実は、おそらく単なる意図しないボーナスです。

2番目のデータポイントは、この問題に非常に興味があり、Googleの何人かの友人を悩ませていた私がいたコンピュータサイエンスの教授からのものです。彼らは、検索から実際に返された結果の数を把握することは非常に高価になることがあるので、彼らは最善の推測をして結果の最初のページを返すだけだと彼に言いました。実際にページのドリルダウンを開始したときのみ、Googleは残りのページを完全に計算する必要はありません。

したがって、どちらも決定的な答えではありませんが、うまくいけば、Googleの不正確さを引き起こしている可能性のある問題の種類を説明するのに役立つでしょう。

編集:

このページの Sathyaの回答には、GoogleのウェブマスターKB からの回答があります。

検索を実行すると、多くの場合、結果とともに次の情報が表示されます:XXXXについての結果1-10。

検索結果の総数のGoogleの計算は推定です。おおよその数値は価値があると理解しています。正確なアカウントではなく見積もりを提供することで、質の高い検索結果をより早く返すことができます。

また、検索結果の次のページをクリックすると、検索結果の総数が変わる場合があります。この場合、クエリ結果の一部が重複していることがわかり、それらの重複を折りたたむことで、探している特定の結果をより簡単に見つけることができます。複製を折りたたむと、結果の推定数が減少し、結果ページの総数も減少します。


私はXKCDが大好きでかつての教師をうんざりしていますが、あなたが言っていることは、私はおそらくこれをstackoverflow.comで尋ねるべきだということです:P
cregox

私は、stackoverflowの誰もが決定的な答えを持っているとは思いません。本当に知る必要がある場合は、Googleに問い合わせてください。数か月前にGoogleに質問した人からの回答しか伝えられません。
dsolimano

明確な答えを探しているのではなく、合理的でより深い説明があり、できれば良い情報源を備えたものだけを探してください。あなたの考えを誤解しないでください。しかし、たとえ権威があり、理にかなっているとしても、「難しいから」と言うのは私には少なすぎます。うーん...多分
skeptics.se:o

素敵な編集です。これで良いソーシングになります。それはまだ「難しいから」と言っていますが、それでも私はまだ詳細を望んでいます。:P
cregox

7

いいえ-数値は概算です。

検索を実行すると、多くの場合、結果とともに次の情報が表示されます:XXXXについての結果1-10。

検索結果の総数のGoogleの計算は推定です。おおよその数値は価値があると理解しています。正確なアカウントではなく見積もりを提供することで、質の高い検索結果をより早く返すことができます。

また、検索結果の次のページをクリックすると、検索結果の総数が変わる場合があります。この場合、クエリ結果の一部が重複していることがわかり、それらの重複を折りたたむことで、探している特定の結果をより簡単に見つけることができます。複製を折りたたむと、結果の推定数が減少し、結果ページの総数も減少します。


結果の数を常に1000程度に制限している場合、これは良い動作ではないと思います。ユーザーがもっと欲しい場合は、もっと見せるべきです。私の見解では、いくつかの一般的なキーワードは非常に大量の検索結果(花、本など)を返すはずであり、インターネット上にはさまざまな写真がたくさんあると思います。

@ user11656では、Google画像検索が、使用する可能性のある標準アプリでの検索と同じように機能すると想定しています。物事は通常、その規模では非常に異なる動作をします。オーストラリアのサーバーに最近アップロードされた画像がまだ米国のサーバーに伝播されていない可能性があるため、「花に一致するすべての画像」に対する回答は1つではない可能性があります。次に、複製を提示する方法や、何百万ものユーザーに対して何百万もの画像にわたってそれらすべてを瞬時に行う方法などに対処する必要があります。その難しいものとあなたは、アーキテクチャ上の妥協をしなければなりません。
George Mauer

3

Googleの結果数は無意味な指標です。別に重複の崩壊から、あなたもカウントは乗算周波数によって最初の場所で計算される方法、およびGoogleはキャップを課しているという事実は、ステミングしていることを設定します結果の最大数これまでに返されます。


2

上記の答えはどれも正しくありません。

Googleの推定値は、与えられた結果よりも実際の結果に近いものでなければなりません。

これは簡単な例で示すことができます。「ロシア」や「マイケル」など、やや頻度の高い単語を選びます。実際には、インターネット上には、サイトのどこかにこれらの単語を含む、数十万ではなくても、数千のWebサイトが必要です。しかし、Googleの結果では、たとえば700しか得られない場合があります。

真実は、グーグルが膨大な過大評価を与えるということではありませんが、グーグルはあなたに与える結果の数を非常に制限しています。それは結果を厳しく要約し、個人としての私たちの主要な不利益に。場合によっては自分の用語で何千ものサイトを読みたいので、それは残念です。

私はこれを知っています。これは、Googleを長い間(おそらく10〜15年)使用していて、一般に同じ用語を使用するサイトの数は一般に私がグーグルを利用していた時代に増えてきました。

以前は、何年か前にいくつかの用語でおそらく1000件の結果を得ることができましたが、今では、1000件の結果を得たのと同じ用語で500件の結果を取得しています。


2
「上」は、いくつかの異なる方法で並べ替えることができるため、回答にコンテキストがないことに注意してください。「投票」によるデフォルトのソートを想定している場合でも、上下の投票が追加されると、それらの位置は変化します。
エール

とても興味深い!ロシアは今私に322の結果だけを与え、それは最後の34ページにそのように表示するだけです。それまでは799 000 000の結果になります!これは良い見識ですが、まだ正しくないようです。最初の見積もりも正しくないと思います。意図は、「Webに存在すると思われる数」ではなく、表示される結果のみをもたらすことです。したがって、最後のページで修正します。
cregox

1

Google(画像)検索エンジンの問題は、差異を削除することで関連性を目指すことです。まず、それがどのように機能するかを理解することが重要です。インターネットにアップロードされた画像は、次の2つの方法でインデックスを作成する必要があります。

  • 独創性に基づく(画像は、色、サイズ、パターン、形状認識、タイプなどに基づく「スマートボット」によって分析されます)
  • 類似性に基づいて(画像は「スマートbot2」によって分析され、データベース内の既存の画像と相互参照され、さらに1つまたは2つのカテゴリラベルでタグ付けされます:「画像は一致」と「画像は類似しています...」 ")

索引付けが行われた後、画像は認識の結果として「キーワード」を継承し、トピック外の結果がエンドユーザーに表示されないようにします。重要なのは、各キーワードが独立したフレーズであり、関連性の強さに基づいて%で値が割り当てられていることです(そのため、検索ボックスで単語をグループ化すると結果が少なくなり、画像をアップロードするか、URLを入力してGoogleで検索すると、Google上位のキーワードのみで「推測」を割り当てます。つまり、検索がそのように設計されていないため、検索ではすべての画像が表示されることはありません)

1日の終わりに画像検索を実行すると、検索ボックスのすぐ下に、「25,270,000,000の結果(0.55秒)」という膨大な数が表示されます。 200を超える(最大500ですが、ユーザーが要求した後のみ)結果も除外されます。

  • 外部複製(同じ画像が同じサイトページで2倍以上の場合)
  • 関連性の重複(「最良の結果」のみを表示-下の画像を参照)
  • 法律に問題がある画像(下の画像を参照)
  • DMCAに違反する画像(下の画像を参照)
  • スパム、マルウェア、フィッシングのソースに由来する画像
  • 非表示の画像(ユーザーがセーフサーチを無効にしなかった場合)
  • Googleによってブラックリストに登録されている画像(記事
  • ARが異なる画像(基本的に、画像検索参照とはアスペクト比が異なるすべての画像。たとえば、選択した画像で検索すると、すべての望ましい結果が見落とされる可能性があります。たとえば、奇妙な比率9:7とすると、 Googleの比率は3:4です。アスペクト比は常に最初の基準であるので、これはおそらくこの検索エンジンの最大の欠点です。)
  • そしてもっとたくさん

要約すると、画像の検索結果が完全に関連することはありません。検索語句「gate poster」で最終的に望ましい結果が得られる場合があります。それ以外の場合は、「gate cover」、「gate bluray」、「gate dvd」、「gate 2015」、さらには「自衛隊彼の地にて斯く戦えり」-「すべて」の画像結果を取得することはできません。「すべて」のものが存在しないため、そこに到達するためにそれを試してみる必要があるのはそのためです。また、言及に関連するのは、異なる基準と基準で動作するため、より異なる方法で作業を行うことができる他の画像検索エンジンがあることです。「Google」だけではなく、今までもない... >> https://www.yandex.com/images/

注目すべき拡張:


繰り返しますが、これらを重複としてマーク付けすると、各質問に回答を投稿するよりもはるかに役立ちます。
jonsca

0

上部には、7000件の結果のうち70 ページが表示されています(例)。ページ番号と結果の数が表示されます。検索結果は70件ではなく、70ページです。お役に立てれば。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.