検索のシステム
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/13 07:38 UTC 版)
「Googleのサービス」の記事における「検索のシステム」の解説
Googleは、検索した文字列を含むウェブページの中で、適切と考えられるページを示すために、ページランクと呼ばれるアルゴリズムを用いている。 ページランクアルゴリズムは、ウェブページの価値の指標(ページランク)を、そのページにリンクしているページのページランクを加重した値に基づいて、再帰的に計算するものである。つまり、ページランクアルゴリズム自体がウェブページの内容の有用性を評価しなくても、人間の作ったリンクの関係を利用することにより、人間の考えるウェブページの有用性とよく関連したランクを付けることができるのである。このアルゴリズムにより、利用者が有用と感じる検索結果を提供でき、高シェアの検索エンジンとなっていった。 また、Googleは、検索結果として表示する順番を決めるのに、ページランクに加えて、およそ百程度といわれる公開されていない基準も用いている。この多くの基準により、露骨な検索エンジン最適化が施されているサイトが検索結果からほぼ一掃され、検索結果の品質を一定のレベルに保っている。公開されていない基準に関しては、コンピューターによる自動的な判定によるものではなく、人手により個別の判断がなされていると見られており、完全に人間の判断を排除したアルゴリズムではなくなっているという指摘もある。 ページランクを調べる方法としては、Internet ExplorerやMozilla Firefox対応のGoogle ツールバーをパソコンにインストールして表示する方法がある。ページランクは0-10までの11段階評価式となっており、日本以外ではAppleのトップページのランク10、日本のランク10のページとしては慶應義塾大学などがある(2006年11月時点)。 Googleは高品質の検索結果を提供するため、また、WWWのインデックス化のために、1万台以上のLinuxコンピュータを使用している。なお、使用している ディストリビューションは、コストパフォーマンスの追求のため、Red Hat Linuxを独自にカスタマイズしたものである。 インデックス化にはGooglebotというクローラが用いられている。クローラは様々なページへのリンクを調査して、データベースに追加する新たなページを見つける。また、インデックス化されているページの更新も定期的に確認している。 このインデックスデータベースとウェブページのキャッシュのサイズは数テラバイトにも及ぶ。初期のクローラやWebサーバは、ともにPythonで書かれていた。現在では検索のメイン部分はC++によって書かれており、WebサーバにはGWSという専用のサーバソフトウェアが使われている。 なお、Googleのサーバに使われているコンピュータは当初、非常に安価(一般に市販されているコンピュータと同レベルかそれ以下)なものであった。近年では、より快適なレスポンスを実現するために、高価なRAMディスクを使用したサーバを使用しており、必ずしも安価なサーバのみを使用しているわけではない。また、信頼性を高めるために徹底した多重化が図られている。Googleでは、非常に多くのサーバを使用している為に、毎日、故障した何十台ものコンピュータを交換・追加していたが、RAMディスクを使用するようになってからはハードディスクに起因する故障が激減した。なお、当初使用していたハードディスクを積んだサーバはGmailサービスに流用されていると見られている。
※この「検索のシステム」の解説は、「Googleのサービス」の解説の一部です。
「検索のシステム」を含む「Googleのサービス」の記事については、「Googleのサービス」の概要を参照ください。
- 検索のシステムのページへのリンク