yahoo!検索の大規模なApache Hadoopの使用

Yahoo! Hadoopのブログで、Yahoo!検索のウェブマップチームがどのようにApache Hadoopの分散型コンピューティングフレームワークを使っているかがわかる。地図を構築するために１万個以上のCPUコアを使い、大量のデータを処理している。結局ディスクストレージのうち5PB以上を使い、最終的には１回の検索に対して、圧縮データの300TB以上を出力している。

ある投稿メッセージの一端で、ウェブマップの歴史やどうして所有基盤からHadopへの使用に移行したのか、SameerとArnabにインタビューをすることになった。

インタビューで僕が強調したかったことのひとつは、Hadoopにとってこれは大きな画期的出来事であるということ。Yahoo!がとても大きな規模（さらに大きくなっている）生産配備の中でHadoopを使っているということ。これはただの実験や研究プロジェクトでもない。実際にお金が動いている。（実際の大金の額の話をしている時に、撮影ビデオに技術的ミスがあったのは、失敗だったな。）

投稿メッセージでエリックはこう言っている。

ウェブマップの立ち上げで、実際にインターネットサイズの問題を解決したり、大規模な生産設定でも確実に機能できるというHadoopの力が明らかになった。毎月、何十億という問い合わせがあるというヤフーウェブ検索への回答は、Hadoop集団が生産するデータにかなり依存しているのだ。

2008年と2009年は、Hadoopプロジェクトにとって、Yahoo!でだけじゃなく、他でも大きな飛躍の年になりそうな予感がする。

引き続き注目だね。。。

コメント:

匿名