Yahoo! Buscas Rodando Apache Hadoop em Larga Escala

No blog Yahoo! Hadoop, é possível ler sobre como a equipe de Webmap do Yahoo! Buscas está usando a estrutura de computação distribuída Apache Hadoop. Eles estão utilizando mais de 10.000 núcleos de CPU para construir o mapa da web e processar uma tonelada de dados com esse fim. Eles acabam usando 5 petabytes de armazenamento bruto em disco, resultando em mais de 300 terabytes de dados comprimidos usados em todas as buscas.

Como parte daquele post, pude entrevistar Sameer e Arnab para aprender mais sobre a história do Webmap e o motivo da mudança da nossa infra-estrutura proprietária para a utilização do Hadoop.

Um dos argumentos que sustento durante a entrevista é que esse é um enorme marco para o Hadoop. O Yahoo! está utilizando o Hadoop em uma implementação de produção de grandíssima escala (e crescente). Não se trata apenas de um experimento ou de um projeto de pesquisa. Há dinheiro real em jogo. (É uma pena que tivemos um problema técnico no vídeo no momento em que estávamos discutindo um Número Muito Grande.)

De acordo com o que Eric diz nesse post:

O Webmap demonstra o poder do Hadoop de solucionar problemas reais do tamanho da Internet e de funcionar confiavelmente em um cenário de produção de larga escala. Agora podemos dizer que os resultados gerados pelos bilhões de consultas de busca da Web executados no Yahoo! mensalmente dependem em grande parte dos dados produzidos pelos clusters Hadoop.

Me parece que 2008 e 2009 serão anos de grande crescimento para o projeto Hadoop – e não apenas no Yahoo!

Fique ligado...

Réplica dos membros:

Anônimo