Yahoo! Search impiega Apache Hadoop su larga scala

Sul blog di Yahoo! Hadoop viene spiegato in che modo Yahoo! Search sta utilizzando la struttura di elaborazione distribuita Apache Hadoop. Il sistema utilizza più di 10.000 nuclei di CPU per costruire la mappa ed elabora una quantità impressionante di dati a questo scopo. Vengono utilizzati più di 5 petabyte di spazio su disco, con un output finale di oltre 300 terabyte di dati compressi, che vengono utilizzati per supportare ogni singola ricerca.

Per quel post, ho intervistato Sameer e Arnab per saperne di più sulla storia della webmap e sul perché siano passati dall'infrastruttura proprietaria a Hadoop.

Uno dei concetti fondamentali dell'intervista è che questo passaggio rappresenta una pietra miliare nella storia di Hadoop. Yahoo! sta utilizzando Hadoop in un'implementazione su vasta scala e in crescita. Non si tratta semplicemente di un esperimento o di un progetto di ricerca: si parla di soldi veri (ed è un peccato che abbiamo avuto un problema video proprio quando stavamo discutendo di un Numero Veramente Grosso).

Come dice Eric in quel post:

Il lancio della Webmap dimostra la capacità di Hadoop di risolvere problemi di taglia Internet, e di funzionare affidabilmente in un sistema di produzione su vasta scala. Possiamo dire ora che i risultati generati dai miliardi di query di ricerca su Yahoo! ogni mese dipendono in gran parte dai dati prodotti dai cluster Hadoop.

Mi sembra di capire che il 2008 e il 2009 saranno anni di grande crescita per il progetto Hadoop... e non solo per quanto riguarda Yahoo!

Rimanete sintonizzati...

I membri si fanno sentire:

Anonimo