Yahoo! Search utilise Apache Hadoop à grande échelle

Sur le blog de Yahoo! Hadoop, vous pouvez lire que l'équipe de Webmap de Yahoo! Search utilise le cadre informatique distribué par Apache Hadoop.Ils utilisent plus de 10 000 noyaux CPU pour construire la carte, traitant par la même occasion une tonne de données. Ils finissent par utiliser plus de 5 pétaoctets de stockage disque dur, pour finalement sortir plus de 300 téraoctets de données compressées qui sont utilisées pour nourrir chaque recherche.

Pour ce post, j'ai pu interviewer Sameer et Arnab pour en apprendre plus sur l'histoire de Webmap et les raisons pour lesquelles ils ont quitté notre infrastructure de propriété pour utiliser Hadoop.

Un des arguments que j'ai essayé de démontrer pendant l'interview est que c'est un énorme évènement pour Hadoop. Yahoo! utilise Hadoop dans un déploiement de production à très grande échelle (et qui grandit toujours). Ce n'est pas qu'un simple test ou un projet de recherche. Il y a de réelles sommes en jeu. (Dommage qu'on ait eu un problème technique dans la vidéo juste au moment où nous discutions d'un Très Gros Chiffre).

Comme Eric le dit dans ce post:

Le lancement de Webmap démontre la capacité de Hadoop à résoudre des problèmes à la dimension d'Internet, et à fonctionner de façon fiable dans un cadre de production à grande échelle. On peut maintenant dire que les résultats générés par les milliards de recherches faites sur Internet avec Yahoo! Tous les mois dépendent grandement des données produites par les clusters de Hadoop.

J'ai bien l'impression que 2008 et 2009 vont être des années de croissance importante pour le projet Hadoop – et pas juste à Yahoo!

Restez à l'écoute...

Membres donnez-nous vos impressions:

Anonyme