Yahoo! Search betreibt Apache Hadoop im großen Stil

Im Yahoo! Hadoop-Blog kann man lesen, wie das Webmap-Team bei Yahoo! Search den Apache Hadoop Distributed Computing Framework nutzt. Sie benutzen über zehntausend CPU-Kerne, um einen Plan aufzubauen, und verarbeiten tonnenweise Daten, um dies zu schaffen. Letztendendes verwenden sie 5 Petabytes an Rohdatenspeicher und geben am Ende über 300 Terabyte komprimierter Daten aus, die verwendet werden, um jede einzelne Suchanfrage zu betreiben.

Als Teil dieses Posts durfte ich Sameer und Arnab interviewen, um mehr über die Geschichte der Webmap zu erfahren und warum sie von der proprietären Infrastruktur weggingen hin zu Hadoop.

Einer der Aspekte, den ich während des Interviews versuche zu machen, ist der, dass dies ein riesiger Meilenstein für Hadoop ist. Yahoo! nutzt Hadoop in großformatiger (und wachsender) Produktionsaufstellung. Es ist nicht nur ein Experiment oder Forschungsprojekt. Da steht echtes Geld auf dem Spiel. (Dummerweise hatten wir eine technische Panne im Video genau als wir eine wirklich große Zahl diskutierten.)

Wie Eric im Post sagt:

Die Start der Webmap demonstriert die Power von Hadoop, um wirklich Probleme in der Größenordnung des Internets zu lösen und um zuverlässig in einem großformatigen Produktionsaufbau zu funktionieren. Wir können jetzt sagen, dass die Ergebnisse, die jeden Monat durch Milliarden von Internetsuchanfragen über Yahoo! Generiert werden, zum Großteil von den Daten abhängt, die von Hadoop-Clustern produziert werden.

Es kommt mir so vor, als werden 2008 und 2009 große Wachstumsjahre für das Hadoop-Projekt werden – und nicht nur für Yahoo!

Bleiben Sie dran...

Mitglieder reagieren:

Anonym