대규모의 데이터에 야후 검색 아파치 하두프(Apache Hadoop) 적용하기

야후의 하두프 블로그를 보면 야후 검색의 웹맵(webmap)팀이 연산 체제에 분산되어 있는 아파치 하두프를 어떻게 사용하고 있는지를 알 수 있을 것이다. 웹맵팀은 맵을 작성하기 위해 일 만개가 넘는 CPU코어를 사용하고 엄청난 양의 데이터를 처리한다. 결국 5페타바이트(petabytes)가 넘는 포맷화 되지 않은 디스크 저장 용량을 모두 사용하게 되고, 마침내 300테라바이트(terabytes) 이상의 압축된 데이터를 출력하는데 이는 각각의 검색을 실행할 때 동력으로 작용한다.

게시물의 일부를 장식하기 위해, 웹맵팀의 일원인 사미어(Sameer)와 아르납(Arnab)를 만나 웹맵의 역사에 대해서 더 배우고 왜 그들이 야후 소유의 인프라에서 하두프를 사용하게 됐는지 인터뷰를 하게 됐다.

인터뷰를 하면서 주안점을 두려고 했던 것 중의 하나가 이것이 하두프에 있어 획기적인 사건이라는 점이었다. 야후는 매우 규모가 큰(그리고 늘려서) 검색 결과를 배치할 때 하두프를 사용하고 있었다. 이것은 단순히 실험이거나 연구 프로젝트가 아니다. 실질적으로 돈이 관련되어 있는 일이다. (정말 많은 액수의 돈에 대해서 말하는 동안 비디오에 기술적 결함이 있었던 점이 아쉽다.)

게시물에서 에릭은 이렇게 언급했다.
웹맵을 시작하면서 하두프의 힘을 엿볼 수 있었는데, 인터넷과 관련된 큰 문제들을 확실하게 해결해 주고 규모가 상당한 검색 결과를 신뢰성 높게 배치하는 기능을 보여주었다. 매달 야후에서 발생하는 수 십억 건에 달하는 웹 검색 문의 결과는 대부분 하두프 클러스터에서 생산한 데이터에 의존한다고 할 수 있다.

2008년과 2009년은 하두프 프로젝트에 있어서 커다란 성장의 해가 될 것이라고 생각하고 있다. – 야후 뿐만 아니라 하두프가 관련된 모든 분야에서 말이다.

지켜봐 달라.

회원들의 피드백:

익명