하둡 열차를 막을 장애물은 없어 보인다. 관심 저하, 복잡한 설정, 뒤죽박죽으로 얽힌 수많은 프로젝트 등의 문제에도 불구하고 하둡 인력에 대한 수요는 계속 증가하고 있다(하둡을 구성하는 요소들인 프로젝트들이 표면적으로는 통합됐지만 얽히고설켜있다).
하둡 질주의 이유 시장이 하둡보다 더 나은 것을 향해 이동하지 않는 이유는 무엇일까?
구글 클라우드 솔루션 컨설턴트인 산딥 파리크는 "하둡이 분산 컴퓨팅을 가능하게 해주는 폭넓은 프레임워크를 제공한다는 데 그 해답이 있다"고 말했다. 여기에서 '폭이 넓다'는 것은 광범위한 빅데이터 수요에 대처하기에 충분할 정도를 말한다.
'부가적 요소'의 부조화하둡의 수많은 문제 가운데서도 가장 근본적인 문제는 아마도 하둡의 정의일 것이다. 예를 들어, 위키피디아는 "아파치 하둡(Apache Hadoop)은 일반적인 하드웨어로 구축된 컴퓨터 클러스터에서 매우 큰 데이터 집합을 분산 저장, 분산 처리하기 위해 자바로 만들어진 오픈소스 소프트웨어 프레임워크"로 정의했다.
그러나 문제는 '하둡'에 포함되는 하위 프로젝트들이 끊임없이 증가한다는 것이다. 프로제니 리눅스(Progeny Linux)의 CEO였던 이안 머독은 필자에게 "리눅스는 리눅스고 리눅스다"라고 말한 적이 있다. 레드 햇과 노벨 수세는 각 리눅스 배포판의 차이점을 주장할 수도 있겠지만 현실적으로 보면 매우 비슷했고, 지금도 마찬가지다.
하둡은 그렇지 않다. 하둡을 도입하기 위해 제품을 파악하는 기업은 하둡의 3대 배포판인 클라우데라(Cloudera), 호튼웍스(Hortonworks), 맵R(MapR)이 상당히 다르다는 사실을 발견하게 된다.
게다가 가트너 애널리스트 머브 아드리안은 이런 현상은 갈수록 심해지고 있다고 주장했다.
올해에도 하둡의 팽창은 계속된다. 이것이 중요한데, 상업적으로 지원되는 스택의 발전 양상을 정하는 것은 차별화와 포지셔닝이기 때문이다.
이런 팽창은 선택을 앞둔 주류 구매자들에게는 방향을 결정하는 데 도움이 된다. 현재 기업들은 상업적으로 지원되는 오픈소스 소프트웨어를 프로덕션 애플리케이션으로 선택하고 있다.
여기서 끊임없이 증가하는 프로젝트 스택을 통합(integration)하고 크로스 포팅(cross-porting)하고 백포팅(backporting)하고 지원(supporting)할 때 소요되는 비용은 배포업체가 모두 치러야 한다. 해당 배포업체가 이를 직접 '소유'하거나 단독으로 개발하지 않았음에도 말이다.
배포업체는 스택에 프로젝트를 추가한다고 해서 이를 선택한 기업에게 비용을 더 청구하지는 않는다.
이처럼 뒤얽힌 상황이 고객에게 미치는 영향은 보는 시각에 따라 다르다.
예를 들어 파리크는 "분산 컴퓨팅을 제외한 하둡의 모든 요소는 기본적으로 '부가적인 요소(icing)'들이며 다양한 버전을 지원하는 다양한 프로젝트로 혼재되어 있지만 모두 기본적으로 하는 일은 '저장'과 '연산'이다"고 말했다.
클라우데라 공동 창업자인 마이크 올슨은 "이런 복잡성 가운데 일부는 '실험에 열중하는' 커뮤니티 때문"이라고 말했다.
커뮤니티로 인해 더 복잡해질 수도 있지만 동시에 훨씬 더 강력해지게 된다. 올슨은 스파크(Spark)를 예로 들며 "여기서 '스파크가 하둡을 죽인다'는 속설이 왜 틀렸는지 볼 수 있다. 스파크는 하둡에 새로운 기능을 추가해 하둡을 더 강력하게 만들고 있다"고 말했다.
하둡에서 '부가적 요소(icing)'라는 말이 갖는 의미는 배포판마다 다를 수 있지만 가트너의 설명대로 "분산 네트워크에서 막대한 양의 데이터를 사용하기 위한 프레임워크"라는 하둡의 핵심적인 의미는 동일하다.
초보자에게 있어 하둡은 미로와 같지만 그럼에도 초보자들은 계속 몰려들고 있다.
관심 저하?, 그럴리가 없다가트너는 최근 보고서에서 하둡에 대한 관심이 미온적이라고 전했지만 가트너의 설문 데이터는 전체 분위기를 반영하지 않을 수도 있다. 이 설문 데이터를 보면, 설문 대상자의 54%는 하둡에 대한 계획이 아예 없는 반면, 현재 프로덕션 또는 파일럿으로 구축 중인 비율은 26%에 불과하다.
가트너 애널리스트 닉 휴데커는 '지나침(overkill)'이 문제 가운데 하나라고 주장하며 "하둡은 기업들이 직면한 문제에 견주어 보면 과도한 솔루션이며 따라서 하둡 구현에 따르는 기회 비용이 예상되는 혜택에 비해 너무 높다"고 말했다.
그러나 하둡 채용 관련 데이터를 보면 분위기는 다르다. 하둡은 다른 주요 빅데이터 기술과 비교해 봐도 기업 내 수요가 폭발적이다.
필자는 카산드라(Cassandra)에 익숙하지 않지만 몽고DB(MongoDB)는 몇 년 동안 일한 경험이 있어 잘 안다. 수만에 이르는 기업들이 프로덕션에서 몽고DB를 운용한다. 몽고DB 다운로드도 수백만 건에 이른다.
그런데 하둡의 일자리 규모는 그것을 훨씬 더 앞지른다. 몽고DB와 카산드라에 대한 관심이 폭발적인 상황에서 하둡에 대한 '관심 저하'라는 말은 현실과는 거리가 있어 보인다.
변화하는 하둡의 복잡함, 그것이 하둡의 매력 처음 시작하는 초보자 관점에서 보면 하둡은 만능인 것처럼 보인다. 리얼리티마인(RealityMine)의 데이터 설계자인 이완 라이스는 "YARN과 HDFS의 조합은 분산 데이터로 거의 모든 작업을 실행할 수 있게 해주는 뛰어난 설계 빌딩 블록"이라고 말했다.
하지만 이것은 시작에 불과하다. 넷앱(NetApp) CTO 일원인 발 베르코비치는 "지금은 하둡이 가진 잠재력의 극히 일부분만 활용하고 있는 것"이라고 말했다.
이 잠재력은 끊임없이 변화하고 팽장하는 하둡의 얽히고설킨 프로젝트 아래에 묻혀 있다. 하둡 설립자인 더그 커팅은 필자에게 "경계가 흐릿하고 불분명하며 계속 변화하는, 진화하는 생태계다. 여기에 익숙해져야 한다. 하둡은 계속 변이한다"고 말했다.
이런 복잡함은 괴로움을 안겨다 주는 동시에 밝고 광활한 하둡의 미래를 이끌고 있다. 현재 개발업체들은 하둡 도입 경로를 매끄럽게 다듬는 데 주력하고 있다. 이들은 때때로 각기 다른 방향으로 나아가지만 그것도 긍정적인 요소가 된다.
트위터의 오픈소스 구루 크리스 아니슈칙이 말했듯 개발업체들의 경쟁은 기술을 발전시켜 그 기술이 뒤쳐지지 않도록 해주기 때문이다.