속보
[김석기]빅데이터에 대한 오해와 진실2015.02.06 18:24
[김석기의 IT인사이트]


◆빅데이터는 마케팅용어인가

"불행하게도 신은 데이터를 오로지 과거를 분석하는 데만 유효하게 창조했다. 미래를 보는 데이터는 없다. 그런데도 기업들은 데이터를 통해 미래를 예측하려고 한다. 분석을 끝내고 의사 결정을 내릴 때쯤이면 이미 게임은 끝난 뒤다. 데이터없이 의사결정을 하려면 완벽한 직관력을 가진 리더를 가지고 있든지, 미래를 예측하는 이론을 만들거나 이해해야 한다."- 클레이튼 크리스텐슨 하버드 비지니스스쿨 교수 -


필자는 크레이튼 교수의 의견에 상당부분 동의한다. 데이터만으로 미래를 예측할 수는 없다. 데이터와 함께 경험과 인사이트가 절대적으로 필요한 것이다. IT는 디지털의 세계이고 무엇이든 정확하게 떨어질 것 같지만 이론이나 데이터 만으로 설명되지 않는 일들이 종종 발생한다. 예를 들어 같은 회사에서 만든 같은 모델, 용량, 동일한 클럭수의 램 4개를 어떤 순서로 슬롯에 꽂느냐에 따라 PC가 작동되기도 하고 안 되는 경우가 있다. 각각의 램을 테스트해보면 모두 이상없고 스팩도 동일한데 왜 이런 일이 생기는 지는 이론으로 설명되지 않는다. 코딩에서도 비슷한 일들이 일어나고 그래픽에서도 생긴다. 그래서 경험많은 선수가 필요하다. 실무에서 선수들은 경험에 의해 이론과 관계없이 일어나는 문제점들을 찾아내고 해결한다.

크레이튼 교수가 말한 데이터는 '빅데이터'를 의미한다. 어떤 이들은 이러한 이야기들을 배경삼아 극단적으로 '빅데이터는 마케팅 용어다'라고 말하는 사람도 있다. 빅데이터가 정말 마케팅 용어일까? 벌써 몇 년째 수많은 빅데이터 솔루션 업체들이 단순히 마케팅으로 빅데이터 사업을 유지할 수는 없다. 짧게는 6개월, 길게는 1년동안 솔루션 매출이 안 나오면 당연히 빅데이터 솔루션 사업을 접었을 것이다. 빅데이터 솔루션 업체들은 빅데이터 솔루션을 통해 돈을 벌어 사업을 영위하고 있다. 위키본에 따르면 2012년 빅데이터 시장 규모는 약 50억달러이며 2017년에는 500억달러 규모로 성장할 것이라 한다. 그러나 이것은 협의의 빅데이터제품, 즉 빅데이터 처리를 위한 컴퓨팅 인프라(서버)와 솔루션 시장을 말한다. 빅데이터가 적용된, 즉 지능형 서비스 시장 규모는 반영되어 있지 않은 수치이다. 빅데이터 인프라만해도 엄청난 시장 규모이다. 그럼에도 빅데이터에 대한 의구심이 많은 이유는 눈에 보이는 성공사례가 잘 안보이기 때문이다. 왜 빅데이터를 이용한 사업은 다른 사업과 달리 성공사례를 찾기 어려운 것일까?

◆빅데이터 성공사례를 찾기 어려운 이유

빅데이터 관련 컨퍼런스나 강연을 몇 번 들어본 사람들은 느꼈겠지만 여러 명의 강연자가 나와서 드는 사례가 거의 동일하다. 대개 자동차나 반도체 공장 같은 사례들을 많이 드는데 몇 번 듣다보면 성공사례가 이것밖에 없나 하는 생각이 들 정도다.
더구나 고객분석이나 서비스분석에 대한 기대를 하고 간 사람들에게 공장 사례는 피부에 전혀 와 닿지 않는다. 서비스 분야의 사례 역시 공공서비스 분야나 교통관련 분야 등 매우 한정되어 있다. 실제로 빅데이터를 통해 성공적으로 돈을 버는 사례를 찾기는 어렵다.

그렇다면 빅데이터를 적용하여 성공적으로 매출을 올리는 케이스는 정말 없는 것일까? 만약 그런 케이스가 없다면 왜 기업들이 그 많은 시간과 비용을 빅데이터에 투자하겠는가. 정확하게 말하자면 케이스가 없는 것이 아니라 케이스를 감춘다고 보면 된다.

이 컬럼을 읽는 분들이 주식투자를 한다고 가정하고, 고수익을 올릴수 있는 여러분만의 규칙이나 법칙을 알아내서 돈을 벌고 있다면 그 방법을 남들에게 가르쳐 주겠는가? 주식이나 사업 모두 제로썸 게임이기에 내가 아는 방법을 남들도 사용하게 되면 더 이상 그 비법은 작동하지 않는다. 빅데이터 역시 마찬가지이다. 빅데이터를 효율적으로 이용하며 수익을 올리는 기업들은 그 사례를 기업 비밀로 하고 절대 외부에 공개하지 않는다. 심지어 기업내부에서도 경영부문과 실제 담당자 외에는 다른 직원들에게 공유하지 않는 곳도 많다. 당연히 외부에 사례로 발표할 턱이 없다. 기껏 공개해봐야 수익하고 상관없는 SNS나 고객 만족 부문의 사례들이다. 그래서 경쟁사가 뒤로는 빅데이터에 투자하고 수익을 거두어가지만 겉으로는 아무것도 안 하는 듯이 보인다.

◆빅데이터에 대한 오해

빅데이터가 유행어처럼 번지다 보니 이름에서 오는 오해들이 있다. Big Data이다보니 데이터를 많이 생성시켜서 모아 놓으면 빅데이터의 전부라고 생각한다. 빅데이터가 많은 양의 데이터라는 것은 부분적인 답이지 정답이 아니다. 국사시험에서 조선 1~4대 임금의 묘호를 쓰라는 주관식 문제에 태조만 쓰는 것과 마찬가지이다. 또 다른 오해는 하둡(Hadoop)을 사용하면 빅데이터라 생각하는 오해이다. 하둡이나 NoSQL이 빅데이터를 처리하는 툴은 맞지만 하둡이나 NoSQL을 쓴다고 해서 모두 빅데이터는 아니다. 데이터 크기는 빅데이터의 4가지 속성(Volume, Velocity, Variety, Variability) 중 하나이지 빅데이터의 본질이 아니다.



위키백과에서 내린 빅데이터의 정의는 '기존 데이터베이스 관리도구의 데이터 수집-저장-관리-분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트와 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다'고 되어 있다. 빅데이터의 정의에서 가장 핵심이 되는 문장은 <대량의 정형 또는 비정형 데이터 세트와 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다> 이다.

정형데이터란 우리가 기존에 알고 있는 데이터베이스를 말하는 것이고 비정형데이터란 일반적인 데이터 베이스를 구축하는 방법으로 저장, 검색, 분석, 시각화하기 어려운 원천데이터를 말한다. 빅데이터의 핵심은 데이터를 많이 모아놓은 것이 아니라 모아놓은 데이터를 분석하여 의미 있는 결과를 찾는 것이다.

◆빅데이터의 진실

재활용품들을 데이터라고 가정해보자. 재활용품을 많이 모아 창고에 쌓아놓으면 빅데이터가 아니라 데이터 웨어하우스이다. 그리고 쌓아놓은 재활용품을 분리해서 판매를 하는것은 빅데이터의 활용이 아니라 DB 마케팅이다. 빅데이터는 재활용품 중에 빈병이 많은지 캔이 많은지 보고 소비자들의 선호가 병인지 캔인지 분석해서 회사가 음료수를 병으로 만들 것인지 캔으로 만들 것인지 의사결정을 할 수 있도록 의미 있는 결과를 찾아내는 것이다. 그러기 위해서는 현상을 파악한 후 가설을 세우고 분석을 통해 가설을 검증하는 단계가 필요하다. 그래서 빅데이터에서 가장 중요한 요소는 데이터를 분석하는 사람, 즉 데이터 사이언티스트이다. 데이터를 아무리 많이 모으고, 툴을 통해 분석한 데이터들이 쏟아져 나온다고 해도 그 데이터가 어떤 의미가 있는지 찾아내지 못한다면 아무런 쓸모가 없다. 빅데이터에서 그 의미를 찾아내는 데이터 사이언티스트의 소양은 경험과 직관에서 나온다.

한국기업들이 빅데이터에서 경쟁력을 가지려면 데이터 사이언티스트에 투자를 해야 하는데, 사람보다 솔루션 도입에 더 많은 관심을 가지고 있는 것 같아 우려된다. 솔루션은 그냥 솔루션일 뿐이다.

김석기 (neo@mophon.net)

모폰웨어러블스 대표이사로 일하며 웨어러블디바이스를 개발 중이다. 모바일 전문 컨설팅사인 로아컨설팅 이사, 중앙일보 뉴디바이스 사업총괄, 다음커뮤니케이션, 삼성전자 근무 등 IT업계에서 18년간 일하고 있다. IT산업 관련 강연과 기고를 통해 사람들과 인사이트를 공유하고 있다.


관련기사

FASHION LOOK

김석기의 IT 인사이트 많이 본 오피니언