IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

[김세훈]데이터관리? 데이터 활용특성 이해부터

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

2014년도 IDC 보고서에 따르면 향후 생성될 디지털 정보는 매년 42.5%씩 늘어나 2017년에는 125엑사바이트에 이른다고 한다. 최근 페타바이트나 엑사바이트 같은 단위가 그리 낯설게 들리지 않는 것을 보면 기업이든 개인이든 폭발적으로 늘어나는 데이터를 어떻게 관리하느냐가 초미의 관심사임에 틀림없다.

이를 증명하듯 비즈니스 SNS인 링크드인의 조사에서는 2014년 구인기업에 가장 각광받은 기술로 스토리지 관리 부분이 당당히 3위를 차지했다.

이렇게 생성되는 데이터가 늘어나는 만큼 스토리지 시스템 기술도 발전을 이뤄왔다. 여기에는 스토리지 시스템에서 실제 데이터가 저장되는 저장매체의 발전이 매우 크게 기여했다는 데 의심의 여지가 없다.

인류 최초의 기계적인 스토리지 저장매체는 바로 1800년대 초반에 직물을 짜는 기계에서 사용한 천공카드였다고 한다.

천공카드에 일정 패턴으로 천공을 뚫으면 베틀이 그 패턴 그대로 직물을 짤 수 있었으며 여기서 아이디어를 얻어 1800년대 후반 전기적으로 천공을 인식해 몇 개의 카드에 저장된 숫자를 테이블로 만들어 내는 시스템이 만들어졌다.

그 다음으로 나온 저장매체가 마그네틱 테이프다. 1951년도에 발표된 최초의 상업용 컴퓨터인 유니벡(Univac)-1에 저장용 스토리지로 사용됐다. 그 이후 컴퓨팅 산업의 발전과 함께 저장매체도 마그네틱 테이프에서 마그네틱 디스크, 플래시(Flash) 반도체 기술에 기반한 솔리드스테이트드라이브(SSD)에 이르기까지 눈부신 발전을 이룩해왔다.

이제 우리는 폭발적으로 늘어나는 데이터를 어떤 저장매체에 저장해야 하는가를 고민하지 않을 수 없다.

아직도 SSD는 디스크(Disc) 대비 수십 배 비싼 솔루션이며 그 SSD 내부에서도 가격과 성능 차이가 수 배에 이르기 때문이다. 결국 좋은 성능은 그만큼 높은 비용을 지불하게 만들기 때문에 스토리지 시스템에 저장될 데이터의 활용 특성에 대해 이해하는 것이 매우 중요하다.

스마트폰을 예로 들어보자. 일전에 어떤 연예인이 자신의 스마트폰에 3천500명의 연락처가 저장돼 있다고 얘기하는 걸 들은 적이 있다. 그 연예인은 이 데이터(연락처)를 어떤 식으로 활용할까?

만약 하루에 10명씩 매일 통화하면 1년에 한번은 3천500명 모두와 연락을 취할 수 있다. 하지만 이 연예인이 3천500명 모두에게 같은 주기로 똑같이 연락을 하지는 않을 거라 생각된다.

연구에 따르면 데이터 활용은 반드시 특정 데이터군에 대해 집중된다. 이를 데이터 활용 특성(data skew 또는 data access pattern)이라고 한다.

즉 100번 전화를 시도한다고 가정하자. 데이터 스큐(Data skew)가 88%라면 90번은 3천500명 중 180명 이내의 사람들에게 전화가 간다는 것이다. 데이터 스큐가 33%면 80번의 전화가 1천155명에 간다는 뜻이다.

같은 데이터라도 그 데이터를 사용하는 사람에 따라 달라진다는 의미로 IT 솔루션으로 치면 어떤 애플리케이션이냐에 따라 그 데이터 스큐(Data skew)가 달라진다는 것이다.

밑의 그림은 이런 애플리케이션별 데이터 활용 특성을 그래프로 설명하고 있다. 그림 아래쪽의 기타 앱(App)은 클라우드 솔루션으로 사진을 공유하는 인터넷 서비스 제공자(Internet service provider)의 1년간의 사진 활용 특성이다. 이는 사용자가 1년동안 찍은 사진을 다시 볼 때 80%는 지난 3개월에 집중된다는 것을 의미하고 있다.

이러한 특성을 이 사업자가 이해하고 적절하게 사용할 수 있다면 엄청난 스토리지 비용을 절감할 수 있다.

예를 들어 자주 보는 지난 3개월간의 사진은 가장 성능이 좋은 SSD에 저장해서 빠른 응답속도를 제공하고, 나머지 9개월의 사진은 더 느린 응답시간에 계약조건을 단 후 원격 클라우드 스토리지(Cloud storage)에 저장하는 것이다. 데이터 활용 특성을 무시하고 모든 데이터를 SSD에 담는 것보다 수십 배의 비용 절감이 가능할 것으로 예상된다.

이런 데이터 사용 특성은 개인보다 저장 데이터가 훨씬 큰 기업 규모의 정형데이터(Structured DATA)에서 훨씬 더 직관적이고 명확하게 적용된다.

어떤 기업이 지난 10년간 고객 주문 정보를 저장하고 있고 주문에서 매출인식까지 주기가 6개월이라 가정하자. 해당 6개월치의 데이터는 자주 읽고 변경하며 활용하겠지만 나머지 9년 6개월의 이미 마감된 데이터는 활용이 매우 낮을 수 밖에 없는 것이다.

그림에서 온라인 트랙잭션 처리(OLTP)성 업무의 데이터 스큐 그래프가 이러한 데이터 활용 특성에 대해 잘 설명하고 있다.

특히 OLTP성 정형 데이터(structured DATA)는 결국 데이터베이스(Database)에서 생성되는 것이고 데이터의 생성과 저장은 향후 그 데이터의 효율적인 활용에 지대한 영향을 끼치게 된다.

오라클에서는 12C부터 히트맵(Heat-map)이라는 기능으로 기업이 가진 DB 데이터의 데이터 스큐에 따라 블록 단위로 핫(Hot)·웜(Warm)·콜드(Cold)·딥 아카이브(Deep Archive)로 구분해 그 활용 특성을 알도록 도와준다.

만약 대량의 데이터를 세부 데이터 활용 패턴을 무시하고 한 종류의 저장매체-이를테면 고성능의 SSD-에 모두 저장하는 것은 효율적인 자원 활용을 매우 어렵게 만든다.

가장 높은 성능을 위해 데이터 사용 패턴을 무시하고 모든 데이터를 SSD에 담는다고 했을 때 성능 때문에 SSD를 선택했으나 비용 때문에 중저가 SSD를 선택해야 하는 모순에 빠지게 된다. 앞서 말했듯 같은 SSD라 하더라도 그 종류에 따라 가격과 성능이 천차만별이기 때문이다.

또한 성능 때문에 SSD를 선택했으나 오히려 저장 용량을 줄이기 위해 중복제거 같은 스토리지 시스템의 초당 입출력(IOPS) 성능을 저하시키는 기능도 함께 사용해야 하는 아쉬움이 있다

결국 대량의 데이터를 소유한 기업 입장에서 가장 이상적인 방법은 빠른 응답을 필요로 하는 소량의 데이터를 최고 성능의 반도체 기반 저장매체에 저장하고 활용이 떨어지는 대량의 데이터는 저비용의 HDD나 테이프 시스템 및 클라우드에 분산시키는 것이다.

각 매체간 유연한 데이터 이동을 가능하게 할 관리 시스템을 채택했을 경우 가장 뛰어난 투자대비 성능 개선 효과를 볼 수 있다.

이를 위해 애플리케이션과 온-프레미스 스토리지 시스템에서 클라우드에 이르기까지 서로 능동적으로 이러한 데이터 활용 특성에 대한 정보를 공유하고 그에 맞는 스토리지 티어(tier)를 선택할 수 있도록 공동 개발되는 것이 가장 중요하다.

설사 DB에서 히트맵으로 데이터 특성에 대해 구분이 되더라도 밑단의 스토리지 시스템이 이 패턴을 이해하지 못한다면 이러한 기능은 무용지물이기 때문이다.

많은 기업들이 갈수록 폭증하는 데이터 비용은 효율적으로 줄이고, 이를 비즈니스에 잘 활용하기 위한 성능은 높이기를 원한다. 이를 위해선 앞서 살펴본 바 대로 고성능과 고효율을 모두 만족시키는 최적화된 스토리지 구조와 설계가 필요하다.

무엇보다 데이터에 대한 깊은 이해를 바탕으로 데이터의 생성과 저장, 백업 및 아카이빙에 이르기까지 데이터 생애주기를 잘 파악하고 있어야 한다. 또한 스토리지와 애플리케이션, IO의 특성에 대해 이해하고 프로비져닝 및 성능에 대한 노하우를 기반해 소프트웨어 및 하드웨어를 다룰 수 있는 파트너를 선택해야 한다.

데이터는 기술에 힘입어 새로운 시대의 패러다임을 만들어내고 있다. 향후 기업의 성공은 데이터를 어떻게 다루느냐에 달려있다 해도 과언이 아니다. 데이터를 잘 활용할 수 있도록 데이터를 잘 파악한 인프라 시스템이 중요한 이유다.

/ 한국오라클 시스템 사업부 김세훈 상무 se.hoon.kim@oracle.com



주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 [김세훈]데이터관리? 데이터 활용특성 이해부터

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S