[아이뉴스24 최은정 기자] "데이터가 유의미하게 사용되기 위해서는 단순히 데이터를 모으고 인공지능(AI)를 활용하는 데 주안점을 두는 것보다 높은 가치를 지니도록 데이터를 정제하는 것이 더욱 중요하다"
최홍섭 마인즈랩 대표는 27일 서울 용산 서울드래곤시티호텔 그랜드볼룸에서 열린 'K-DA 데이터 콘퍼런스' 행사에서 이 같이 강조했다. 잘 정제만 된다면 적은 양의 데이터라도 사업 운영에 필요한 고품질의 데이터셋이 될 수 있다는 게 그의 얘기다.
실제로 마인즈랩의 경우 자사의 정제된 데이터셋을 기반으로 코로나19 관련 연구 성과에서 성과를 내고 있다. 옥스포드대는 캘리포니아주의 코로나19 확진자 DNA와 마인즈랩의 데이터셋에 포함된 국내 코로나19 감염경로를 대조했다.
이를 통해 8종의 코로나19 바이러스가 캘리포니아에 퍼졌으며, 타 국가나 주에서 유입된 인구들이 큰 감염 요소였다는 등의 결과를 도출할 수 있었다는 게 그의 설명이다.
최 대표는 "로컬 데이터셋이 글로벌한 코로나19 감염 패턴을 예측하는 데 쓰인 것"이라며 "이는 데이터셋을 잘 정제했기에 가능했던 것"이라고 말했다. 또한 "포스트 코로나 시대에는 데이터를 잘 정제해 활용하는 능력이 더욱 중요질 것"이라고 내다봤다.
마인즈랩은 이 데이터셋을 확보하는 과정에서 AI 기술인 자연어 전처리 기술을 활용했다. 각종 비정형 데이터를 정형 데이터로 바꾸기 위해서다.
그는 "가공되지 않은 대규모의 원 데이터 보다 적은 양이더라도 공들여 연구분석에 활용할 수 있도록 만든 데이터가 더욱 가치있다"고 덧붙였다.
아울러 그는 최근 스타트업 등 기업들 대부분이 도입하는 AI를 사업 목적에 맞게 제대로 활용해야 한다고 조언했다. 사업 서비스 모델을 오픈해서 데이터가 모이면 이 데이터를 목적에 맞게 AI 학습용 데이터로 정제 가공하고, 이를 통해 AI를 고도화하는 등 방안을 제시했다.
그는 AI 모델을 학습시키는 데이터 역시 이런 고품질의 데이터가 기반이 돼야 한다고 했다.
최 대표는 "AI를 완성시키기 위해선 데이터, 알고리즘, 클라우드, 애플리케이션, 하드웨어 등까지 여러 단계의 기술이 융합돼야 하겠지만 원 데이터가 아닌 정제된 데이터로 학습시키는 것이 필요하다"고 말했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기