[아이뉴스24 윤소진 기자] 생성형 인공지능(AI) 모델을 개발할 때 활용하는 '인터넷상 공개 데이터' 처리 기준이 나왔다. 일정 요건을 갖추면 적법하고 안전하게 공개된 개인정보를 활용할 수 있다는 건데, 그간 활용 근거 부재에 따른 불확실성에 어려움을 겪은 기업들의 AI 서비스 개발에 탄력이 붙을지 주목된다.
개인정보위가 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 발간했다. 공개 데이터는 인터넷상 누구나 합법적으로 접근할 수 있는 데이터를 말한다. 챗GPT 등 생성형 AI를 개발하기 위한 학습 데이터의 핵심 원료로 쓰인다.
AI 기업들은 커먼크롤, 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 웹 스크래핑(웹사이트에서 필요한 데이터를 자동으로 추출하는 기법) 등의 방식으로 수집해 AI 학습데이터로 활용하고 있다.
공개 데이터에는 주소, 고유식별번호, 신용카드번호 등이 포함될 수 있어, 국민의 개인정보 침해 우려가 있다. 하지만 현행 개인정보 보호법(보호법)에는 이러한 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없어 기업들은 개인정보 데이터를 최대한 배제한 상태로 AI를 학습시키게 되고 이는 모델의 성능 저하로 이어진다.
이에 이번 안내서는 공개된 개인정보를 활용하는 기업들의 개인정보 침해 이슈를 최소화하는 동시에 법적 불확실성을 해소해 기업의 혁신성장을 돕겠다는 취지로 마련됐다. 안내서에 따르면 공개 데이터를 활용하려면 목적·용도에 정당성, 정보처리의 필요성, 안전성 확보 조치 마련 등의 요건을 충족해야 한다.
양청삼 개인정보위 개인정보정책국장은 "공개 데이터에는 주소, 이메일, 고유 식별 정보 등 다양한 개인정보가 포함될 수 있어 국민의 프라이버시 침해 없이 안전하게 활용하기 위한 기준이 필요하나, 현행 법제에는 공개된 개인정보를 처리할 수 있는 명시적 기준이 없어 기업 불확실성이 높은 상황"이라며 "이번 안내서를 통해 AI 개발 및 서비스를 위해 공개된 개인정보를 적법하게 활용할 수 있는 법적 근거를 명확히 안내하고, AI 기업이 이행할 수 있는 다양한 안전 조치를 ‘AI 학습-서비스’ 주기별로 안내했다"고 설명했다.
글로벌 기업과의 역차별 우려도 해소했다. 해외 사업자라도 한국 정보주체를 대상으로 재화‧서비스를 제공하거나, 한국 정보주체를 대상으로 재화 또는 서비스를 제공하지 않더라도 한국 정보주체의 개인정보를 처리해 직접적이고 상당한 영향을 미치는 경우 이 안내서의 적용 대상이다.
특히 이번 안내서는 지침일 뿐이고 기업들은 원하는 부분만 취사선택해 조치하면 된다는 게 개인정보위의 입장이다. 자칫 기업들이 이번 안내서를 기준이 아닌 '규제'로 받아들일 우려에서다. 실제 안내서에는 전담레드팀 운영, 모니터링 운영, 신고 기능 도입 등 지침이 포함돼 있다. 또 빠르게 발전하는 기술 대비 기준 마련이 너무 뒤처졌다는 것과, 기준의 모호성에 대한 지적도 나왔다.
이와 관련 태현수 개인정보위 데이터안전정책과장 겸 AI프라이버시팀장은 "기업마다 모델, 서비스가 다르므로 자율적으로 필요한 지침만 선택해서 자율적으로 이행하면 된다"며 "아직 실제 사례가 많이 없어 기업들이 활용하는 데 어려움이 있을 것 같다. 추후 업계 의견 취합해서 지속적으로 보완해 나갈 것"이라고 말했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기