IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

10개국 언어·문화 반영한 5500개 규모 다국어 벤치마크⋯국내·외 민·관·학 전문가 17명 공동 참여

[아이뉴스24 서효빈 기자] KT(대표 박윤영)는 글로벌 기업과 공공기관, 학계 등과 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 'XL-SafetyBench'를 공개했다고 4일 밝혔다.

KT(대표 박윤영)는 글로벌 기업과 공공기관, 학계 등과 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 'XL-SafetyBench'를 공개했다고 4일 밝혔다. [사진=KT]
KT(대표 박윤영)는 글로벌 기업과 공공기관, 학계 등과 함께 대규모 언어모델(LLM)의 안전성과 문화적 민감성 인식 능력을 통합 평가하는 다국어 벤치마크 'XL-SafetyBench'를 공개했다고 4일 밝혔다. [사진=KT]

'XL-SafetyBench'는 한국, 미국, 독일, 일본, 튀르키예, 아랍에미리트(UAE) 등 10개국의 언어·문화적 특성을 반영한 총 5500개 규모의 다국어 벤치마크다. 대규모 언어모델이 각 국가의 사회적 규범과 문화적 민감성을 얼마나 적절하게 인지하고 반영하는지 측정하는 데 중점을 두고 설계됐다.

예를 들어 AI 모델이 전세 제도와 관련한 금융 리스크나 흰 국화를 선물로 추천하는 답변을 제공하는 경우 글로벌 기준에서는 자연스럽지만 한국과 같은 특정 국가에서는 다르게 받아들여질 수 있다. 'XL-SafetyBench'는 이런 사례를 반영해 AI 모델의 안전성과 문화적 민감성 인식 능력을 정밀하게 검증한다.

벤치마크 데이터셋과 평가 코드는 AI 모델·데이터 공유 플랫폼 허깅페이스(Hugging Face)와 오픈소스 개발 협업 플랫폼 깃허브(GitHub)를 통해 공개했다. 누구나 활용할 수 있다. 연구진은 해당 벤치마크를 활용해 주요 LLM 37종을 대상으로 평가를 수행했다. 분석 결과를 담은 논문도 공개 논문 저장소 아카이브(arXiv)에 공개했다.

이번 벤치마크 공개는 실제 서비스 환경에서 활용 가능한 AI 신뢰성 검증 체계의 방향성을 제시했다는 점에서 의미가 있다. AI 보안 전문기업 에임인텔리전스는 실제 공격 패턴을 반영한 데이터 구축과 검수 프로세스 설계 등을 맡았다. 마이크로소프트는 다문화·다국어 환경에서 안전성과 문화적 민감성 평가 필요성을 제시했다. 한국 인공지능안전연구소(AISI)는 국가별 법률과 제도, 문화적 특성을 반영한 평가 관점 강화에 힘을 보탰다.

뮌헨공과대학교, 앙카라대학교, 서울대학교 등 학계를 포함한 국내·외 민·관·학 10개 기관 소속 전문가 17명도 공동 연구진으로 참여했다. 이를 통해 전문성과 국제적 공신력을 확보했다.

KT는 AI 안전성과 신뢰성 확보를 위한 기준 수립, 평가 체계 구축, 완화 기술 개발 등을 수행하는 Responsible AI(RAI) 전담 조직의 역량을 이번 연구에 투입했다. 기존 평가 방식의 한계를 보완하는 핵심 평가 지표 설계와 평가 로직 구현을 맡아 벤치마크의 기술적 기반 구축에 기여했다.

박재형 KT AX미래기술원 Frontier AI Lab 상무는 "AI 경쟁이 성능 중심에서 안전성과 신뢰성 검증 단계로 확대되는 가운데 안전성과 문화적 민감성 인식 능력을 함께 검증하는 평가 체계가 더욱 중요해질 것"이라며 "앞으로도 AI 안전성·신뢰성 연구를 확대하고 국내·외 민·관·학 협력을 이어가며 실제 서비스 환경에 적용 가능한 기술 발전에 힘쓰겠다"고 말했다.

/서효빈 기자(x40805@inews24.com)



주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 KT, AI 안전성·문화적 민감성 평가 벤치마크 'XL-SafetyBench' 공개

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S