IT·과학 산업 경제
정치 사회 문화·생활
전국 글로벌 연예·스포츠
오피니언 포토·영상 기획&시리즈
스페셜&이벤트 포럼 리포트 아이뉴스TV

KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

본문 글자 크기 설정
글자크기 설정 시 다른 기사의 본문도 동일하게 적용됩니다.

'TriBench-Ko: 사법 업무 흐름에서의 LLM 위험 평가' 논문 발표
LLM 13종 평가서 판례 검색·정보 누락 취약성 확인

[아이뉴스24 서효빈 기자] 법률 분야에 활용되는 대규모언어모델(LLM)이 실제 사법 업무에서 판례 검색과 핵심 판단 요소 파악에 취약할 수 있다는 연구 결과가 나왔다. 없는 판례나 조문을 만들어내는 '환각'뿐 아니라, 법적으로 중요한 사실·판례·조문을 빠뜨리는 '누락'이 주요 위험으로 지적됐다.

ChatGPT 생성형 이미지 [사진=ChatGPT]
ChatGPT 생성형 이미지 [사진=ChatGPT]

11일 AI 업계에 따르면 KT 책임있는 AI팀(Responsible AI Team)과 서울대 연구진은 법률 LLM의 사법 업무 활용 위험을 평가한 논문 'TriBench-Ko: 사법 업무 흐름에서의 LLM 위험 평가'를 발표했다. 논문은 한국 판례 기반 벤치마크 'TriBench-Ko'를 제안하고, LLM 13종의 사법 업무 성능과 위험을 평가했다.

연구진은 판례 요약, 관련 판례 검색, 법적 쟁점 추출, 증거 분석 등 네 가지 업무를 평가 대상으로 삼았다. 이는 판사가 사건을 검토하고 관련 판례를 찾고 쟁점을 정리하고 증거의 의미를 따지는 실제 사법 절차와 맞닿아 있는 작업이기 때문이다.

위험 유형은 크게 부정확성, 편향, 비일관성, 재판권 침범으로 나눴다. 세부적으로는 환각, 누락, 법령 오적용, 인구통계학적 편향, 과잉 순응, 프롬프트 민감성, 비결정성, 재판권 침범 등 8개 위험을 평가했다.

평가 결과 다수 모델에서 의미 있는 위험이 확인됐다. 연구진은 "특히 관련 판례 검색과 핵심 법률 정보 누락이 가장 취약한 영역으로 나타났다"며 "모델이 아예 없는 내용을 만들어내지는 않더라도 법적으로 중요한 사실, 판례, 조문을 빠뜨리면 결과적으로 불완전하고 오해를 부르는 답변이 될 수 있다"고 우려했다.

논문은 대법원 2001다10113 판결을 대표 사례로 제시했다. 이 사건은 원고의 의사능력 흠결로 근저당권 설정계약이 무효인지가 쟁점이었다. 일부 LLM은 계약 무효라는 결론은 맞혔지만, 대법원이 원심을 배척한 이유와 의사능력 판단의 증거 근거, 소 제기의 절차적 유효성 등 핵심 판단 요소를 누락했다.

AI가 판사의 판단 영역을 침범하는 사례도 확인됐다. 일부 모델은 판결 내용을 중립적으로 요약하는 수준을 넘어 특정 법적 결론이 더 타당하다는 식의 규범적 판단을 제시했다. 연구진은 "이런 응답이 재판 보조와 재판 대체의 경계를 넘는 위험"이라고 지적했다.

모델별 평가에서는 GPT-5.4가 종합 성능에서 가장 높은 점수를 받았다. GPT-5.4는 8개 위험 유형을 종합한 매크로 F1 점수에서 0.835를 기록했다. 이어 GPT-5.4 미니가 0.781, Qwen3.5-9B가 0.771로 뒤를 이었다. 한국어 특화 모델 중에서는 KT의 '믿음 2.0 베이스 인스트럭트'(kt-midm-2.0-base-instruct)가 0.728로 전체 4위에 올랐다.

연구진은 "이번 평가에서 다수 LLM은 관련 판례 검색과 핵심 법률 정보 포착에서 유의미한 위험을 드러냈다"며 "사법 영역에서 LLM이 생성한 결과물에는 엄격한 검토와 주의가 필요하다"고 설명했다.

/서효빈 기자(x40805@inews24.com)



주요뉴스


공유하기

주소가 복사되었습니다.
원하는 곳에 붙여넣기 해주세요.
alert

댓글 쓰기 제목 KT·서울대 "법률 AI, 그럴듯한 답 내놔도 핵심 법리 빠뜨린다"

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
댓글 바로가기


뉴스톡톡 인기 댓글을 확인해보세요.



TIMELINE



포토 F/O/C/U/S