Directions
2025-11-24
거대 언어 모델이 놓치는 논문 평가의 맹점 정량적으로 밝혀
인간-인공지능 협업 위한 리뷰 체계 구축에 기초 마련
KAIST 전산학부 김주호 교수 연구팀이 논문을 평가할 때 거대 언어 모델(LLM)이 어떤 부분에 집중하고 어떤 요소를 간과하는지를 정량적으로 분석할 수 있는 ‘포커스 레벨 평가(Focus-Level Evaluation)’ 프레임워크를 개발했다. 이 연구는 세계적 자연어처리 학회인 EMNLP 2025에서 SAC Highlights 논문으로 선정되었다.
최근 학회 논문 제출이 급증하면서 LLM을 활용한 자동화된 논문 리뷰가 주목받고 있다. 하지만 기존 리뷰 품질 평가 지표는 주로 문장 유사도나 사실성에 집중돼 있어, LLM이 실제로 전문가들이 중시하는 문제 정의, 방법론, 실험 설계, 독창성 등을 고려하고 있는지를 판단하기 어려운 한계가 존재했다.
연구팀은 이 같은 문제를 해결하기 위해, 논문 리뷰에서 언급된 강점과 약점이 어떤 평가 대상(Target)과 어떤 평가 항목(Aspect)을 중심으로 논의되는지를 자동 분석하는 기법을 고안했다. 이 분석을 통해 인간 전문가와 LLM이 실제로 어디에 집중하고 있는지를 체계적으로 비교할 수 있도록 했다.
다양한 LLM을 대상으로 실험한 결과, LLM 리뷰는 기술적 타당성(Validity)에는 집중했지만, 학술 평가의 핵심 요소 중 하나인 독창성(Novelty)에는 거의 주목하지 않는 경향이 나타났다. 모델 규모가 커지거나 파인튜닝이 적용된 경우에도 이러한 편향은 유지됐다. 인간 리뷰어와 유사한 양상을 보이기는 했으나 전문가 수준에 도달하지는 못했다.
이번 연구는 LLM이 생성한 논문 리뷰의 품질을 해석 가능하고 정량적으로 평가할 수 있는 첫 번째 체계적 방법론을 제시했다는 점에서 학문적 의미가 크다. LLM의 구조적 한계를 명확히 밝힘으로써 향후 AI 리뷰어의 성능 개선에 기여할 수 있으며, 인간과 LLM이 협업해 고품질 리뷰를 생성하는 체계 구축에도 활용될 수 있다.
이 논문은 전산학부 박사과정 신현규 학생이 제1저자로 참여했으며, 산업디자인학과 홍화정 교수 연구팀, LG AI연구원의 조지영 연구원, 이문태 랩장이 공동 저자로 참여했다. 본 연구는 LG AI연구원의 지원을 받아 진행되었다.
해당 논문은 ‘Mind the Blind Spots: A Focus-Level Evaluation Framework for LLM Reviews’라는 제목으로 발표됐으며, arXiv에 게재돼 있다.
논문 링크: https://arxiv.org/abs/2502.17086






