On Mon October 13, 2025

Speaker

임경태


Title

우리 LLM 직접 만들어 볼래? KAIST에서 만든 모두를 위한 언어모델 KORMo


Abstract

빅테크 기업들이 주도하는 초거대 언어모델(LLM)의 시대, 과연 대학은 어떠한 역할을 할 수 있을까요? 여러 역할 중 KAIST의 MLP 연구실은 처음부터 끝까지 스스로 언어모델을 구축하고 공개하는 오픈소스 Provider의 역할에 집중하고자 합니다. 본 세미나에서는 학습데이터, 코드, 모델을 모두 공개하는 완전한 한국어 오픈소스 LLM, KORMo (Korean Open Reasoning Model)의 도전기와 그 속에 숨겨진 이야기들을 소개합니다. KORMo는 누구나 쉽게 한-영 언어모델을 from scratch부터 학습할 수 있도록 제공하는 10.4B 규모의 완전한 오픈소스로 다음과 같은 문화/언어특성을 고려해 구축되었습니다. 1) GPT의 Tokenizer는 과연 한국어에 잘 맞을까? 한국어 특성에 맞는 Tokenizer는 어떻게 만들 수 있을까? 2) 어떻게 하면 양질의 한국어 학습데이터를 효과적으로 획득할 수 있을까? 3) 모델 아키텍쳐의 변형 (Attention, norm 등)은 어떤 영향을 미칠까?


Bio

임경태 교수는 KAIST 웹사이언스공학 석사, 전산학 박사 중퇴 후 École Normale Supérieure 에서 2020년 언어학으로 박사를 마쳤다. 2023년 서울과학기술대학교에 부임해 Multimodal Language Processing (MLP) 연구실 운영해 왔으며 자연어처리와 한국어 언어자원에 대한 연구를 진행해 왔다. 2025년부터 KAIST 문화기술대학원에서 Bllossom, KORMo와 같은 멀티모달 오픈소스 언어모델 연구를 지속해 오고 있다.


Language

Korean · Offline