KT 기술혁신부문 연구원들이 서초구 KT 우면연구센터에서 믿:음 2.0을 테스트하고 있는 모습 / 사진. KT
KT가 자체 개발한 한국형 대규모 언어 모델(이하 LLM) ‘믿:음 2.0’을 7월 3일(수) 오픈소스로 공개한다고 밝혔다. AI 개발자 플랫폼 허깅페이스(HuggingFace)를 통해 배포될 예정이며, 기업·개인·공공기관 등 누구나 상업적 제약 없이 사용할 수 있다.
믿:음 2.0은 KT가 제시한 ‘한국적 AI’ 철학을 바탕으로 개발됐다. 한국 사회의 정신, 언어, 문화적 맥락을 반영해 한국 사용자에게 가장 적합한 AI를 구현하는 데 초점을 맞췄다. KT는 AI의 학습 데이터로 국내 교육용 도서, 법률 문서, 문학 작품, 사전 등 고품질 한국어 자료를 활용했고, 모든 데이터는 저작권을 확보하거나 제거해 ‘Responsible AI’ 원칙에 따라 정제했다.
이번에 공개되는 모델은 115억 파라미터 규모의 ‘믿:음 2.0 Base’와 23억 파라미터 규모의 ‘믿:음 2.0 Mini’ 2종이다. 두 모델 모두 한국어와 영어를 지원하며, 특히 Base 모델은 한국어 문서 기반 질의응답과 범용 서비스에서 강력한 성능을 보인다. KT는 국내에서 110억 파라미터급 이상의 한국어 기반 LLM을 상업용 오픈소스로 공개한 것은 자사가 최초라고 강조했다.
‘믿:음 2.0’은 성능 면에서도 한국어와 문화, 사회적 이해도가 탁월한 것으로 평가된다. 고려대학교와 공동 개발한 ‘Ko-Sovereign’ 벤치마크에서 국내외 오픈소스 모델을 상회하는 결과를 기록했으며, KMMLU, HAERAE 등의 한국어 특화 벤치마크에서도 우수한 성능을 입증했다.
KT는 한국어의 언어학적 특성을 반영한 전용 토크나이저(tokenizer)를 자체 개발하고, 필터링으로 줄어든 학습 데이터를 합성 기법으로 보완해 정밀한 표현력을 확보했다. 고려대학교 민족문화연구원과의 산학 협력으로 학술적 신뢰성도 높였다.
또한 믿:음 2.0은 국내외 AI 윤리 가이드라인을 기반으로 한 ‘AI 영향 평가 체계’를 도입해 안전성과 투명성을 강화했다. 국산 AI 반도체 기업 리벨리온과의 협업을 통해 국산 칩 최적화를 진행했으며, 프렌들리AI와 함께 설치 없이 체험 가능한 플랫폼을 한시적으로 운영할 계획이다.
KT는 향후 마이크로소프트와 협력해 GPT-4에 한국적 사고를 반영하는 AI 모델도 순차적으로 공개할 예정이다. 기존 믿:음 1.0 모델은 KT AICC, 지니TV, AI 전화, 100번 고객센터 등 다양한 고객 서비스에 이미 적용돼 있다.
KT Gen AI Lab장(CAIO) 신동훈 상무는 “믿:음 2.0은 일반적인 생성 능력을 갖추면서도 한국의 문화와 언어를 깊이 이해하도록 고도화된 AI 모델”이라며 “KT가 제시하는 고성능 한국적 AI는 국내 사용자들에게 새로운 대안이 되는 동시에 글로벌 경쟁력을 갖추는 데 기여할 것”이라고 말했다.