카카오가 일상 대화와 복잡한 추론을 하나의 모델로 처리할 수 있는 혁신적인 AI 기술을 선보였습니다.
5일 공개된 신규 멀티모달 언어모델은 한국어 특화 성능으로 글로벌 경쟁력을 입증했습니다.
카카오는 5일 자체 개발한 신규 AI 모델 'Kanana-v-4b-hybrid'의 성능을 공개했다고 발표했습니다.
이 모델은 가벼운 일상 대화부터 논리적 사고가 필요한 복잡한 문제 해결까지 하나의 시스템으로 처리할 수 있는 하이브리드 멀티모달 언어모델입니다.
새롭게 공개된 모델은 지난해 7월 허깅페이스를 통해 오픈소스로 공개한 'Kanana-1.5-v-3b'를 기반으로 개발되었습니다.
기존 모델들이 단순히 이미지를 텍스트로 변환하거나 설명하는 수준에 머물렀다면, 이번 모델은 사람처럼 정보를 종합하고 계산하며 스스로 검산하는 자기 점검 과정을 거치는 것이 핵심 특징입니다.
이러한 기술적 진보를 통해 인공지능 모델의 고질적 문제인 환각 현상을 최소화할 수 있게 되었습니다. 또한 복잡한 형태의 표나 영수증, 수학 문제 등 까다롭고 복합적인 상황에서 발생하기 쉬운 계산 실수나 조건 누락을 획기적으로 줄이고 정확도를 크게 향상시켰습니다.
카카오는 Kanana-v-4b-hybrid 모델의 높은 성능 구현을 위해 단계별로 정교하게 설계된 학습 과정을 적용했습니다.
기초 학습, 장문 사고 사슬, 오프라인 강화학습, 온라인 강화학습으로 이어지는 4단계의 고도화된 학습 절차를 통해 모델의 성능을 체계적으로 향상시켰습니다. 특히 한국어 논리 전개 능력에서 독보적인 경쟁력을 보여주었습니다.
기존 글로벌 모델들은 한국어 질문을 영어로 번역해 사고한 뒤 재번역하여 답하는 과정에서 맥락과 논리가 결여되는 한계를 드러냈습니다.
반면 이번 모델은 한국어 질문을 있는 그대로 이해하고 사고하도록 훈련되어 이러한 문제점을 해결했습니다. 이러한 한국어 특화 성능을 바탕으로 대학수학능력시험 사회탐구나 수학 등의 문제에서 한국어의 미묘한 조건들을 놓치지 않고 높은 정답률을 기록했습니다.
한국의 교육 체계를 기반으로 하는 AI 학력 평가 벤치마크인 'KoNET'에서는 92.8점을 획득하는 성과를 거두었습니다.
글로벌 모델과의 성능 비교에서도 우수한 결과를 보였습니다. 유사한 크기의 글로벌 모델 Qwen3-VL-4B, InternVL3.5-4B, GPT-5-nano 및 국내 모델과의 성능 평가에서 과학과 공학, 일반 시각 질의응답, 문서 이해 등의 영역에서 뛰어난 성능을 기록했습니다.
특히 수학과 과학 등 복잡한 추론이 필요한 영역과 일반 시각 이해 능력에서는 글로벌 모델을 뛰어넘는 성과를 달성했습니다.
카카오는 향후 더욱 진화된 형태의 AI 서비스를 제공할 계획입니다. 사용자가 모델을 선택할 필요 없이 AI가 질문의 복잡도를 스스로 판단한 뒤 일반·추론 모드를 직접 자동 전환해 동작할 수 있는 형태로 고도화해 나갈 예정입니다.
이를 통해 하나의 대화창에서 단순한 질문과 복잡한 분석 요청에 대해 자연스럽고 끊김 없는 사용 경험을 제공하면서, 최적의 리소스를 활용하는 비용 효율적 모델을 선보일 계획입니다.
카카오 김병학 카나나 성과리더는 "Kanana-v-4b-hybrid는 한국어 환경에서 가장 자연스럽고 정확하게 생각하고 답변할 수 있는 모델로, 일상과 복잡한 작업을 모두 하나의 AI에 맡길 수 있는 혁신적인 연구 성과"라고 평가했습니다.
그는 또한 "한국어에 특화된 높은 성능과 효율을 갖춘 자체 AI 모델 개발을 통해 글로벌 무대에서 경쟁력을 높이고, 국내 AI 생태계 발전의 선도 역할을 이어가겠다"고 강조했습니다.
카카오는 지난달 고도화된 멀티모달 언어모델 'Kanana-o'와 'Kanana-v-embedding'의 연구개발 성과를 공개했으며, 에이전틱 AI 구현에 최적화된 고성능·고효율 언어모델 'Kanana-2'를 오픈소스로 공개하는 등 기술 경쟁력을 꾸준히 증명해가며 국내 AI 연구 생태계 활성화에 지속적으로 기여하고 있습니다.