2025년 12월 13일(토)

카카오, 한국어 특화 멀티모달 AI 공개... '카나나'로 글로벌 모델에 도전

카카오가 한국어와 한국 문화를 깊이 이해하는 차세대 멀티모달 AI 기술 개발 성과를 12일 공식 발표했습니다. 이번에 공개된 기술은 텍스트, 음성, 이미지를 통합적으로 처리하며 사람과 같은 자연스러운 소통이 가능한 수준까지 발전했습니다.


정신아 대표이사가 이끄는 카카오는 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'멀티모달 임베딩 모델 'Kanana-v-embedding'의 상세한 개발 과정과 성능 지표를 상세히 공개했습니다. 이는 자체 개발 AI 모델의 기술적 우수성을 다시 한번 증명하는 성과로 평가됩니다.


'Kanana-o'는 텍스트, 음성, 이미지를 동시에 인식하고 실시간으로 응답하는 통합형 멀티모달 언어모델입니다.


25.12.12 [사진자료1] Kanana-o와 글로벌 경쟁모델 벤치마크 성능비교 .jpeg사진 제공 = 카카오


글로벌 경쟁 모델들과 비교해 한국어 맥락 파악에서 뛰어난 성능을 보이며, 인간과 유사한 자연스럽고 풍부한 표현력을 구현했습니다.


카카오는 지난 5월 이 모델의 성능을 최초로 공개한 바 있습니다.


카카오 개발팀은 기존 멀티모달 모델들의 한계점을 면밀히 분석했습니다. 텍스트 입력에서는 우수한 성능을 보이지만 음성 대화에서는 답변이 단순해지고 추론 능력이 저하되는 문제점을 발견했습니다.


이를 해결하기 위해 Kanana-o의 지시이행 능력을 대폭 강화해 사용자의 숨겨진 의도와 복잡한 요구사항까지 정확히 파악할 수 있도록 개선했습니다.


자체 구축한 데이터셋을 활용한 학습을 통해 다양한 모달리티의 입출력에서도 기존 언어모델 수준의 성능을 유지하도록 했습니다.


25.12.12 [사진자료2] Kanana-v-embedding 벤치마크 성능 비교.jpg사진 제공 = 카카오


단순한 질의응답을 넘어서 요약, 감정 및 의도 해석, 오류 수정, 형식 변환, 번역 등 광범위한 작업을 수행할 수 있는 능력을 갖추었습니다. 특히 주목할 점은 고품질 음성 데이터와 DPO 기술을 적용한 감정 표현 능력입니다.


억양, 감정, 호흡 등을 정밀하게 학습시켜 기쁨, 슬픔, 분노, 공포 등 상황별 생생한 감정 표현은 물론 미세한 음색과 어조 변화까지 구현할 수 있게 되었습니다.


호스트와 게스트가 대화하는 팟캐스트 형태의 데이터셋을 구축해 끊김 없는 자연스러운 멀티턴 대화도 가능해졌습니다.


벤치마크 평가에서 Kanana-o는 영어 음성 성능에서 GPT-4o와 비슷한 수준을 기록했으며, 한국어 음성 인식 및 합성, 감정 인식 능력에서는 월등히 높은 성능을 보였습니다.


카카오는 향후 더욱 자연스러운 동시 대화와 상황에 맞는 사운드스케이프를 실시간으로 생성하는 진화된 모델로 발전시킬 계획입니다.


함께 공개된 'Kanana-v-embedding'은 이미지 기반 검색의 핵심 기술로 활용되는 한국형 멀티모달 모델입니다.


텍스트와 이미지를 동시에 이해하고 처리할 수 있어 텍스트로 이미지를 검색하거나, 사용자가 선택한 이미지와 관련된 정보 검색, 이미지가 포함된 문서 검색 등을 지원합니다.


이 모델은 실제 서비스 적용을 목표로 개발되어 한국어와 한국 문화에 대한 이해도가 탁월합니다.


'경복궁', '붕어빵' 같은 고유명사는 물론 '하멜튼 치즈'처럼 오타가 포함된 단어도 문맥을 파악해 정확한 이미지를 찾아줍니다.


'한복 입고 찍은 단체 사진'처럼 복합적인 조건도 정확히 이해해 조건의 일부에만 해당하는 사진을 걸러낼 수 있는 높은 변별력을 보유했습니다.


Kanana-v-embedding은 현재 카카오 내부에서 광고 소재의 유사도 분석 및 심사 시스템에 적용되고 있으며, 향후 비디오나 음성으로 범위를 확대해 더욱 다양한 서비스에 적용할 예정입니다.


카카오는 지난 5월 Agentic AI 구현을 위한 기능 강화에 중점을 둔 언어모델 Kanana-1.5를 기반으로 현재 모바일 기기와 같은 온 디바이스 환경에서 동작할 수 있는 멀티모달 모델의 경량화 연구를 진행하고 있습니다.


이와 더불어 MoE 구조를 적용한 고성능, 고효율 모델인 'Kanana-2'의 개발도 준비하고 있습니다.


카카오 김병학 카나나 성과리더는 "카카오의 자체 AI 모델 카나나는 단순한 정보 나열 수준을 넘어, 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있도록 한국적 맥락의 이해와 표현력을 높여가고자 합니다"라고 밝혔습니다.


그는 이어 "실제 서비스 환경을 통해 사용자들의 일상 속 AI 기술 경험을 만들어 나가고, 사람처럼 상호작용할 수 있는 AI의 구현에 주력해 나갈 것"이라고 강조했습니다.