2026년 02월 04일(수)

"이건 새 기준이다"... 카카오 AI 평가기술, 세계 무대 통과

카카오가 자체 개발한 인공지능 모델 평가 지표가 세계 최고 권위의 AI 학회에서 인정받으며 글로벌 기술력을 증명했습니다.


카카오는 3일 자사가 개발한 'AI 오케스트레이션 벤치마크'가 세계 3대 AI 학회 중 하나인 'ICLR 2026'에 논문으로 채택됐다고 발표했습니다.


ICLR은 글로벌 빅테크 기업들이 가장 주목하는 인공지능 분야 최고 학술대회로 평가받고 있습니다. 올해 ICLR 2026에는 약 19,000건의 논문이 제출됐으나 상위 28%에 해당하는 논문만이 채택되는 등 매우 높은 경쟁률을 보였습니다.


26.02.03[사진자료]카카오, 자체개발 LLM 오케스트레이션 능력 평가 벤치마크 ‘ICLR 2026’ 논문채택.png사진 제공 = 카카오


카카오는 최근 대형 언어모델이 단순한 질의응답 기능을 넘어서 사용자의 다양한 요구사항을 스스로 계획하고 조율하는 에이전틱 AI로 발전하고 있는 기술 흐름에 착안해 이번 벤치마크를 개발했습니다. 


특히 실제 서비스 환경에서 요구되는 멀티 스텝과 멀티 도메인 처리 성능을 정확히 측정하는 데 중점을 두었습니다.


기존 LLM 평가 도구들은 단편적인 성능 측정에 머물러 있어, 복잡한 사용자 요청을 해석하고 적절한 도구를 선택하며 여러 작업 간의 연관성을 관리하는 오케스트레이션 능력을 제대로 평가하기 어려웠습니다. 


카카오는 이러한 한계를 극복하기 위해 실제 서비스 상황을 반영한 새로운 평가 프레임워크를 제안했으며, AI 모델의 작업 계획과 도구 실행 기능을 분리해 보다 정밀한 평가가 가능하도록 했습니다.


이번에 개발된 오케스트레이션 벤치마크는 여행, 쇼핑, 금융, 일정 관리 등 17개 서비스 분야와 100여 개의 가상 도구로 구성됩니다. 사용자의 요청 변경이나 추가 질문 등 실제 서비스에서 발생하는 대화 상황을 바탕으로 시나리오를 설계해 실용성을 극대화했습니다.


모든 평가 데이터는 AI 어노테이터의 수작업을 통해 구축되고 검증됐으며, 한국어와 영어 두 언어를 지원합니다. 특히 한국어 버전의 경우 한국의 문화적 특성과 언어적 맥락을 충분히 반영해 평가의 정확성과 신뢰성을 높인 점이 특징입니다.


카카오는 글로벌 AI 연구 생태계 발전에 기여하고 연구 성과의 자유로운 활용을 위해 해당 논문을 오픈소스 플랫폼인 깃허브에 공개했습니다.


카카오 관계자는 "오케스트레이션 벤치마크는 에이전틱 AI가 실제 서비스 환경에서 안정적으로 동작하는지를 검증하는 핵심 도구로, AI가 스스로 판단하고 실행하는 에이전틱 AI로 진화하는 현재 시점에서 매우 의미 있는 연구 성과입니다"라고 설명했습니다. 이어 "앞으로도 에이전트 간 협업 및 오케스트레이션 능력 향상을 위한 연구를 지속하며, 카카오의 에이전틱 AI 발전 방향에 맞는 기술 고도화를 추진해 나갈 계획입니다"라고 덧붙였습니다.