영화 속 주인공의 눈으로 세상을 바라보는 경험이 현실이 되었습니다. 한국과학기술원(KAIST) 연구진이 일반 영상만으로 1인칭 시점 영상을 생성하는 혁신적인 인공지능 기술을 선보였습니다.
지난 23일 KAIST는 김재철AI대학원 주재걸 석좌교수 연구팀이 제3자 시점의 영상을 활용해 영상 속 인물이 실제로 보았을 장면을 정밀하게 재현하는 AI 모델 '에고엑스(EgoX)'를 개발했다고 발표했습니다.
증강현실과 가상현실, AI 로봇 기술의 급속한 발전으로 1인칭 시점 영상의 필요성이 증가하고 있습니다. 하지만 기존에는 고품질 1인칭 영상 제작을 위해 사용자가 비싼 액션캠이나 스마트 글래스를 직접 착용해야 하는 제약이 있었습니다.
기존 촬영된 일반 영상을 자연스러운 1인칭 시점으로 변환하는 것도 기술적 한계가 존재했습니다. 기존 기술들은 정지 이미지만 처리하거나 4대 이상의 카메라가 필요했으며, 복잡한 조명이나 움직임이 있는 동영상에서는 부자연스러운 결과를 보였습니다.
에고엑스는 이러한 한계를 뛰어넘었습니다. 단일 3인칭 시점 영상만으로도 고품질 1인칭 영상 생성이 가능합니다. 연구팀은 인물의 위치와 자세, 주변 공간의 3차원 구조를 종합적으로 분석한 후 1인칭 시점 영상을 재구성하는 기술을 구현했습니다.
특히 인물의 머리 움직임과 실제 시야 간의 상관관계를 정밀하게 모델링해 고개를 돌릴 때 시야가 자연스럽게 전환되는 모습까지 사실적으로 표현하는 데 성공했습니다.
이 기술은 요리, 운동, 작업 등 다양한 일상 상황에서 안정적인 성능을 보였습니다. 별도의 웨어러블 장치 없이도 기존 영상으로부터 고품질 1인칭 시점 데이터를 확보할 수 있는 새로운 가능성을 제시했습니다.
에고엑스의 활용 분야는 광범위합니다. AR·VR 및 메타버스 영역에서는 일반 영상을 몰입형 콘텐츠로 전환해 사용자 경험을 극대화할 수 있습니다. 로봇의 모방 학습 데이터로도 활용 가능해 로봇과 AI 학습 분야 발전에도 기여할 전망입니다.
스포츠 중계를 선수의 시점으로 보거나 브이로그를 주인공의 관점에서 경험하는 새로운 형태의 영상 서비스도 실현될 것으로 기대됩니다.
주재걸 석좌교수는 "이번 연구는 단순한 영상 변환 기술을 넘어 인공지능이 사람의 '시야'와 '공간 이해'를 학습해 재구성했다는 점에서 의미가 크다"고 설명했습니다. 그는 "앞으로는 기존에 촬영된 영상만으로도 누구나 몰입형 콘텐츠를 제작하고 경험할 수 있는 환경이 열릴 것으로 기대한다"고 말했습니다.
주재걸 교수는 "KAIST는 생성형 AI 기반 비디오 기술 분야에서 세계적 경쟁력을 확보해 나갈 것"이라고 덧붙였습니다.
이번 연구에는 강태웅·김기남 KAIST 박사과정, 김도현 서울대 학부연구생이 제1저자로 참여했습니다. 연구 논문은 2025년 12월 9일 arXiv에 선공개되어 미국 NVIDIA 및 Meta 등 빅테크 기업들과 AI 산업계, 학계의 큰 관심을 받았습니다. 2026년 6월 3일 미국 콜로라도에서 개최되는 국제 학술대회인 The IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)에서 공식 발표될 예정입니다.