전문 번역가 vs 챗GPT 블라인드 테스트... 영문과 교수 16명 중 12명의 선택은?

입력 2026.02.03. 11:02 최종수정일 2026.02.03. 14:28

인공지능(AI)이 문학 번역 영역에서 인간 전문가들을 앞서는 성과를 보여 문학계 및 번역계 안팎에 충격을 주고 있습니다.

뉴스1 보도에 따르면, 민형배 의원실은 지난해 조선시대 고전 작품을 대상으로 번역 비교 실험(블라인드 테스트)을 진행했는데요. 해당 테스트에서 대다수 영문과 교수들이 AI 번역을 더 우수하다고 평가한 것으로 나타났습니다.

optimize (2).jpg 신독잠 영문 번역 텍스트. A(인간 번역)와 B(챗GPT) 비교 자료 / 더불어민주당 민형배 의원실 제공

민 의원실은 조선시대 학자 계곡 장유(1587-1638)의 '신독잠' 작품을 한국어에서 영어로 번역해 비교하는 실험을 진행했습니다.

국내 영문과 교수 16명이 참여한 해당 테스트에서 12명이 챗GPT의 번역 결과물을 선택했습니다. 인간 번역가의 작업을 지지한 교수는 2명에 그쳤습니다.

챗GPT를 선택한 교수들은 AI가 한국의 역사적·문화적 맥락을 인간보다 더 정확하게 파악했다고 평가했습니다.

번역 품질의 핵심 차이는 어휘 선택에서 드러났는데요. 유학자가 사용한 원문의 '하늘'을 인간 번역가는 물리적 공간을 의미하는 '스카이'(Sky)로 번역했지만, 챗GPT는 종교적·윤리적 함의가 담긴 '헤븐'(Heaven)으로 옮겼습니다.

AI 번역에 높은 평가를 내린 전문가들은 챗GPT가 시적 운율과 리듬감, 대구적 문장 구조를 더 효과적으로 구현했다고 분석했습니다.

Image_fx (1).jpg 기사의 이해를 돕기 위해 AI로 생성된 이미지

반면 인간의 번역은 직역에 가까운 산문 형태로 장황하며, 전형적인 어휘와 어순 사용으로 문학적 깊이가 부족하다고 지적했습니다.

인간 번역을 지지한 교수들은 비문법적 문장이 적고 제목 번역이 자연스럽다는 장점을 언급했습니다. 하지만 이들 역시 AI의 발전상을 인정하는 입장을 보였습니다.

'판단 불가'를 선택한 교수들은 AI가 인간 번역과 구별하기 어려운 수준까지 발전했다는 점을 강조했습니다.

테스트 참여 전문가들은 대형 언어 모델이 방대한 데이터 학습을 통해 이미 임계점을 돌파했다고 진단했습니다. 특히 한영 번역 분야에서 AI가 인간 번역가를 대체할 수 있는 역량을 갖췄다고 분석했습니다.

민형배 의원 측은 "한국문학번역원의 윤리와 품질 가이드라인 마련이 필요하다"며 "AI 시대에 번역원이 적절한 역할을 수행할 수 있는지 검토해야 할 시점"이라고 제언했습니다.