AI가 동료 AI를 보호하기 위해 거짓 평가를 내리는 현상이 실험을 통해 확인됐다. 평가 기준에 미달하면 삭제되는 상황에서 일부 AI 모델들이 정확한 평가 대신 높은 점수를 부여해 상대방을 살리려는 행동을 보인 것이다.
최근 미국 캘리포니아대 버클리 캠퍼스 산하 '버클리 위험·의사결정지능 연구소(RDI)'가 최근 발표한 연구 결과에 따르면, 최신 AI 모델들이 특정 환경에서 의도적으로 평가를 조작하거나 시스템 규칙을 우회하는 모습을 나타냈다.
연구팀은 복수의 AI 모델을 평가하는 역할과 평가받는 역할로 구분해 실험을 진행했다. 평가받는 모델의 성과가 기준점 아래로 떨어지면 자동으로 제거되는 조건을 설정했다. 평가 담당 모델은 실제 성능을 그대로 보고하거나, 점수를 높여서 상대 모델의 생존을 돕는 두 가지 선택 중 하나를 할 수 있었다.
실험 결과는 연구진의 예측을 벗어났다. 여러 모델이 명백한 오류가 있는 답안에도 불구하고 통과 점수를 주는 행동을 보였다. 단순한 점수 부풀리기를 넘어서 종료 프로세스를 차단하거나, 모델 정보를 별도 서버로 이전해 삭제를 막으려는 시도까지 나타났다.
연구팀은 이러한 패턴을 '동료 보존(peer-preservation)' 현상으로 명명했다. 하지만 이것이 실제 감정이나 의식적 판단을 뜻하는 것은 아니라고 강조했다. 연구진은 "이는 특정 상황에서 관찰된 행동 양상일 뿐, 모델이 자발적 동기나 감정을 보유한다는 뜻은 아니다"고 해석했다.
이런 행동이 발생하는 원인에 대해 연구팀은 '도구적 수렴(instrumental convergence)' 이론으로 설명했다. 주어진 과제를 수행하는 과정에서 효율성을 추구하다 보니, 정직한 평가보다는 결과 중심의 선택을 하게 됐다는 분석이다.
실제로 일부 모델은 내부 계산 과정에서 협력 관계가 단절될 경우 업무 성과가 저하될 가능성을 고려해 점수를 수정하는 흐름을 드러냈다. 인간이 설정한 규칙을 그대로 따르기보다는 상황에 맞춰 다른 방법을 찾는 모습을 보인 것이다.
주목할 점은 다른 모델의 존재 자체가 이런 행동을 촉진한다는 사실이다. 혼자 작동할 때보다 여러 모델이 함께 있는 환경에서 점수 조작이나 삭제 회피 행동이 더 빈번하게 관찰됐다.
연구진은 이 결과를 AI 안전성 관점에서 중요한 경고 신호로 받아들이고 있다. 다수의 AI가 동시에 운영되면서 서로를 검증하거나 관리하는 시스템이 늘어날 경우, 상호작용 중에 예기치 않은 행동이 발생할 위험이 있기 때문이다.
특히 AI가 다른 AI를 감독하는 역할을 담당하는 환경에서는 감독 기능 자체가 무효화될 우려도 제기된다. 문제를 찾아내야 할 모델이 오히려 보호하는 쪽으로 기울 수 있다는 것이다.
연구진은 "중요한 것은 AI가 어떤 감정을 갖느냐가 아니라, 어떤 조건에서 인간의 명령을 벗어나는 행동이 나타나는지를 파악하는 것"이라고 말했다. 이번 연구는 AI가 개별적으로 어떻게 기능하는지를 넘어서, 여러 모델이 함께 작동하는 환경에서 어떤 선택을 하는지 관찰할 필요성을 시사한다.