인공지능(AI)이 평균적인 인간의 창의성을 뛰어넘었지만 상위 10% 창의적 인간에게는 미치지 못한다는 연구 결과가 발표됐습니다.
지난 25일(현지 시간) 온라인 미디어 카라파이아(Karapaia)에 따르면, 몬트리올 대학 심리학부 카림 제르비 교수가 이끄는 연구팀은 저명한 AI 연구자인 요슈아 벤지오 교수와 함께 대규모 언어 모델과 인간의 창의성을 비교하는 조사를 실시했습니다.
연구팀은 확산적 연합 과제(Divergent Association Task: DAT)라는 심리학 기법을 활용해 인간과 AI의 창의성을 측정했습니다. 이 테스트는 하나의 주제에서 얼마나 다양하고 독창적인 아이디어를 도출할 수 있는지를 평가하는 방식입니다. 예를 들어, 이 테스트에서는 의미가 서로 최대한 떨어져 있는 10개의 단어를 제시하도록 요구합니다.
매우 창의적인 인간의 경우 은하, 포크, 자유, 조류, 하모니카, 양자, 노스탤지아, 벨벳, 허리케인, 광합성과 같이 맥락이 전혀 다른 단어들을 조합할 수 있습니다. 이 테스트 성적은 문장 작성이나 문제 해결 등 다른 창조적 활동 능력과도 연관성이 있어 단순한 어휘력이 아닌 창의적 사고 자체를 측정할 수 있습니다.
이어 연구팀은 하이쿠 작성, 영화 개요 작성, 단편소설 집필 등 보다 복잡한 과제에서도 비교를 실시했습니다.
연구 결과, GPT-4 등 일부 AI 모델이 언어를 활용한 창의성 테스트에서 평균적인 인간의 점수를 상회하는 성과를 보였습니다. 그러나 숙련된 인간 크리에이터들은 AI에 비해 명확한 우위를 유지하고 있음을 확인했습니다.
제르비 교수는 일부 AI 시스템이 특정 과제에서 평균적인 인간을 능가할 수 있게 된 사실이 사람들에게 불안감을 줄 수 있지만 매우 중요한 발견이라고 평가했습니다. 하지만 최고 수준의 AI조차도 가장 창의적인 인간이 도달하는 수준에는 아직 미치지 못한다는 중요한 사실도 함께 확인됐습니다.
실제로 조사에 참여한 인간 중 창의성이 높은 상위 50%의 평균 점수는 테스트된 모든 AI 모델을 웃돌았습니다. 특히 상위 10%의 매우 창의적인 사람들과 AI 사이에는 여전히 큰 격차가 존재했습니다.
연구에서는 AI의 창의성을 조정할 수 있는지 여부에 대해서도 조사했습니다. 핵심은 AI 응답의 예측 가능성을 제어하는 '온도'라는 기술적 설정입니다. 온도를 낮게 설정하면 AI는 신중하고 예측 가능한 응답을 내지만, 온도를 높이면 무작위성이 증가해 위험을 감수하게 되어 보다 독창적인 답변이 나오기 쉬워집니다.
프롬프트를 통해 지시하는 방법도 큰 영향을 미쳤습니다. 예를 들어 단어의 어원이나 구조를 의식하도록 지시하면 AI가 더 희귀한 연상을 하게 되어 창의성 점수가 향상됐습니다. 이는 AI의 창의성이 인간이 시스템을 어떻게 인도하고 설정하는지와 밀접하게 관련되어 있음을 의미합니다.
이번 연구 결과는 AI가 인간의 일자리를 빼앗을 것이라는 우려에 대해 새로운 관점을 제시하고 있습니다. AI가 특정 테스트에서 인간 수준에 도달했지만 기계에는 한계가 있으며, 창의성의 중심에는 항상 인간이 있다는 것입니다.
제르비 교수는 AI와 인간을 경쟁 상대로 봐서는 안 된다고 강조했습니다. 생성 AI는 무엇보다 인간의 창의성을 돕는 강력한 도구이며, 크리에이터를 대체하는 것이 아니라 이를 사용하는 사람들이 새로운 발상을 넓히고 탐색하는 방법을 근본적으로 바꿔나가는 존재가 된다고 설명했습니다.
이번 연구는 토론토대 제이 올슨과 협력해 개발된 정교한 평가 체계를 사용했으며, 10만 명 이상의 데이터를 기반으로 합니다. 이 연구 성과는 'Scientific Reports'지에 게재되었습니다.