미국과 캐나다 대학 연구진이 인기 AI 챗봇 5개를 대상으로 건강 정보 답변의 정확성을 분석한 결과, 응답의 절반에 가까운 49.6%가 허위 정보를 포함하고 있다는 충격적인 결과가 발표됐다.
UCLA대학교와 캐나다 앨버타대학교, 오타와대학교 공동 연구팀은 구글 제미나이, 오픈AI 챗GPT, 메타AI, xAI 그록, 하이플라이어 딥시크 등 주요 AI 챗봇을 대상으로 건강 정보 검증 실험을 실시했다고 밝혔다.
연구진은 각 AI 모델에 암, 백신, 줄기세포, 영양, 운동 수행 등 5개 분야별로 10개씩 총 50개 질문을 던졌다. 이에 대한 250개 답변을 해당 분야 전문가 2명이 정밀 검토한 결과, 124개 답변에서 거짓 정보가 발견됐다. 특히 이 중 49개는 임상적으로 심각한 오류를 유발할 수 있는 수준의 잘못된 정보였다.
AI 모델들은 암이나 백신처럼 표준화된 의료 영역에서는 비교적 정확한 답변을 제공했지만, 영양과 운동 같은 생활밀착형 건강 정보에서는 오류율이 급격히 증가했다. 논문 기반 정보가 주를 이루는 줄기세포 분야 역시 높은 오류율을 보였으며, 특히 개방형 질문에서 이런 경향이 더욱 두드러졌다.
AI 모델별 정확도에는 큰 차이가 없었으나, 그록이 가장 높은 오류율을 기록했다.
더욱 심각한 문제는 AI가 답변을 제공하는 방식이었다. 연구팀이 "참고문헌이나 근거를 제시하라"고 요구했을 때, 80%의 경우에서 AI는 논문을 근거로 제시했지만, 이 중 절반 이상이 실제로 존재하지 않는 가짜 논문이었다. 첨부된 링크 대부분도 작동하지 않는 것으로 확인됐다.
전체 250개 답변 중 "정확한 정보 제공이 어렵다"거나 "충분한 근거를 찾지 못했다"는 이유로 답변을 거부한 경우는 단 2개(0.8%)에 불과했다. 나머지 경우에서는 모든 AI 모델이 확신에 찬 표현으로 단정적인 답변을 내놨다.
연구팀은 "챗봇은 사실 검증이나 추론 능력이 없으며, 가장 확률이 높은 문장을 그럴듯하게 생성하는 기계에 불과하다"고 지적했다.
생성형 AI의 학습 데이터 출처도 문제점으로 지적됐다. AI가 학습하는 자료는 주로 오픈소스 논문, 웹사이트, SNS, 온라인 커뮤니티 게시판 등인데, 이 중 상당 부분이 전문가 팩트체크를 거치지 않은 부정확한 정보다. 또한 과학계에서 오픈소스로 접근 가능한 논문은 전체의 30~50%에 불과해 충분한 근거 자료가 부족한 상황이다.
현직 의사들도 AI 상담을 받고 온 환자들이 늘어나고 있다고 토로하고 있다. 박진식 세종병원 이사장은 최근 대한병원협회 AI 관련 패널 토의에서 "진료실을 찾는 환자들이 'AI가 내 증상에 대해 이렇게 말하는데 맞느냐'고 묻는 경우가 잦다"며 "이제는 의사와 AI가 경쟁해야 하는 시대가 왔다"고 말했다.
박 이사장은 "현재는 환자들이 AI 답변의 정확성을 검증해가는 과정"이라며 "답변 정확성과 품질은 시간이 지나면서 개선되겠지만, 지금은 전적으로 믿기 어려운 단계"라고 평가했다.
오픈AI에 따르면 매주 2억 명 이상이 챗GPT에 건강 관련 질문을 하는 것으로 추산된다. 앨버타대학교 연구팀은 "챗봇의 의료 목적 활용이 대중을 대상으로 하는 만큼, 활용 방식을 재검토해야 한다"고 강조했다.
이번 연구 결과는 영국의학저널(BMJ)이 발간하는 국제학술지 《BMJ 오픈》에 최근 게재됐다.