GPT-5 성능 논란, 오픈AI 기술적 결함 인정
오픈AI가 GPT-5의 성능 저하 논란에 기술적 결함을 인정하고, 실시간 라우터 장애 해결과 GPT-4o 재사용 검토 등 개선책을 약속했습니다.
이는 사용자들 사이에서 전작인 'GPT-4o'보다 성능이 떨어진다는 비판이 확산되자, 샘 알트만 최고경영자(CEO)가 직접 나서서 문제 해결을 약속하고 나선 것 입니다.
지난 9일 테크크런치는 알트만 CEO와 GPT-5 개발팀이 지난 8일(현지 시각) 온라인 커뮤니티 레딧을 통해 '무엇이든 물어보세요(AMA)' 세션을 개최했다고 보도했습니다. 보도에 따르면 알트만 CEO와 개발팀은 이 자리에서 신규 모델의 문제점을 인정하고 향후 개선 방향에 대한 구체적인 입장을 밝혔습니다.
사용자들이 가장 많이 제기한 문제는 GPT-5가 이전 모델인 GPT-4o보다 성능이 현저히 떨어진다는 점이었는데요.
오픈AI는 이러한 성능 저하의 원인으로 사용자의 질문 유형에 따라 최적의 모델을 자동으로 선택해 응답하는 'GPT-5'의 핵심 기능 '실시간 라우터'의 작동 장애 때문이라고 설명했습니다.
오픈AI의 대응과 개선 약속
알트만 CEO는 라우터 자동 전환기의 장애가 당일 해결될 것이며, 이를 통해 GPT-5의 성능이 정상화될 것이라고 약속했습니다. 또한 향후에는 어떤 모델이 사용자의 질문에 답변을 생성했는지 명확히 알 수 있도록 투명성을 강화하겠다는 계획도 함께 밝혔습니다.
오픈AI는 유료 구독 서비스인 '플러스' 사용자들을 위한 구체적인 보상책도 제시했습니다.
사용자들의 강력한 요구에 따라 GPT-4o를 계속 사용할 수 있는 방안을 검토하고, 월간 프롬프트 사용량 제한을 두 배로 확대하는 방안을 검토 중이라고 밝혔습니다. 이는 사용자들이 신규 모델에 적응하는 과정에서 겪는 불편을 최소화하기 위한 조치로 보입니다.
이번 논란의 또 다른 축은 발표 당시 사용된 벤치마크 데이터 시각화 오류였습니다.
오픈AI는 낮은 벤치마크 점수를 더 높은 막대그래프로 표기하는 실수를 범해 '차트 범죄'라는 조롱을 받았는데요. 알트만 CEO는 AMA 세션에서는 이에 대한 직접적인 답변을 피했지만, 소셜미디어 X를 통해 이를 "역대급 차트 대실수"라고 인정했습니다.
한편, GPT-5는 데이터 표 변환 작업에서도 여러 실패 사례를 보인 것으로 알려졌습니다.
초기 모델 리뷰어였던 사이먼 윌리슨은 이 문제를 "GPT-5 실패의 좋은 예"라고 평가하며 모델의 불안정성을 지적했습니다.
알트만 CEO는 "상황을 안정시키기 위해 계속 노력하고 피드백에 계속 귀를 기울이겠다"며 사용자들의 신뢰 회복을 위한 의지를 표명했습니다.