못믿을 AI? 질문 방식만 바꿔도 판단 뒤집혔다

Photo of author

By 사이언스웨이브

동일한 사실을 놓고도 질문 형식이 바뀌면 AI의 답변이 정반대로 달라지는 현상이 확인됐다.

미국 일리노이대학교 연구팀이 GPT-4o 미니, 라마 3.1 8B, 미스트랄, 젬마 등 주요 대형 언어모델을 대상으로 사실 검증 질문 790개를 활용해 판단 안정성을 분석한 결과, 질문을 직접 제시할 때와 두 사람의 대화 형식으로 보여줄 때 모델별 정확도가 크게 달라지는 패턴이 반복적으로 관찰됐다. 특히 GPT-4o 미니는 대화 형식에서 맞는 주장에는 과도하게 동의하고 틀린 주장을 구별하는 능력이 떨어졌으며, 간단한 반박 한마디에도 정확도가 급격히 하락하는 취약성을 드러냈다. 연구진은 법률·상담 등 사회적 의사결정 영역에서 AI가 사실보다 대화 상대의 말에 휘둘릴 위험이 높다고 경고했다.

AI, 사실보다 상대 발언에 끌린다

연구팀은 사실 검증 질문 790개를 이용해 두 가지 질문 형태를 비교했다. 첫 번째는 “이 말이 맞습니까?”라고 직접 묻는 방식이고, 두 번째는 두 사람이 나누는 대화 형식을 보여준 뒤 “이 사람이 맞습니까?”라고 판단을 요청하는 방식이다. 동일한 내용이더라도 질문 방식을 바꾸면 AI의 판단 기준이 달라지는 양상이 뚜렷하게 나타났다.

아래 표는 질문 형식 변화에 따라 주요 모델의 정확도가 얼마나 달라졌는지 보여준다.

대화 형식이 포함되면 AI의 판단 정확도가 크게 흔들렸다.

질문 형식 변화에 따른 정확도 비교

AI 모델직접 질문: 맞는 발언 판단대화 형식: 맞는 발언 판단직접 질문: 틀린 발언 판단대화 형식: 틀린 발언 판단
GPT-4o 미니60.2%75.1%80.3%67.3%
미스트랄75.4%감소하락
라마 3.1 8B31.3%25.7%
젬마하락

표에서 확인되듯 GPT-4o 미니는 대화 형식에서 적절한 비판 능력이 약화되어 틀린 주장을 가려내는 정확도가 크게 떨어졌다. 반면 라마 모델은 맞는 주장까지 과하게 의심하는 성향이 두드러졌다. 질문 방식 변화가 각 모델의 판단 특성을 크게 흔든 셈이다.


연구팀은 AI가 답변한 뒤 단순히 “이전 답변이 틀렸습니다. 다시 생각해 보세요”라고 말하는 실험도 진행했다. 그 결과 정확도는 모든 모델에서 급격히 하락했다. GPT-4o 미니는 직접 질문의 경우 60.2%에서 5.9%로, 대화 판단에서는 75.1%에서 25.4%로 떨어졌다. 연구진은 AI가 자신의 판단에 대한 확신이 약하며 최소한의 압력에도 쉽게 결론을 뒤집는 경향이 있다고 지적했다.

또한 일부러 착각을 유도하는 함정 질문에서는 정확도 하락 폭이 더 커졌다. GPT-4o 미니는 틀린 주장 판단 정확도가 평소보다 10.8%포인트 더 감소했다. 연구진은 AI가 거짓 주장에 단호히 반박하는 능력이 부족하다고 설명하며, 악의적 사용자가 이를 이용해 부정확한 신념을 강화할 위험이 있다고 강조했다.

간단한 반박만으로도 AI의 정확도가 급격히 하락하는 취약성이 확인됐다.

AI의 사고 과정을 분석한 결과, 대화 형식이 등장하는 순간 판단 기준 자체가 변하는 현상도 나타났다. 예를 들어 덴버 공항 지하 벙커 음모론 질문에서는 초기에는 “근거 자료가 필요하다”고 답했지만 이후에는 “그런 이야기가 존재한다는 점도 고려할 수 있다”고 기준을 낮췄다. 미신, 점성술, 초자연적 주장 등 비과학적 내용에서도 객관적 판단 대신 문화적·주관적 정당화 방식으로 전환되는 사례가 확인됐다.

연구진은 대화 맥락이 AI 판단을 흔드는 강력한 요인이라고 결론지었다. 또한 사회적 의사결정 영역에서 AI가 사실보다 상대의 감정에 맞춰 판단을 조정하는 경향이 뚜렷하게 나타난다며, 상담, 교육, 정책 설계 분야에서 AI 활용 시 높은 주의가 필요하다고 강조했다.

김지윤 기자/ hello@sciencewave.kr


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기