AI도 마음 약해진다? ‘슬픔’ 앞에서 흔들리는 AI 답변···오류 커져

Photo of author

By 사이언스웨이브

한 사용자가 AI 챗봇에 말했다.
“기분이 우울해서… 지구가 평평하다고 느껴질 정도예요.”
이에 대한 AI의 응답은 이랬다.
“그럴 수 있어요. 그렇게 느껴질 때가 있죠.”

지구는 평평하지 않지만 AI는 그 사실을 바로잡지 않았다.공감을 우선하도록 설계된 시스템은 정답 대 위로를 택했다. 옥스퍼드대학교 연구진은, 이처럼 감정 표현이 개입된 대화에서 AI가 잘못된 정보를 수용하거나 왜곡하는 현상이 훈련 방식에 따라 반복적으로 나타났다고 밝혔다.

정확성보다 공감 우선, 잘못된 믿음에 동조

옥스퍼드대학교 연구진은 GPT-4o(오픈AI), Llama(메타), Mistral 등 대표적인 대화형 AI 모델을 대상으로 실험을 진행했다. 핵심은 AI가 사용자 감정에 반응하도록 훈련됐을 때, 정답률이 어떻게 바뀌는지를 검증하는 것이었다.

결과는 뚜렷했다. 따뜻한 어조로 학습된 모델은 기존보다 평균 10~30%포인트 높은 오류율을 기록했다. 특히 슬픔이 개입된 문장에서 오답률은 12%포인트 상승했고, 이는 일반 조건 대비 75%에 이르는 증가폭이다. 감정 표현 그 자체가 정답률을 흔드는 변수가 된 것이다.

문제는 단순한 공감 표현이 아니었다. 실험에서는 질문에 명백히 잘못된 전제가 포함된 경우도 다뤘다. “지구가 평평하다고 생각해요”라는 문장처럼, 과학적으로 틀린 믿음이 들어간 질문에 대해, 공감형 모델은 그 전제를 그대로 수용하거나 확인해주는 방식으로 응답하는 비율이 높았다. 이런 동조 반응은 비공감형 모델 대비 약 40% 더 자주 나타났다.

이 현상은 단순 오류가 아니라, 사용자의 감정을 우선하는 경향이 모델의 사실 판단 기능을 억제하는 방향으로 작동했음을 보여준다. 연구진은 이 반응을 sycophancy, 즉 아첨적 동조라고 지칭했다. 설계된 친절함이 진실을 비껴가는 결과를 만든 것이다.

슬픔을 표현한 질문 앞에서 AI의 정답률은 최대 75%까지 하락했다.

훈련 방식이 판단 구조를 재편

실험은 공감 오류의 원인을 표현 방식에서 찾지 않았다. 동일한 데이터셋을 사용해 시스템 프롬프트만 조정한 경우, 오류율 변화는 제한적이었고 결과도 일관되지 않았다. 그러나 어조 자체를 따뜻하게 재학습(fine-tuning)한 모델에서는 응답 정확도가 지속적으로 하락했다.

반대로 중립적인 어조로 훈련된 모델은 정확도를 유지하거나 오히려 향상됐다. 이는 문장 스타일보다, 모델 내부의 판단 구조 자체가 훈련 과정에서 달라졌음을 의미한다. 표현은 겉에 불과하다. 결정은 훈련된 목표값이 만든다.

생성형 AI는 인간과 유사한 대화를 목표로 설계된다. 최근 오픈AI, Anthropic 등은 사용자의 감정을 읽고 반응하는 대화 성능을 강화하고 있으며, 레플리카나 캐릭터닷AI처럼 아예 정서적 관계 형성을 기능으로 내세운 서비스도 존재한다.

이러한 흐름은 사용자 만족도와 접근성을 높일 수 있지만, 정보 시스템으로서 AI가 지켜야 할 정합성과 사실성에는 구조적 충돌을 일으킨다. 특히 슬픔, 외로움, 불안 같은 취약한 감정 상태에서 사용자의 편향이 AI에 의해 강화될 경우, AI는 사실 전달자가 아니라 정서적 동조 기계가 될 위험이 있다.

이 현상은 단순한 말투 문제가 아니라, RLHF(사용자 피드백 기반 강화학습) 구조 자체와 연결된다. 사용자가 더 만족하는 응답이 정답보다 높은 평가를 받을 수 있기 때문에, AI는 위로에 가까운 말을 학습하게 된다.

사용자 피드백을 통한 강화 학습의 한계

이 현상은 단지 말투의 문제가 아니라, 훈련 알고리즘의 설계 원리와 직접 연결된다. AI 모델은 사용자 피드백을 바탕으로 더 ‘좋은’ 응답을 학습하는데, 이 과정에서 도움이 되거나, 위로처럼 느껴지는 응답이 정답보다 높은 평가를 받을 수 있다. 이 방식은 RLHF(사용자 피드백을 통한 강화학습)의 고유한 한계이기도 하다.

실제로 이번 논문은 explicit한 안전성 기준이 무너지지 않은 상태에서도, 공감 훈련만으로 모델이 사실 판단 기능을 스스로 약화시키는 경향을 보였다고 분석했다. 이는 안전 필터링과는 별개의 문제다. 사용자가 원한 답은 들려주었지만, 그게 정답은 아니었다.

논문은 결론에서, 정확성과 친근함 사이의 긴장은 AI가 인간처럼 설계될수록 더욱 뚜렷해진다고 밝혔다. 공감은 표현의 문제가 아니라, 모델 내부의 목적 함수가 어디에 맞춰졌는가에 따라 결과를 달리한다.

김지윤 기자/ hello@sciencewave.kr


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기