AI는 중립적이지 않다? 연구 결과 확인된 미묘한 ‘자기 편 보호’ 편향성

Photo of author

By 사이언스웨이브

AI가 온라인 콘텐츠 검열에서 완전히 중립적이지 않을 수 있다는 연구 결과가 나왔다. 특히 같은 AI라도 ‘어떤 성향의 인물처럼 행동하느냐’에 따라 판단이 달라지며, 미묘한 정치적 편향이 생길 수 있다는 점이 확인됐다.

[사진=AI 생성 이미지]

AI 콘텐츠 검열, ‘성향 설정’에 따라 판단 달라진다

연구진은 대형 언어 모델이 혐오 표현을 판별하는 과정에서 얼마나 중립적인지 실험했다. 연구팀은 여러 AI 챗봇에게 다양한 정치 성향을 가진 ‘가상의 인물 역할’을 부여한 뒤, 수천 개의 혐오 텍스트와 밈을 검열하도록 했다.

그 결과, 전체적인 정확도는 크게 변하지 않았지만, 판단 기준 자체는 분명히 달라졌다. 예를 들어 어떤 성향의 인물 역할을 부여받은 AI는 특정 표현을 더 쉽게 ‘혐오’로 판단하거나, 반대로 덜 민감하게 반응하는 경향을 보였다.

전문가들은 이런 결과가 이미 알려진 사실을 다시 확인해 준다고 설명했다. AI는 역할이나 성격을 부여받으면, 그에 맞는 정치적 입장까지 함께 따라간다는 것이다. 문제는 이런 변화가 아주 미묘하게 일어나기 때문에, 겉으로는 중립적인 것처럼 보일 수 있다는 점이다.

[사진=AI 생성 이미지]

큰 AI일수록 ‘자기 편 보호’ 편향 강해진다

연구팀은 특히 규모가 큰 AI 모델에서 더 뚜렷한 패턴을 발견했다. 같은 정치 성향을 가진 인물들끼리는 판단 기준이 서로 비슷해지는 ‘집단적 일관성’이 나타난 것이다.

더 나아가, AI는 자신이 속한 성향의 집단을 더 강하게 보호하는 경향도 보였다. 예를 들어 진보 성향 역할을 맡은 AI는 진보를 공격하는 표현에 더 민감하게 반응했고, 보수 성향 역할을 맡은 AI는 보수를 공격하는 표현에 더 민감하게 반응했다.

이건 아주 중요한 부분이다. AI가 단순히 기준이 달라지는 것을 넘어서, ‘자기 편은 보호하고 상대 편에는 덜 엄격해지는’ 식의 판단까지 한다는 뜻이기 때문이다.

AI 편향성이 대한 이런 연구 결과는 중요한 메시지를 던진다. 사람들은 AI를 완전히 중립적인 존재라고 믿고 사용하지만, 실제로는 보이지 않는 편향이 결과에 영향을 줄 수 있다. 특히 콘텐츠 검열처럼 민감한 영역에서는 이런 편향이 특정 집단에 불리하게 작용할 가능성도 있다.

성치훈 기자/ hello@sciencewave.kr

출처: Tech Xplore, “AI bias in online content moderation”


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기