KAIST, AI에 ‘가정교사’ 붙였다…적은 데이터로 인간 선호 학습

Photo of author

By 사이언스웨이브

교사 모델이 핵심 판단 기준 전달해 데이터 효율·학습 안정성 동시에 개선

한국과학기술원(KAIST) 연구진이 인공지능(AI)에 사람의 선호를 효율적으로 가르칠 수 있는 새로운 학습 방법을 제시했다. 적은 데이터 환경에서도 AI가 인간의 판단 기준을 안정적으로 학습할 수 있도록, 이른바 ‘가정교사’를 붙이는 방식의 강화학습 프레임워크를 개발했다.

KAIST는 김준모 전기및전자공학부 교수 연구팀이 인간 선호를 효과적으로 반영하면서 데이터 효율성과 학습 안정성을 크게 높인 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.

기존의 선호 기반 AI 학습은 “A가 B보다 낫다”와 같은 쌍대 비교 데이터를 대량으로 수집해 학습하는 구조였다. 이 방식은 많은 데이터가 필요하고, 판단 기준이 모호한 상황에서는 AI가 일관된 결정을 내리지 못하는 한계가 있었다.

연구팀은 사람의 선호를 먼저 충분히 학습한 ‘교사 모델’이 핵심 정보만을 정제해 ‘학생 모델’에 전달하는 방식을 제안했다. 복잡한 내용을 정리해 전달하는 가정교사 역할에 착안해, 연구팀은 이를 ‘선호 증류’라고 명명했다.

이 프레임워크의 핵심은 교사 모델이 각 상황의 상대적 우수성을 수치로 평가하는 ‘가치 함수’를 학습하고, 이를 학생 모델에 전달하도록 설계한 점이다. 이를 통해 학생 모델은 단순한 선택 비교를 넘어, 왜 특정 선택이 더 나은지에 대한 종합적인 판단 기준을 학습할 수 있다.

KAIST 연구진이 제안한 TVKD 학습 개념도. 먼저 인간의 선택과 선호 데이터를 교사 모델에 학습시킨 뒤, 교사 모델이 판단의 핵심 기준을 정리해 학생 모델에 전달한다. 학생 모델은 단순 비교가 아닌 ‘왜 더 나은 선택인지’를 이해하며 학습해, 적은 데이터에서도 사람의 선호를 안정적으로 반영할 수 있다. [자료=KAIST]

또한 문맥 전체를 고려한 가치 판단을 반영함으로써 단편적인 응답이 아닌, 전체 흐름을 이해하는 학습이 가능하도록 했다. 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법도 함께 도입해, 명확한 데이터는 강하게 반영하고 모호하거나 잡음이 포함된 데이터는 영향력을 줄였다. 이로 인해 현실적인 환경에서도 AI가 보다 안정적으로 학습할 수 있다는 설명이다.

연구팀이 해당 기술을 여러 AI 모델에 적용해 실험한 결과, 기존 최고 성능으로 평가받던 방법들보다 정확성과 안정성에서 모두 우수한 성능을 보였다. 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서도 기존 기술을 앞섰다.

김준모 교수는 “현실에서는 인간 선호 데이터가 충분하거나 완벽하지 않은 경우가 대부분”이라며 “이번 기술은 이런 제약 속에서도 AI가 일관된 기준으로 학습할 수 있게 해 다양한 분야에서 활용 가능성이 크다”고 말했다.

이번 연구에는 권민찬 KAIST 전기및전자공학부 박사과정이 제1저자로 참여했으며, 연구 성과는 신경정보처리시스템학회(NeurIPS) 2025에 채택돼 지난 3일 포스터 세션에서 발표됐다.

김지윤 기자/ hello@sciencewave.kr


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기