대면 대화 시 인간의 주의력 중 거의 절반은 상대방의 입술 움직임에 집중된다. 하지만 그간 로봇들은 정교한 구동 한계로 인해 대화 시 어색한 표정을 지으며, 이른바 ‘불쾌한 골짜기(Uncanny Valley)’라 불리는 기괴한 느낌을 주곤 했다. 최근 컬럼비아 공대 연구팀은 이러한 한계를 극복하고 유튜브 시청과 관찰 학습을 통해 인간처럼 자연스러운 입모양을 구현하는 로봇 기술을 공개했다.
유튜브 시청과 거울 관찰로 독학한 ‘말하기와 노래’
컬럼비아 공대 호드 립슨(Hod Lipson) 교수팀은 말하기와 노래 부르기 등 복잡한 안면 동작을 스스로 학습할 수 있는 최초의 로봇을 개발했다고 발표했다. 국제 학술지 ‘사이언스 로보틱스(Science Robotics)’에 게재된 이번 연구에서 로봇은 다양한 언어의 발음을 정확히 구사하는 것은 물론, AI가 제작한 데뷔 앨범의 곡을 성공적으로 가창해 보였다.
이번 연구의 핵심은 사전에 입력된 규칙이 아닌 ‘관찰을 통한 학습’에 있다.
- 거울 관찰 학습: 로봇은 거울 앞에 서서 26개의 얼굴 모터를 무작위로 구동하며, 자신의 얼굴 근육이 특정 신호에 어떻게 반응하고 움직이는지 스스로 파악했다. 연구팀은 이를 ‘시각-행동 언어 모델(VLA)’로 정의했다.
- 데이터 모방: 자가 학습을 마친 로봇은 수 시간 동안 인간이 대화하고 노래하는 유튜브 영상을 시청했다. 이를 통해 인공지능은 특정 소리가 나는 맥락에서 인간의 입술이 어떤 궤적을 그리며 움직이는지 정밀하게 분석하고 이를 자신의 모터 동작과 동기화했다.
단순 립싱크 너머 ‘감정적 교감’의 가능성 제시
현실적인 로봇의 입술 움직임을 구현하는 것은 매우 까다로운 과제다. 수많은 미세 모터가 장착된 유연한 하드웨어가 필요할 뿐만 아니라, 발성 음과 음소 순서에 따른 복잡한 역학 패턴을 계산해야 하기 때문이다. 연구팀은 유연한 특수 피부를 갖춘 얼굴을 개발하고 인공지능이 오디오 신호를 직접 모터 동작으로 변환하게 함으로써 이 난제를 풀어냈다.
박사 학위 연구를 주도한 유항 후(Yuhang Hu)는 “이러한 립싱크 기술이 챗GPT나 제미나이(Gemini) 같은 대화형 AI와 결합될 때 로봇은 인간과 전혀 새로운 깊이의 유대감을 형성할 것”이라고 전망했다. 로봇이 인간의 대화를 더 많이 관찰할수록, 우리가 본능적으로 공감할 수 있는 미묘한 얼굴 제스처를 더욱 정교하게 모방할 수 있다는 설명이다.
휴머노이드 로봇의 ‘마지막 퍼즐’… 생동감 있는 얼굴
호드 립슨 교수는 얼굴 표정 구현이 로봇공학의 ‘누락된 연결고리’라고 강조한다. 그간의 휴머노이드 연구가 주로 걷기나 물건 잡기 등 신체적 기능에 집중해 왔다면, 앞으로 엔터테인먼트, 교육, 의료, 노인 돌봄 등 인간과 밀접하게 상호작용하는 분야에서는 따뜻하고 생생한 얼굴이 기술의 완성도를 결정짓는 핵심 요소가 될 것이라는 분석이다.
일부 경제학자들은 향후 10년 내 10억 대 이상의 휴머노이드 로봇이 생산될 것으로 보고 있다. 립슨 교수는 “로봇이 인간의 미소를 보고 저절로 따라 웃게 될 때 마법 같은 소통이 일어난다”며, “강력한 기술인 만큼 위험 요소를 최소화하며 신중하게 발전시켜 나가야 한다”고 덧붙였다.
성치훈 기자/ hello@sciencewave.kr
출처: Tech Xplore (Robot learns lip-syncing by watching YouTube)
Science Wave에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

