AI, 영상 속 ‘결정적 순간’ 먼저 찾는다···KAIST, ICCV 2025 영상 질의응답 대회 1위

Photo of author

By 사이언스웨이브

‘카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇인가요?’와 같은 질문이 주어지면, 기존 AI는 실제 영상을 근거로 판단하기보다 언어 패턴에 기반해 그럴듯한 답을 추측하는 경우가 많다. 영상 속 핵심 장면을 정확히 찾아내지 못하는 한계 때문이다.

국내 연구진이 이러한 문제를 해결하기 위해, 영상 속에서 정답 판단에 결정적인 순간을 AI가 스스로 찾아내도록 만드는 기술을 개발했다.

참여 연구원들. 왼쪽부터 KAIST 전산학부의 서진환·조윤기 박사과정, 윤성의 교수. 좌측 상단 사진은 노준혁 이화여대 인공지능학과 조교수. [사진= KAIST ]

KAIST 전산학부 윤성의 교수 연구팀은 이화여대 노준혁 교수 연구팀과 공동으로 진행한 연구를 통해, 컴퓨터 비전 분야 국제 학회 ICCV 2025에서 열린 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 기록했다고 28일 밝혔다. 이번 대회는 구글 딥마인드가 주최했고, 총상금은 5만 유로(약 8300만 원)다.

대회는 영상·음성·텍스트 등 다양한 데이터를 종합적으로 이해하는 멀티모달 AI의 인지 및 추론 능력을 평가한다. 핵심은 언어 중심 추론에서 벗어나 실제 영상 근거를 기반으로 정답을 도출하는 능력이다.

KAIST 연구팀은 영상 전체를 한꺼번에 분석하는 기존 방식 대신, 문제 해결에 필요한 ‘결정적 순간(trigger moment)’을 먼저 찾아내는 방식을 도입했다. AI가 스스로 특정 장면을 짚어낸 뒤, 그 근거를 중심으로 추론을 이어가도록 설계한 것이다. 이 접근 방식은 영상 초반의 오판이나 피사체 가림과 같은 문제를 크게 줄였다.

경쟁에는 총 23개 팀이 참여했으며, KAIST 연구팀은 정확도 0.4968점을 기록해 2위 미국 콜럼비아대(0.4304점)를 큰 차이로 앞섰다. 이 기록은 전년도 우승 점수 0.2704점을 크게 상회한다.

연구팀은 해당 기술이 실제 응용 분야에서도 활용 가능성이 높다고 설명한다. 자율주행차에서 위험 순간 인지, 산업·가정용 로봇의 상황 이해, 보안·감시 시스템의 중요 장면 탐지, 방송·미디어 분석의 정밀 추적 등 다양한 영역에서 적용될 수 있다.

김지윤 기자/ hello@sciencewave.kr


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기