KAIST, 연합학습의 ‘지역 과적합’ 해결… 데이터 공유 없이 더 똑똑한 AI 구현

Photo of author

By 사이언스웨이브

합성 데이터로 프라이버시 보호와 일반화 성능 동시 달성

기관 간 데이터 공유의 제약을 해결하기 위해 개발된 연합학습(Federated Learning)이 또 한 단계 진화했다. KAIST 산업및시스템공학과 박찬영 교수 연구팀은 연합학습의 대표적 한계로 지적돼 온 성능 저하 문제를 해결하고, 인공지능(AI)의 일반화 성능을 크게 향상시키는 새로운 학습 기법을 개발했다고 15일 밝혔다.

연합학습은 의료기관이나 금융회사처럼 민감한 데이터를 보유한 기관들이 실제 데이터를 주고받지 않고도 하나의 AI를 공동 학습시키는 방식이다. 하지만 이렇게 학습된 AI를 각 기관이 자체 환경에 맞춰 재조정(파인튜닝)할 때, 특정 데이터 특성에만 과도하게 적응하는 ‘지역 과적합(Local Overfitting)’ 문제가 발생한다. 이 과정에서 AI가 본래의 폭넓은 판단 능력을 잃고, 새로운 데이터에는 취약해지는 현상이 나타난다.

연합학습(Federated Learning)의 기본 구조 개념도. 각 기관(병원·은행 등)은 데이터를 외부로 공유하지 않고 자체 AI 모델을 학습시킨 뒤, 학습된 모델의 매개변수만 중앙 서버(공동 AI 모델)에 전달해 통합 학습을 수행한다. 이렇게 만들어진 공동 모델은 다시 각 기관으로 배포돼 현장 환경에 맞게 최적화된다. [자료=KAIST]

연구팀은 이를 해결하기 위해 합성 데이터(Synthetic Data) 방식을 새롭게 적용했다. 각 기관의 데이터에서 대표적인 통계적 특징만 추출해 개인정보를 포함하지 않는 가상 데이터를 만들고, 이를 파인튜닝 과정에 활용한 것이다. 덕분에 각 기관의 AI는 데이터를 직접 공유하지 않으면서도 개별 환경에 맞는 전문성을 확보하고, 동시에 공동 학습에서 얻은 일반화 능력은 유지할 수 있었다.

(하단 왼쪽부터) KAIST 이윤호 박사과정, 김세인 석박통합과정,김성원 박사과정,이준석 박사과정,오윤학 박사과정, (상단 왼쪽부터) 이남경 박사과정, UNC 채플 힐 대학 윤석원 박사과정,이모리 대학 칼 양 교수, KAIST 박찬영 교수. [사진=KAIST]  

이 방식은 의료·금융 분야처럼 데이터 보안이 필수적인 영역에서 특히 유용하다. 연구 결과, 제안된 합성 데이터 기반 학습법은 새로운 병원이나 금융기관이 추가로 참여해도 성능 저하 없이 안정적으로 동작했다. 또한 소셜미디어나 전자상거래처럼 사용자와 상품이 끊임없이 변하는 환경에서도 일정한 성능을 유지했다.

박찬영 교수는 “데이터 프라이버시를 지키면서 AI의 범용성과 전문성을 동시에 높일 수 있다는 점이 이번 연구의 핵심”이라며 “의료 진단, 금융 사기 탐지 등 협업이 필수지만 보안이 중요한 분야에서 실질적인 돌파구가 될 것”이라고 말했다.

김지윤 기자/ hello@sciencewave.kr


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기