SKT, 자체 LLM 기반 멀티모달·문서 해석 기술 오픈소스로 공개

Photo of author

By 사이언스웨이브

SK텔레콤이 자체 개발한 초거대언어모델(LLM) ‘에이닷 엑스(A.X)’를 기반으로 한 시각-언어모델(VLM)과 범용 문서 해석 인코더 기술을 오픈소스로 공개했다. 두 모델은 산업 및 연구 분야에서 자유롭게 활용 가능하다.

SKT는 29일, 글로벌 오픈소스 플랫폼 ‘허깅페이스(Hugging Face)’를 통해 ▲A.X 인코더(Encoder) ▲A.X 4.0 비전 랭귀지 라이트(VL Light) 등 2종을 새롭게 공개했다. 앞서 7월에는 A.X 4.0(표준형·경량형), A.X 3.1(표준형·경량형) 모델을 순차 발표한 바 있으며, 이번에 추가된 모델까지 포함하면 총 6종의 독자 LLM 라인업을 완성하게 됐다.

SKT는 이번 기술 공개를 통해 LLM의 산업 활용 범위를 확대하는 동시에, 향후 A.X 4.0 기반 추론형 모델 등 다양한 후속 기술도 순차적으로 선보일 계획이다.

긴 문서도 고속 처리…고성능 자연어 인코더

‘A.X 인코더’는 긴 문서를 빠르고 효율적으로 처리할 수 있는 고성능 자연어 인코딩 모델로, 대규모 LLM 학습에 최적화됐다. 총 1억 4900만 개의 파라미터로 구성되며, 한국어 자연어 이해 벤치마크에서 평균 85.47점을 기록해 기존 공개 모델(RoBERTa-base, 80.19점)을 상회했다.

이 인코더는 최대 1만 6384개의 토큰까지 처리할 수 있어, 기존 512토큰 기반 모델보다 최대 3배 빠른 추론과 2배 높은 학습 속도를 구현한다. 기존 모델이 문장이나 문단 단위의 문맥만을 처리했다면, A.X 인코더는 그보다 훨씬 긴 범위의 문서를 문맥 단위로 처리할 수 있다.

이러한 고속·대규모 문서 해석 능력은 LLM 학습 외에도 기업 문서 분석, 정보 추출, 요약 등 다양한 AI 기반 문서 응용에 활용 가능하다.

에이닷 엑스 4.0의 대규모 학습을 진행한 SK텔레콤 자체 구축 슈퍼컴퓨터 ‘타이탄’. SK텔레콤 제공

A.X 4.0 VL Light, 한국어 특화 경량 비전-언어모델

함께 공개된 ‘A.X 4.0 VL Light’는 70억 개 매개변수를 기반으로 한 경량형 멀티모달 모델이다. 대규모 한국어 기반 이미지·텍스트 데이터를 학습했으며, 표와 그래프 해석, 도면 이해 등 산업 응용에 최적화돼 있다.

이 모델은 한국어 시각 벤치마크에서 평균 79.4점을 기록했으며, 더 큰 규모의 글로벌 모델 Qwen2.5-VL32B(73.4점)보다도 높은 성능을 보였다. 텍스트 벤치마크에서도 평균 60.2점을 기록하며 국내 경량 모델 중 최고 수준을 나타냈다.

한국어 문화 및 맥락 이해 평가를 위한 K-Viscuit 벤치마크에서는 80.2점, 복잡한 문서 및 차트·표를 해석하는 KoBizDoc 벤치마크에서는 89.8점을 달성했다. 이는 각각 Qwen2.5-VL32B 대비 높은 수준(72.3점, 88.8점)이다.

또한 동일한 한국어 데이터를 입력할 경우 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용해, 처리 비용 절감에도 기여할 수 있다는 설명이다.

SK텔레콤 김태윤 파운데이션 모델 담당은 “소버린 AI의 핵심은 독자 기술력 확보에 있다”며 “모델 고도화와 컨소시엄 협력을 통해 글로벌 수준의 AI 경쟁력을 강화해 나갈 것”이라고 말했다.

김지윤 기자/ hello@sciencewave.kr


Science Wave에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.

댓글 남기기

Science Wave에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기