SK텔레콤이 자체 개발한 초거대언어모델(LLM) ‘에이닷 엑스(A.X)’를 기반으로 한 시각-언어모델(VLM)과 범용 문서 해석 인코더 기술을 오픈소스로 공개했다. 두 모델은 산업 및 연구 분야에서 자유롭게 활용 가능하다.
SKT는 29일, 글로벌 오픈소스 플랫폼 ‘허깅페이스(Hugging Face)’를 통해 ▲A.X 인코더(Encoder) ▲A.X 4.0 비전 랭귀지 라이트(VL Light) 등 2종을 새롭게 공개했다. 앞서 7월에는 A.X 4.0(표준형·경량형), A.X 3.1(표준형·경량형) 모델을 순차 발표한 바 있으며, 이번에 추가된 모델까지 포함하면 총 6종의 독자 LLM 라인업을 완성하게 됐다.
SKT는 이번 기술 공개를 통해 LLM의 산업 활용 범위를 확대하는 동시에, 향후 A.X 4.0 기반 추론형 모델 등 다양한 후속 기술도 순차적으로 선보일 계획이다.
긴 문서도 고속 처리…고성능 자연어 인코더
‘A.X 인코더’는 긴 문서를 빠르고 효율적으로 처리할 수 있는 고성능 자연어 인코딩 모델로, 대규모 LLM 학습에 최적화됐다. 총 1억 4900만 개의 파라미터로 구성되며, 한국어 자연어 이해 벤치마크에서 평균 85.47점을 기록해 기존 공개 모델(RoBERTa-base, 80.19점)을 상회했다.
이 인코더는 최대 1만 6384개의 토큰까지 처리할 수 있어, 기존 512토큰 기반 모델보다 최대 3배 빠른 추론과 2배 높은 학습 속도를 구현한다. 기존 모델이 문장이나 문단 단위의 문맥만을 처리했다면, A.X 인코더는 그보다 훨씬 긴 범위의 문서를 문맥 단위로 처리할 수 있다.
이러한 고속·대규모 문서 해석 능력은 LLM 학습 외에도 기업 문서 분석, 정보 추출, 요약 등 다양한 AI 기반 문서 응용에 활용 가능하다.
A.X 4.0 VL Light, 한국어 특화 경량 비전-언어모델
함께 공개된 ‘A.X 4.0 VL Light’는 70억 개 매개변수를 기반으로 한 경량형 멀티모달 모델이다. 대규모 한국어 기반 이미지·텍스트 데이터를 학습했으며, 표와 그래프 해석, 도면 이해 등 산업 응용에 최적화돼 있다.
이 모델은 한국어 시각 벤치마크에서 평균 79.4점을 기록했으며, 더 큰 규모의 글로벌 모델 Qwen2.5-VL32B(73.4점)보다도 높은 성능을 보였다. 텍스트 벤치마크에서도 평균 60.2점을 기록하며 국내 경량 모델 중 최고 수준을 나타냈다.
한국어 문화 및 맥락 이해 평가를 위한 K-Viscuit 벤치마크에서는 80.2점, 복잡한 문서 및 차트·표를 해석하는 KoBizDoc 벤치마크에서는 89.8점을 달성했다. 이는 각각 Qwen2.5-VL32B 대비 높은 수준(72.3점, 88.8점)이다.
또한 동일한 한국어 데이터를 입력할 경우 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용해, 처리 비용 절감에도 기여할 수 있다는 설명이다.
SK텔레콤 김태윤 파운데이션 모델 담당은 “소버린 AI의 핵심은 독자 기술력 확보에 있다”며 “모델 고도화와 컨소시엄 협력을 통해 글로벌 수준의 AI 경쟁력을 강화해 나갈 것”이라고 말했다.
김지윤 기자/ hello@sciencewave.kr
Science Wave에서 더 알아보기
구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.
