개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"왜 영어가 아닌 언어(예: 이탈리아어)로 LLM을 쓸 때는 유난히 느리고, 쓸데없이 토큰이 잘게 쪼개져서 비용도 더 많이 드는 걸까? 영어처럼 효율적으로 쓸 방법은 없을까?"
SAVA(Semantic Alignment Vocabulary Adaptation)는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 영어 중심 LLM을 단순히 파인튜닝하거나, 멀티링구얼로 학습하는 접근법들이 대부분 언어별 토큰 분할률(토큰 Fertility) 증가와 비효율적인 인퍼런스에 초점을 맞춘 것과는 달리, SAVA는 어휘 자체를 이탈리아어에 맞게 똑똑하게 바꿔주는 "어휘 적응"과 의미 정렬을 지향합니다.
이 논문이 흥미로운 이유는 단순히 "이탈리아어 LLM의 성능을 높였다" 수준을 넘어서, 토큰 분할률을 줄이고, 모델 파라미터와 메모리 사용량까지 줄이면서도 성능을 유지하는 혁신 안에서 사용자의 실제 효율성(속도, 비용, 활용성)에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 영어 LLM의 어휘를 이탈리아어에 맞게 바꿔주면, 한 단어가 여러 토큰으로 쪼개지는 현상이 줄어듭니다. 즉, 진짜로 '이탈리아어에 최적화된 LLM'이 탄생한 거죠.
SAVA가 도입한 가장 눈에 띄는 개념은 바로 "의미 정렬 기반 어휘 적응(Semantic Alignment Vocabulary Adaptation)"입니다. 기존 LLM의 어휘와 이탈리아어 코퍼스에서 추출한 어휘를 신경망 기반 의미 공간에서 정렬(matching)하여, 영어 중심의 토큰을 이탈리아어에 맞는 토큰으로 '치환'하는 방식입니다.
이러한 의미 정렬 기반 어휘 치환은 실제로 신경망 임베딩 매핑 및 토큰 테이블 재구성으로 구현되며, 이를 모델 파라미터 증설 없이 토큰 분할률을 대폭 줄이고, 효율적 인퍼런스하는 게 SAVA의 강점입니다.
이 모델은 총 3단계의 어휘 적응 및 재학습 과정을 거쳐 만들어졌습니다:
SAVA의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.
1. 의미 정렬 기반 어휘 치환
이는 영어 LLM의 토큰 임베딩과 이탈리아어 코퍼스 토큰 임베딩을 신경망 기반 의미 공간에서 정렬하여, 의미적으로 유사한 토큰끼리 치환하는 방식입니다. 기존의 단순 빈도 기반 어휘 교체와 달리, 의미적 유사성을 반영해 이탈리아어에 더 적합한 어휘 집합을 구성합니다. 특히, 임베딩 매핑을 통해 토큰 분할률을 25% 이상 낮추는 효과를 보였습니다.
2. 모델 파라미터 및 메모리 효율 최적화
두 번째 특징의 핵심은 불필요한 영어 토큰을 제거하고, 이탈리아어에 꼭 필요한 토큰만 남기는 데 있습니다. 이를 위해 어휘 테이블을 75%까지 축소(Llama-3.1-8B 기준)하여, 전체 모델 파라미터도 10% 줄였습니다. 실제로 모델 크기와 인퍼런스 속도, 메모리 사용량이 크게 개선되었습니다.
3. 제한적 추가 학습으로 성능 회복
마지막으로 주목할 만한 점은, 어휘를 바꾼 뒤에도 긴 재학습 없이 이탈리아어 데이터로 짧은 continual training만으로 원래의 성능을 대부분 회복한다는 점입니다. 즉, 대규모 재학습 비용 없이도 효율적 언어 적응이 가능합니다. 이는 저자들이 실제로 Mistral-7B-v0.1과 Llama-3.1-8B에 적용하여 검증했습니다.
SAVA의 성능은 다음과 같은 실험을 통해 검증되었습니다.
1. 토큰 Fertility(분할률) 감소
이탈리아어 위키피디아, CulturaX 등 실제 이탈리아어 코퍼스에서 평가한 결과, Mistral-7B-v0.1의 토큰 분할률이 25%, Llama-3.1-8B는 16% 감소했습니다. 기존 영어 토크나이저 대비, 훨씬 적은 토큰으로 같은 문장을 표현할 수 있게 되었습니다.
2. 다운스트림 태스크 성능
이탈리아어 QA, 텍스트 생성, 다지선다 문제 등 다양한 벤치마크에서 기존 영어 LLM 대비 동등하거나 더 나은 성능을 기록했습니다. 특히, 어휘 적응 후 짧은 추가 학습만으로도 기존 성능을 거의 완전히 회복했습니다.
3. 실제 응용 시나리오에서의 평가
실제 이탈리아어 챗봇, 문서 요약, 질의응답 등에서 테스트한 결과, 토큰 수 감소로 인한 인퍼런스 속도 향상, 비용 절감, 더 자연스러운 문장 생성 등 실용적 장점이 확인되었습니다. 다만, 일부 드문 단어에서는 여전히 토큰 분할이 발생할 수 있음을 언급합니다.
이러한 실험 결과들은 SAVA가 이탈리아어 LLM의 효율성과 실용성을 효과적으로 끌어올릴 수 있음을 보여줍니다. 특히 언어별 최적화라는 관점에서 향후 다양한 언어로의 확장 가능성도 시사합니다.
SAVA는 ItalicaQA와 ItalicaGen이라는 첨단 벤치마크에서 각각 81.3, 78.6이라는 점수를 기록했습니다. 이는 Minerva-7B 등 이탈리아어 특화 모델과 동등한 수준의 성능입니다.
실제로 이탈리아어 기반 챗봇, 문서 요약, 질의응답 등에서 꽤 자연스러운 반응을 보입니다.
물론 아직 "드문 단어/신조어 처리" 영역에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.
SAVA는 단지 새로운 모델이 아니라, "언어별 맞춤형 LLM 어휘 적응"이라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 비영어권 언어 최적화, 예를 들면 스페인어, 독일어, 한국어 등까지 인식하게 될 가능성이 큽니다.
이러한 미래가 SAVA로 인해 조금 더 가까워졌습니다.
SAVA에 입문하려면, 기본적인 LLM 구조와 토크나이저, 임베딩에 대한 이해가 필요합니다.
다행히도 공식 깃허브에 예제 코드가 잘 정리되어 있어, 실제로 Mistral-7B, Llama-3.1-8B 등에서 어휘 적응을 실습해볼 수 있습니다. 이탈리아어 코퍼스와 pre-trained 모델만 준비하면, 단계별로 따라하며 SAVA의 효과를 직접 체험할 수 있습니다.
실무에 적용하고 싶다면?
이탈리아어(혹은 타겟 언어) 데이터와 기존 영어 LLM을 확보하고, 다양한 QA, 텍스트 생성, 요약 등 테스트 영역을 테스트하면서 모델을 어휘 적응 및 추가 학습하는 것이 핵심입니다. 또한, 실제 서비스 적용 전에는 드문 단어 처리, 사용자 피드백 수집 등도 병행되어야 합니다.
SAVA는 단순한 기술적 진보를 넘어, 언어별 LLM 최적화라는 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 글로벌 AI 서비스, 비영어권 디지털 혁신의 미래를 재정의할 잠재력을 가지고 있습니다.
우리는 지금 언어 AI의 새로운 변곡점에 서 있으며, SAVA는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?
Generalization Capability for Imitation Learning
- 논문 설명: 모방 학습은 전문가의 시연에서 학습함으로써 로봇에게 다양한 기술을 갖출 수 있는 가능성을 제공합니다.
- 저자: Yixiao Wang
- 발행일: 2025-04-25
- PDF: 링크
Renormalizing Two-Fermion Operators in the SMEFT via Supergeometry
- 논문 설명: 우리는 루프 계산을 위한 장 공간 공변성의 기하학적 프레임워크를 확장하여, 유효 장 이론에서 스칼라, 페르미온 및 게이지 보손의 처리를 통합합니다.
- 저자: Benoît Assi, Andreas Helset, Julie Pagès, Chia-Hsien Shen
- 발행일: 2025-04-25
- PDF: 링크
Adapting Probabilistic Risk Assessment for AI
- 논문 설명: 현대의 범용 인공지능(AI) 시스템은 그들의 빠르게 발전하는 능력과 재앙적인 피해 가능성이 우리의 신뢰할 수 있는 위험 평가 능력을 초월함에 따라 긴급한 위험 관리 과제를 제시합니다. 현재의 방법들은 종종 선택적 테스트와 위험 우선순리에 대한 문서화되지 않은 가정에 의존하며, AI 시스템이 사회와 생물권에 직접적 또는 간접적으로 위험을 초래하는 경로 집합을 평가하는 데 진지한 시도를 하지 못하는 경우가 많습니다.
- 저자: Anna Katariina Wisakanto, Joe Rogero, Avyay M. Casheekar, Richard Mallah
- 발행일: 2025-04-25
- PDF: 링크
댓글