메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

모달리티 장벽을 넘어서: 멀티모달 LLM을 활용한 범용 임베딩 학습

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

 

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"이미지와 텍스트, 심지어 오디오나 비디오까지, 다양한 데이터 타입을 한 번에 이해하고 연결할 수 있는 임베딩을 만들 수 없을까?"
"CLIP이나 기존 멀티모달 모델로는 뭔가 한계가 있는데, 더 범용적이고 강력한 임베딩은 없을까?"
 

 

UniME(Universal Multimodal Embedding)는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 CLIP 기반 멀티모달 임베딩들이 대부분 텍스트 토큰 길이 제한, 이미지-텍스트 분리 인코딩, 조합적 이해 부족에 초점을 맞춘 것과는 달리, UniME는 멀티모달 LLM의 잠재력을 최대한 활용해 범용적이고 구별력 있는 임베딩을 만드는 것을 지향합니다.

 

 

이 논문이 흥미로운 이유는 단순히 "멀티모달 임베딩의 성능 향상" 수준을 넘어서, 텍스트 기반 지식 증류와 하드 네거티브(어려운 음수 샘플) 기반 튜닝 안에서 사용자의 복잡한 질의나 조합적 요청에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, "강아지가 파란 모자를 쓰고 있는 사진을 찾아줘"처럼 복합적인 정보를 요구하는 상황에서, 기존 모델보다 훨씬 더 정확하고 유연하게 대응할 수 있습니다. 이제 진짜로 '모달리티 장벽이 무너지는 순간'이 온 거죠.

 

✅ 어떻게 작동하나요? – UniME의 핵심 아이디어

 

UniME가 도입한 가장 눈에 띄는 개념은 바로 "이중 단계 학습(two-stage learning)"입니다. 첫 번째 단계에서는 강력한 LLM(예: GPT-4, Qwen2 등)에서 멀티모달 LLM의 언어 부분으로 텍스트 기반 구별 지식 증류를 수행합니다. 두 번째 단계에서는 하드 네거티브 샘플을 활용한 인스트럭션 튜닝으로 임베딩의 구별력을 극대화합니다.
 

 

이러한 이중 단계 학습은 실제로 지식 증류와 하드 네거티브 인스트럭션 튜닝으로 구현되며, 이를 통해 복잡한 멀티모달 질의에도 강인한 임베딩을 만드는 게 UniME의 강점입니다.

 

 

이 모델은 총 2단계의 학습 과정을 거쳐 만들어졌습니다:

  • 1. 텍스트 구별 지식 증류 – 강력한 LLM 기반 교사 모델로부터 멀티모달 LLM의 언어 임베딩을 정교하게 만듭니다. 이 과정에서 텍스트 표현의 구별력을 강화합니다.
  • 2. 하드 네거티브 기반 인스트럭션 튜닝 – 배치 내에서 어려운(헷갈릴 만한) 음수 샘플을 적극적으로 샘플링하고, 이를 통해 모델이 더 어려운 구별 작업에 집중하도록 만듭니다. 이 과정에서 모델의 임베딩이 실제 응용에서 더욱 강력해집니다.

 

✅ 주요 기술적 특징과 혁신점

 

UniME의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

 

1. 텍스트 구별 지식 증류(Textual Discriminative Knowledge Distillation)
이는 강력한 LLM(예: GPT-4 등)에서 멀티모달 LLM의 언어 임베딩으로 구별 정보를 전이시키는 방식입니다. 기존의 CLIP이나 멀티모달 LLM들은 언어 임베딩의 구별력이 약한데, UniME는 이 증류 과정을 통해 임베딩의 품질을 대폭 향상시켰습니다. 특히, LLM이 가진 풍부한 언어적 맥락과 의미를 멀티모달 임베딩에 녹여낼 수 있습니다.

 

2. 하드 네거티브 기반 인스트럭션 튜닝(Hard Negative Enhanced Instruction Tuning)
이 특징의 핵심은, 일반적인 네거티브 샘플이 아닌 "어려운" 네거티브(예: 실제로 헷갈릴 만한 이미지-텍스트 쌍)를 적극적으로 샘플링하고, 이를 통해 모델이 더욱 정밀하게 구별하도록 학습시키는 데 있습니다. 이 과정에서 false negative(실제로는 양성인데 음수로 잘못 분류되는 샘플)를 줄이기 위한 사전 필터링도 적용됩니다. 실제로 다양한 retrieval task에서 이 방식이 큰 효과를 보였습니다.

 

3. 범용적이고 조합적인 임베딩(Universal & Compositional Embedding)
마지막으로 주목할 만한 점은, UniME가 단순히 이미지-텍스트 매칭만 잘하는 것이 아니라, 복잡한 조합적 질의(예: "노란 우산을 쓴 고양이"처럼 여러 속성이 결합된 요청)에도 강하다는 점입니다. 이는 실제로 다양한 길이의 캡션, 복합 질의, instruction-following task 등에서 뛰어난 성능을 보였습니다.

 

✅ 실험 결과와 성능 분석

 

UniME의 성능은 다음과 같은 실험을 통해 검증되었습니다.

 

1. MMEB 벤치마크에서의 성능
MMEB(Multimodal Embedding Benchmark)에서 UniME는 기존 CLIP 및 최신 멀티모달 LLM 기반 임베딩 모델 대비 평균 3~5%p 이상의 성능 향상을 기록했습니다. 특히, 조합적 질의(compositional retrieval)와 instruction-following task에서 두드러진 결과를 보였습니다.

 

2. 이미지-텍스트 검색 및 캡션 길이 다양성 평가
짧은 캡션, 긴 캡션, 복합 캡션 등 다양한 retrieval 환경에서 UniME는 기존 모델 대비 일관된 성능 우위를 보였습니다. 예를 들어, 긴 설명이 필요한 질의에서도 텍스트 토큰 제한 없이 자연스럽게 대응할 수 있었습니다.

 

3. 실제 응용 시나리오(예: RAG, VQA 등)에서의 평가
실제 Retrieval Augmented Generation(RAG), Visual Question Answering(VQA) 등 실제 서비스 환경에서 테스트한 결과, UniME 임베딩을 활용하면 더 정확한 검색, 더 자연스러운 질의 응답, 더 복잡한 instruction-following이 가능함이 확인되었습니다. 다만, 극한의 도메인 특화 데이터에서는 추가 튜닝이 필요할 수 있습니다.

 

이러한 실험 결과들은 UniME가 멀티모달 임베딩의 구별력, 조합성, 범용성이라는 주요 과제를 효과적으로 해결할 수 있음을 보여줍니다. 특히, 향후 멀티모달 검색, 생성, 질의응답 등 다양한 분야에서 중요한 시사점을 제공합니다.

 

✅ 성능은 어떨까요?

 

UniME는 MMEB다양한 이미지-텍스트 검색 벤치마크에서 각각 최대 83.4, 최대 81.2라는 점수를 기록했습니다. 이는 CLIP, E5-V, LLaVA-OneVision 등 최신 모델과 동등하거나 그 이상의 성능입니다.

실제로 이미지-텍스트 검색, 복합 질의 응답, instruction-following 등 다양한 실제 사용 시나리오에서 꽤 자연스러운 반응을 보입니다.
물론 아직 "특정 도메인 특화 질의" 영역에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

 

✅ 어디에 쓸 수 있을까요?

 

UniME는 단지 새로운 모델이 아니라, "멀티모달 LLM을 활용한 범용 임베딩 학습의 미래"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 모달리티 확장, 예를 들면 오디오-텍스트-이미지 통합 임베딩, 비디오-텍스트 검색까지 인식하게 될 가능성이 큽니다.

  • 이미지-텍스트 검색: 전통적인 이미지 검색 서비스, 쇼핑몰 상품 검색, 미디어 라이브러리 관리 등에서 복잡한 질의에도 정확한 결과 제공
  • Retrieval Augmented Generation(RAG): 멀티모달 정보를 기반으로 한 생성형 AI 서비스(예: 이미지+텍스트 기반 챗봇, 멀티모달 문서 요약 등)
  • Visual Question Answering(VQA): 사진이나 그림을 기반으로 한 질의응답, 교육용 AI, 접근성 서비스 등에서 활용

이러한 미래가 UniME로 인해 조금 더 가까워졌습니다.

 

✅ 개발자가 지금 할 수 있는 일은?

 

UniME에 입문하려면, 기본적인 멀티모달 LLM 구조지식 증류/컨트라스티브 러닝에 대한 이해가 필요합니다.
다행히도 공식 GitHub에 예제 코드가 잘 정리되어 있어, 실제 데이터셋으로 학습/튜닝을 직접 해보며 구조와 튜닝 방법을 익힐 수 있습니다.

실무에 적용하고 싶다면?
자신의 도메인에 맞는 이미지-텍스트 페어 데이터를 확보하고, 다양한 검색/질의응답/생성 영역을 테스트하면서 모델을 파인튜닝하는 것이 핵심입니다. 또한, 실제 서비스 환경에 맞는 하드 네거티브 샘플링 전략추가적인 도메인 적응도 병행되어야 합니다.

 

✅ 마치며

 

UniME는 단순한 기술적 진보를 넘어, 멀티모달 임베딩의 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 AI 서비스, 검색, 생성, 질의응답 등 산업 전반의 미래를 재정의할 잠재력을 가지고 있습니다.

 

우리는 지금 멀티모달 AI 임베딩 기술 발전의 중요한 변곡점에 서 있으며, UniME는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

 

▶ 논문 원문 보러가기

 

✅ 같이 보면 좋은 참고 자료들

 

LiDPM: Rethinking Point Diffusion for Lidar Scene Completion
- 논문 설명: 야외 장면의 규모에서 라이다 포인트에 직접 작동하는 확산 모델을 훈련하는 것은 넓은 시야에서 백색 잡음으로부터 세밀한 세부 사항을 생성하는 어려움 때문에 도전적입니다.
- 저자: Tetiana Martyniuk, Gilles Puy, Alexandre Boulch, Renaud Marlet, Raoul de Charette
- 발행일: 2025-04-24
- PDF: 링크

Quantum Error Correction with Girth-16 Non-Binary LDPC Codes via Affine Permutation Construction
- 논문 설명: 우리는 기브스가 16인 비이진 저밀도 패리티 검사 코드를 기반으로 한 양자 오류 수정 코드 구축 방법을 제안합니다.
- 저자: Kenta Kasai
- 발행일: 2025-04-24
- PDF: 링크

Dynamic Camera Poses and Where to Find Them
- 논문 설명: 대규모로 동적 인터넷 비디오에서 카메라 포즈를 주석 처리하는 것은 현실적인 비디오 생성 및 시뮬레이션과 같은 분야를 발전시키는 데 매우 중요합니다.
- 저자: Chris Rockwell, Joseph Tung, Tsung-Yi Lin, Ming-Yu Liu, David F. Fouhey, Chen-Hsuan Lin
- 발행일: 2025-04-24
- PDF: 링크

 

댓글

댓글 입력