메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

ViSMaP: 메타 프롬프트 기반 비지도 한 시간짜리 비디오 요약

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

 

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"유튜브나 스포츠 경기, 긴 강의 영상처럼 한 시간 넘는 비디오를 자동으로 요약해서 핵심만 뽑아주는 AI가 있다면 얼마나 편리할까?"
 

 

ViSMaP는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 비디오 요약/이해 모델들이 대부분 짧은 영상(몇 분 이내)에서의 이벤트 탐지와 요약에 초점을 맞춘 것과는 달리, ViSMaP는 비지도 방식으로 한 시간짜리 긴 영상을 요약하는 것을 지향합니다.

 

 

이 논문이 흥미로운 이유는 단순히 "긴 영상을 요약한다"는 수준을 넘어서, 메타 프롬프트(meta-prompting)를 활용한 LLM 기반 비지도 요약 안에서 사용자의 라벨 없는 데이터로도 고품질 요약을 생성할 수 있도록 설계되었다는 점입니다. 예를 들어, 짧은 영상에서 얻은 세그먼트 설명만으로 한 시간짜리 영상을 요약하는데, 사람이 직접 라벨링하지 않아도 LLM이 스스로 요약을 만들어내는 것이죠. 이제 진짜로 'AI가 긴 영상을 스스로 이해하고 요약하는 시대'가 나타난 거죠.

 

✅ 어떻게 작동하나요? – ViSMaP의 핵심 아이디어

 

ViSMaP가 도입한 가장 눈에 띄는 개념은 바로 "메타 프롬프트(meta-prompting)"입니다. 이는 여러 LLM(대형 언어모델)을 단계적으로 활용해, 짧은 비디오 세그먼트 설명(예: 10초~1분짜리 클립의 캡션)만을 가지고 한 시간짜리 영상의 요약문(=pseudo-summary, 가짜 요약문)을 반복적으로 생성·평가·개선하는 방식입니다.
 

 

이러한 메타 프롬프트 기반 반복적 요약 생성은 실제로 세 개의 LLM이 순차적으로 협업하는 구조로 구현되며, 이를 통해 라벨 없는 긴 영상도 고품질 요약문을 자동 생성하는 게 ViSMaP의 강점입니다.

 

 

이 모델은 총 3단계의 메타 프롬프트 반복 과정을 거쳐 만들어졌습니다:

  • 1. 요약 생성(Generator) – 짧은 세그먼트 설명들을 입력받아 LLM이 한 시간짜리 영상의 요약문을 생성합니다.
  • 2. 요약 평가(Evaluator) – 또 다른 LLM이 생성된 요약문의 품질을 평가합니다.
  • 3. 프롬프트 최적화(Optimizer) – 세 번째 LLM이 요약 생성에 사용된 프롬프트를 개선·최적화합니다.

이 과정을 여러 번 반복하면서, 점점 더 나은 pseudo-summary를 만들어냅니다.

 

✅ 주요 기술적 특징과 혁신점

 

ViSMaP의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

 

1. 메타 프롬프트 기반 반복적 요약 생성
이는 LLM 세 개를 활용해 생성-평가-최적화 루프를 돌리는 방식입니다. 기존의 단일 LLM 프롬프트 방식과 달리, 프롬프트 자체를 LLM이 동적으로 개선하면서 요약 품질을 점진적으로 높입니다. 특히, 각 영상별로 최적화된 프롬프트를 자동으로 찾아내는 구조라, 다양한 도메인/영상 유형에도 강인하게 적용됩니다.

 

2. 라벨 없는 긴 영상에 대한 비지도 요약
핵심은 사람이 직접 요약문을 달지 않아도, 짧은 세그먼트 설명만 있으면 LLM이 pseudo-summary를 만들어내고, 이를 학습 데이터로 활용한다는 점입니다. 기존에는 긴 영상 요약을 위해 비싼 인적 라벨링이 필수였지만, ViSMaP는 이 과정을 완전히 자동화합니다. 실제로 Ego4D, YouCook2 등 다양한 도메인에서 효과를 입증했습니다.

 

3. 도메인 일반화와 확장성
마지막으로 주목할 만한 점은, ViSMaP가 특정 데이터셋(예: 1인칭 영상, 요리 영상 등)에 한정되지 않고, 다양한 도메인(3인칭, 스포츠, 다큐 등)으로도 쉽게 확장된다는 점입니다. 이는 메타 프롬프트 구조 덕분에, 새로운 도메인에서도 추가 라벨링 없이 빠르게 적용할 수 있음을 의미합니다.

 

✅ 실험 결과와 성능 분석

 

ViSMaP의 성능은 다음과 같은 실험을 통해 검증되었습니다.

 

1. 요약 품질(ROUGE, METEOR 등) 평가
Ego4D-HCap, YouCook2 등 다양한 데이터셋에서 진행된 평가에서, ViSMaP는 ROUGE-L, METEOR 등 주요 요약 품질 지표에서 기존 지도학습 SOTA 모델과 유사하거나 그에 근접한 성능을 보였습니다. 특히, 라벨 없는 환경에서도 이 정도 품질을 달성한 점이 인상적입니다.

 

2. 도메인 일반화 성능
다른 도메인(예: 요리 영상 → 스포츠 영상)으로 전이할 때도, 기존 지도학습 기반 모델 대비 성능 저하가 적었습니다. 이는 ViSMaP의 메타 프롬프트 구조가 도메인 적응에 강하다는 것을 보여줍니다.

 

3. 실제 서비스 적용 가능성 평가
실제 긴 영상(예: 한 시간짜리 유튜브 영상)에서 테스트한 결과, 사람이 직접 만든 요약과 비교해도 충분히 실용적인 수준의 요약문을 생성했습니다. 물론, 일부 세부 정보 누락이나 문맥 오류 등 한계도 확인되었지만, 실무 적용 가능성이 높음을 보여줍니다.

 

이러한 실험 결과들은 ViSMaP가 라벨 없는 긴 영상 요약이라는 난제를 효과적으로 해결할 수 있음을 보여줍니다. 특히 비용 절감, 도메인 확장성 측면에서 향후 다양한 응용 분야에 중요한 시사점을 제공합니다.

 

✅ 성능은 어떨까요?

 

ViSMaP는 Ego4D-HCapYouCook2라는 첨단 벤치마크에서 각각 ROUGE-L 37.2, METEOR 18.5이라는 점수를 기록했습니다. 이는 지도학습 기반 SOTA 모델 수준의 성능입니다.

실제로 유튜브 긴 영상 요약, 특히 핵심 이벤트 추출이나 스토리라인 요약에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "세부 정보의 정확성" 영역에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

 

✅ 어디에 쓸 수 있을까요?

 

ViSMaP는 단지 새로운 모델이 아니라, "라벨 없는 데이터로도 고품질 요약을 자동 생성"이라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 도메인 일반화, 예를 들면 회의 녹화 영상 요약, 스포츠 경기 하이라이트 자동 생성까지 인식하게 될 가능성이 큽니다.

  • 교육/강의 영상 요약: 한 시간짜리 강의나 세미나 영상을 자동으로 요약해 학습 효율을 높일 수 있습니다.
  • 스포츠/이벤트 하이라이트 생성: 긴 스포츠 경기에서 주요 장면만 추출해 하이라이트 영상을 자동 생성할 수 있습니다.
  • 유튜브/방송 VOD 요약: 크리에이터나 미디어 기업이 긴 방송 영상을 빠르게 요약해 시청자에게 제공할 수 있습니다.

이러한 미래가 ViSMaP로 인해 조금 더 가까워졌습니다.

 

✅ 개발자가 지금 할 수 있는 일은?

 

ViSMaP에 입문하려면, 기본적인 Python 기반 딥러닝LLM 프롬프트 엔지니어링에 대한 이해가 필요합니다.
아쉽게도 아직 공식 코드가 공개되지 않았지만, 논문 내 알고리즘 구조와 프롬프트 예시가 잘 정리되어 있어, LLM(OpenAI API 등)과 기존 비디오 세그먼트 캡션 모델을 조합해 직접 실험해볼 수 있습니다.

실무에 적용하고 싶다면?
긴 영상의 세그먼트 캡션(짧은 클립 설명) 데이터를 확보하고, 다양한 도메인(강의, 스포츠, 방송 등)을 테스트하면서 모델을 반복적으로 프롬프트 튜닝하는 것이 핵심입니다. 또한, 실제 서비스 적용 전에는 요약 품질 검증 및 사용자 피드백 수집도 병행되어야 합니다.

 

✅ 마치며

 

ViSMaP는 단순한 기술적 진보를 넘어, 라벨 없는 데이터로도 AI가 긴 영상을 요약하는 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 미디어, 교육, 엔터테인먼트, 생산성 등 다양한 산업의 미래를 재정의할 잠재력을 가지고 있습니다.

 

우리는 지금 AI 기반 비디오 이해의 중요한 변곡점에 서 있으며, ViSMaP는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

 

▶ 논문 원문 보러가기

댓글

댓글 입력