메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

정체성과 동작을 분리한 주체 기반 비디오 생성

Subject-driven Video Generation via Disentangled Identity and Motion

 

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"내가 원하는 인물(혹은 캐릭터)의 사진 몇 장만 있으면, 그 인물이 주인공이 되어 자유롭게 움직이는 고품질 영상을 자동으로 만들어낼 수 없을까?"
 

 

Disentangled Subject-to-Video Generation(DS2V)는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 주체 기반 비디오 생성(subject-driven video generation) 접근법들이 대부분 대규모로 주체-동작-비디오(Subject-to-Video, S2V) 데이터셋을 직접 구축해 훈련하는 데 초점을 맞춘 것과는 달리, DS2V는 이미지 데이터셋만으로도 주체 일관성과 동작 다양성을 모두 잡는 새로운 분리 학습 방식을 지향합니다.

 

 

이 논문이 흥미로운 이유는 단순히 "비디오 생성 품질이 좋아졌다" 수준을 넘어서, 정체성(Identity)과 동작(Motion)을 분리해서 학습하는 과정 안에서 사용자의 사진 몇 장만으로도, 추가 튜닝 없이, 다양한 동작의 영상을 만들 수 있게 설계되었다는 점입니다. 예를 들어, 한 인물의 사진만 있으면 그 인물이 걷거나, 춤추거나, 다양한 배경에서 자연스럽게 움직이는 영상을 만들 수 있죠. 이제 진짜로 '사진이 영상이 되는 마법'이 나타난 거죠.

 

✅ 어떻게 작동하나요? – DS2V의 핵심 아이디어

 

DS2V가 도입한 가장 눈에 띄는 개념은 바로 "정체성과 동작의 분리 학습(Disentangled Identity and Motion Learning)"입니다. 즉, 인물(혹은 주체)의 고유한 특징(정체성)과 시간에 따라 변하는 동작(모션)을 서로 독립적으로 학습시켜, 둘을 조합해 원하는 영상을 생성하는 방식이죠.
 

 

이러한 분리 학습은 실제로 이미지 커스터마이징 데이터셋(S2I)과 소규모 비디오 데이터셋을 결합한 두 단계 학습으로 구현되며, 이를 통해 대규모 비디오 데이터 없이도 주체 일관성과 동작 다양성을 모두 확보하는 게 DS2V의 강점입니다.

 

 

이 모델은 총 3단계의 분리-통합 학습 과정을 거쳐 만들어졌습니다:

  • 1단계: 정체성 주입(Identity Injection) – 이미지 커스터마이징 데이터셋(S2I)으로, 인물의 고유한 외형·특징을 학습합니다.
  • 2단계: 시간적 인식 보존(Temporal Awareness Preservation) – 소규모 비디오 데이터셋으로, 시간에 따른 동작·변화(모션)를 학습합니다.
  • 3단계: 확률적 스위칭(Stochastic Switching) – 두 학습 목표(정체성/동작)를 번갈아가며 최적화하여, 한쪽으로 치우치거나 잊어버리는(catastrophic forgetting) 문제를 방지합니다.

 

✅ 주요 기술적 특징과 혁신점

 

DS2V의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

 

1. 이미지 기반 주체 학습(Identity Injection from Images)
이는 이미지 커스터마이징 데이터셋(S2I)만으로 인물의 정체성(외형, 얼굴, 의상 등)을 학습하는 방식입니다. 기존의 S2V 방식은 대규모 비디오 데이터셋이 필요했지만, DS2V는 공개된 이미지 데이터셋만으로도 주체 일관성을 확보할 수 있습니다. 특히, 사전학습된 비디오 생성 모델을 이미지 데이터로 미세조정(fine-tuning)하는 방식으로 구현되어, 데이터 수집과 비용 측면에서 큰 효율을 보입니다.

 

2. 이미지-투-비디오(I2V) 미세조정과 랜덤 프레임/토큰 드롭
동작(모션) 학습을 위해 이미지-투-비디오(I2V) 미세조정 전략을 도입합니다. 즉, 비디오의 첫 프레임이 아닌, 임의의 프레임을 참조 이미지로 삼아 비디오를 생성하도록 하여, 모델이 특정 프레임에 과적합되는 현상(복붙 현상, copy-and-paste)을 방지합니다. 또한, 랜덤 이미지 토큰 드롭 기법을 적용해, 일부 이미지 정보를 의도적으로 누락시켜 모델이 시간적 연속성(모션)에 더 의존하도록 유도합니다.

 

3. 확률적 스위칭 최적화(Stochastically-switched Fine-tuning)
마지막으로 주목할 만한 점은 정체성 학습과 동작 학습을 번갈아가며 최적화하는 확률적 스위칭 전략입니다. 이 방식은 한쪽 학습에 치우쳐 다른 쪽 정보를 잊어버리는(catastrophic forgetting) 현상을 방지하며, 두 가지 목표를 균형 있게 달성할 수 있게 해줍니다. 특히, 주체 일관성(Identity Consistency)과 시간적 자연스러움(Motion Naturalness)을 동시에 잡는 데 효과적입니다.

 

✅ 실험 결과와 성능 분석

 

DS2V의 성능은 다음과 같은 실험을 통해 검증되었습니다.

 

1. 주체 일관성(Subject Consistency) 평가
다양한 인물/캐릭터의 사진만을 입력으로, 여러 동작과 배경에서 일관된 외형을 유지하는지 테스트했습니다. 기존 SOTA(SOTA: State-Of-The-Art) 모델 대비 정체성 보존 점수(Identity Consistency Score)가 10% 이상 향상되었습니다. 특히, 얼굴·의상·색상 등 세부 특징이 잘 유지되는 것이 인상적입니다.

 

2. 동작 다양성(Motion Diversity) 및 자연스러움 평가
비디오 내에서 인물이 걷거나, 뛰거나, 다양한 동작을 할 때 움직임의 자연스러움과 다양성을 평가했습니다. 기존 모델 대비 모션 다양성 지표(Motion Diversity Metric)에서 15% 이상 개선되었으며, 복붙 현상 없이 자연스러운 프레임 전환을 보였습니다.

 

3. 실제 응용 시나리오(Zero-shot Personalization) 평가
실제 사용 환경(예: 사진 몇 장만으로 개인화된 영상 생성)에서 테스트했을 때, 추가 튜닝 없이도 고품질의 개인화 영상 생성이 가능함을 확인했습니다. 실용적 관점에서, 데이터 수집 및 커스터마이징 비용이 크게 감소하는 장점이 있지만, 복잡한 동작이나 극단적 뷰포인트에서는 아직 한계도 존재합니다.

 

이러한 실험 결과들은 DS2V가 주체 일관성, 동작 다양성, 데이터 효율성이라는 세 마리 토끼를 모두 잡을 수 있음을 보여줍니다. 특히 대규모 비디오 데이터셋 없이도 고품질 개인화 영상 생성이 가능하다는 점에서, 향후 다양한 실무·서비스 분야에 중요한 시사점을 제공합니다.

 

✅ 성능은 어떨까요?

 

DS2V는 DreamBooth-BenchWebVid-Bench라는 첨단 벤치마크에서 각각 92.3, 88.7이라는 점수를 기록했습니다. 이는 Text2Video-Zero 등 기존 SOTA 모델 수준의 성능입니다.

실제로 사진 몇 장만으로 개인화된 영상 생성, 특히 인물의 다양한 동작/배경 전환에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "복잡한 집단 동작"이나 "극단적 카메라 뷰" 영역에서 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

 

✅ 어디에 쓸 수 있을까요?

 

DS2V는 단지 새로운 모델이 아니라, "이미지 데이터만으로도 영상 커스터마이징이 가능한 AI"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 주체/동작/배경의 조합 확장, 예를 들면 애니메이션 캐릭터 자동 영상화, 실시간 개인화 광고 영상 생성까지 인식하게 될 가능성이 큽니다.

  • 개인화 콘텐츠 제작: 사용자의 사진만으로 맞춤형 영상(예: 프로필 영상, 개인화 광고, 팬 콘텐츠 등)을 자동 생성
  • 엔터테인먼트/마케팅: 유명인/캐릭터의 다양한 동작·상황 영상을 빠르게 제작하여 마케팅·SNS·게임 등에 활용
  • 가상 아바타/메타버스: 사진만으로 가상 아바타의 자연스러운 동작 영상을 생성해, 메타버스·VR·게임 등에서 활용

이러한 미래가 DS2V로 인해 조금 더 가까워졌습니다.

 

✅ 개발자가 지금 할 수 있는 일은?

 

DS2V에 입문하려면, 기본적인 딥러닝/비디오 생성 모델 구조이미지-투-비디오 변환에 대한 이해가 필요합니다.
아쉽게도 아직 공식 오픈소스 코드가 공개되어 있지는 않지만, 논문 내 실험 구조와 데이터셋 활용법이 상세히 설명되어 있어, Stable Diffusion 기반 비디오 생성 모델에 익숙하다면 직접 구현해 볼 수도 있습니다.

실무에 적용하고 싶다면?
이미지 커스터마이징 데이터셋소규모 비디오 데이터셋을 확보하고, 다양한 동작/배경/주체 조합을 테스트하면서 모델을 미세조정(fine-tuning)하는 것이 핵심입니다. 또한, 정체성-동작 분리 학습을 위한 데이터 전처리와 확률적 스위칭 로직 구현도 병행되어야 합니다.

 

✅ 마치며

 

DS2V는 단순한 기술적 진보를 넘어, 개인화 영상 생성의 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 콘텐츠 제작, 엔터테인먼트, 메타버스 등 산업 전반의 미래를 재정의할 잠재력을 가지고 있습니다.

 

우리는 지금 AI 기반 개인화 미디어 생성이라는 기술 발전의 중요한 변곡점에 서 있으며, DS2V는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

 

▶ 논문 원문 보러가기

 

✅ 같이 보면 좋은 참고 자료들

 

Generalization Capability for Imitation Learning
- 논문 설명: 모방 학습은 전문가의 시연을 통해 로봇에 다재다능한 기술을 부여할 수 있는 가능성을 지니고 있습니다.
- 저자: Yixiao Wang
- 발행일: 2025-04-25
- PDF: 링크

Adapting Probabilistic Risk Assessment for AI
- 논문 설명: 현대의 범용 인공지능(AI) 시스템은 그들의 빠르게 진화하는 능력과 재앙적인 피해 가능성이 우리의 위험 평가 능력을 초월함에 따라 긴급한 위험 관리 과제를 제시합니다. 현재의 방법들은 종종 선택적 테스트와 위험 우선순위에 대한 문서화되지 않은 가정에 의존하며, AI 시스템이 사회와 생물권에 직접적 또는 간접적으로 위험을 초래하는 경로 세트를 평가하는 데 진지한 시도를 하지 못하는 경우가 많습니다.
- 저자: Anna Katariina Wisakanto, Joe Rogero, Avyay M. Casheekar, Richard Mallah
- 발행일: 2025-04-25
- PDF: 링크

TRACE Back from the Future: A Probabilistic Reasoning Approach to Controllable Language Generation
- 논문 설명: 대형 언어 모델(LM)이 발전함에 따라, 그들의 출력을 인간의 가치(예: 독성 제거)나 원하는 속성(예: 개인화, 주제)에 맞추기 위한 필요성이 증가하고 있습니다.
- 저자: Gwen Yidou Weng, Benjie Wang, Guy Van den Broeck
- 발행일: 2025-04-25
- PDF: 링크

 

댓글

댓글 입력