메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

Skywork R1V2: 멀티모달 하이브리드 강화학습 기반 추론 AI

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

 

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"이미지와 텍스트가 섞인 복잡한 문제를, 마치 사람처럼 단계별로 추론하며 풀 수 있는 AI가 있다면 얼마나 좋을까?"
 

 

Skywork R1V2는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 멀티모달 AI 모델들이 대부분 빠른 응답과 표면적 인식에 초점을 맞춘 것과는 달리, Skywork R1V2는 깊이 있는 추론력과 다양한 상황에 대한 일반화 능력의 균형을 지향합니다.

 

 

이 논문이 흥미로운 이유는 단순히 "성능이 더 좋아졌다" 수준을 넘어서, 하이브리드 강화학습 안에서 사용자의 복잡한 멀티모달 추론 요구에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 수학 문제를 그림과 함께 단계별로 풀어내거나, 코드와 이미지를 동시에 해석하는 등 기존 모델이 어려워하던 영역에서 혁신을 보여줍니다. 이제 진짜로 'AI가 생각하는 방식의 진화'가 나타난 거죠.

 

✅ 어떻게 작동하나요? – Skywork R1V2의 핵심 아이디어

 

Skywork R1V2가 도입한 가장 눈에 띄는 개념은 바로 "하이브리드 강화학습(Hybrid Reinforcement Learning)"입니다. 이는 Mixed Preference Optimization(MPO)Group Relative Policy Optimization(GRPO)라는 두 가지 강화학습 방식을 결합하여, 보상 신호와 규칙 기반 전략을 동시에 활용하는 방식입니다.
 

 

이러한 하이브리드 강화학습 구조는 실제로 보상 모델과 규칙 기반 비교, 그리고 고품질 샘플 우선 학습으로 구현되며, 이를 추론력과 일반화 능력의 균형을 맞추는 데 최적화한 게 Skywork R1V2의 강점입니다.

 

 

이 모델은 총 4단계의 학습 과정을 거쳐 만들어졌습니다:

  • 1. 데이터 수집 및 전처리 – 시각, 텍스트, 수학, 과학 등 다양한 멀티모달 데이터를 수집하고 정제합니다.
  • 2. MPO(선호도 기반 강화학습) – 응답 쌍 간의 상대적 선호, 개별 응답의 절대 품질, 선호 응답 생성 과정을 학습합니다.
  • 3. GRPO(그룹 상대 정책 최적화) – 동일 쿼리 그룹 내 후보 응답들을 비교하여 상대적 이점을 계산하고, 다양한 추론 경로를 탐색합니다.
  • 4. Selective Sample Buffer(선택적 샘플 버퍼) – 비슷한 답변이 반복되는 문제(이점 소실)를 막기 위해, 우수 샘플을 캐싱하고 반복적으로 학습에 활용합니다.

 

✅ 주요 기술적 특징과 혁신점

 

Skywork R1V2의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

 

1. 하이브리드 강화학습(MPO + GRPO)
이는 선호도 기반 보상(MPO)그룹 내 상대 비교(GRPO)를 결합한 방식입니다. 기존의 단일 강화학습 방식과 달리, 두 방법의 장점을 융합해 추론력과 일반화 능력을 동시에 끌어올렸습니다. 특히, Skywork-VL Reward라는 자체 보상 모델을 통해 멀티모달 이해와 추론을 정밀하게 평가합니다.

 

2. Selective Sample Buffer(SSB)
이 특징의 핵심은 고품질 샘플 우선 학습에 있습니다. 학습이 진행될수록 답변이 비슷해져 이점 신호가 사라지는 문제(이점 소실)를, SSB가 우수 샘플을 캐싱해 반복적으로 활용함으로써 해결합니다. 이를 통해 훈련 안정성깊은 추론 경로 탐색이 가능해졌습니다.

 

3. 시각적 환각(Visual Hallucination) 제어
마지막으로 주목할 만한 점은 보상 신호 과다로 인한 시각적 환각을 체계적으로 모니터링하고, 보상 임계값 조정을 통해 이를 완화하는 메커니즘입니다. 이는 특히 복잡한 이미지-텍스트 혼합 문제에서 정확성과 신뢰성을 크게 높여줍니다.

 

✅ 실험 결과와 성능 분석

 

Skywork R1V2의 성능은 다음과 같은 실험을 통해 검증되었습니다.

 

1. OlympiadBench(수학/과학 올림피아드 벤치마크) 성능
복잡한 수학 및 과학 문제를 다루는 OlympiadBench에서 62.6%라는 높은 정확도를 달성했습니다. 이는 기존 오픈소스 모델 대비 10% 이상 향상된 결과로, 고난도 추론 문제에서의 강점을 보여줍니다.

 

2. AIME2024(미국 수학 경시대회) 성능
AIME2024 벤치마크에서는 78.9%의 정확도를 기록했습니다. 기존 모델들이 60~70%대에 머무른 것과 비교해, 복잡한 수학적 추론에서 한 단계 도약한 성능을 보였습니다.

 

3. 실제 코드/멀티모달 시나리오 평가
LiveCodeBench(코드와 멀티모달 추론)에서 63.6%, MMMU(멀티모달 종합 벤치마크)에서 73.6%를 기록했습니다. 실제 이미지-텍스트-코드 혼합 문제에서 실용적 장점이 확인되었으며, 다만 일부 일반 인식 태스크에서는 여전히 미세한 한계도 드러났습니다.

 

이러한 실험 결과들은 Skywork R1V2가 복잡한 멀티모달 추론일반적 인식을 효과적으로 모두 해결할 수 있음을 보여줍니다. 특히 오픈소스 모델과 상용 모델의 격차를 크게 줄였다는 점에서 의미가 큽니다.

 

✅ 성능은 어떨까요?

 

Skywork R1V2는 OlympiadBenchAIME2024라는 첨단 벤치마크에서 각각 62.6, 78.9이라는 점수를 기록했습니다. 이는 Gemini 2.5, OpenAI-o4-mini와 같은 상용 최고 모델에 근접한 성능입니다.

실제로 복잡한 수학/과학 문제, 이미지-텍스트 혼합 추론, 코드 해석 등 다양한 실제 사용 시나리오에서 꽤 자연스러운 반응을 보입니다.
물론 아직 "일반 시각 인식" 영역에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

 

✅ 어디에 쓸 수 있을까요?

 

Skywork R1V2는 단지 새로운 모델이 아니라, "추론 중심 멀티모달 AI의 오픈소스화"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 복합적 멀티모달 추론, 예를 들면 수학 문제 풀이, 코드와 이미지 동시 해석까지 인식하게 될 가능성이 큽니다.

  • 교육/학습 튜터: 복잡한 수학, 과학, 프로그래밍 문제를 단계별로 설명해주는 AI 튜터로 활용 가능
  • 코드/이미지 혼합 분석: 코드와 이미지가 함께 주어지는 문제(예: 알고리즘 시각화, 코드 리뷰)에 적용
  • 과학적 데이터 해석: 실험 데이터, 그래프, 수식 등 다양한 정보를 통합적으로 해석하는 연구 지원 도구

이러한 미래가 Skywork R1V2로 인해 조금 더 가까워졌습니다.

 

✅ 개발자가 지금 할 수 있는 일은?

 

Skywork R1V2에 입문하려면, 기본적인 파이썬 기반 딥러닝(특히 PyTorch)멀티모달 데이터 처리에 대한 이해가 필요합니다.
다행히도 Hugging Face 모델 페이지에 예제 코드와 모델 가중치가 잘 정리되어 있어, 직접 모델을 다운로드해 실험해볼 수 있습니다.

실무에 적용하고 싶다면?
이미지-텍스트 혼합 데이터셋 등 적합한 데이터를 확보하고, 다양한 테스트 태스크를 통해 모델을 파인튜닝 및 평가하는 것이 핵심입니다. 또한, 보상 모델 커스터마이징이나 추론 과정 모니터링도 병행되어야 합니다.

 

✅ 마치며

 

Skywork R1V2는 단순한 기술적 진보를 넘어, 추론 중심 멀티모달 AI의 대중화라는 중요한 이정표입니다. 이 기술이 제시하는 가능성은 교육, 연구, 산업 전반의 AI 활용 방식을 재정의할 잠재력을 가지고 있습니다.

 

우리는 지금 AI 추론력의 대중화라는 중요한 변곡점에 서 있으며, Skywork R1V2는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

 

▶ 논문 원문 보러가기

 

✅ 같이 보면 좋은 참고 자료들

 

Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought
- 논문 설명: 우리는 Skywork R1V를 소개합니다. 이는 R1 시리즈 대형 언어 모델(LLM)을 효율적인 다중 모달 전이 방법을 통해 시각적 모달리티로 확장하는 다중 모달 추론 모델입니다.
- 저자: Yi Peng, Chris, Xiaokun Wang, Yichen Wei, Jiangbo Pei, Weijie Qiu, Ai Jian, Yunzhuo Hao, Jiachun Pan, Tianyidan Xie, Li Ge, Rongxian Zhuang, Xuchen Song, Yang Liu, Yahui Zhou
- 발행일: 2025-04-08
- PDF: 링크

Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
- 논문 설명: 이 보고서에서는 LLM(대형 언어 모델)의 보상 모델링을 향상시키기 위한 방법 모음을 소개하며, 특히 데이터 중심 기술에 중점을 둡니다.
- 저자: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou
- 발행일: 2024-10-24
- PDF: 링크

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On
- 논문 설명: 이 논문에서는 대형 언어 모델(LLMs)의 수학적 추론 능력을 향상시킬 수 있는 기본 요인들을 조사합니다.
- 저자: Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou
- 발행일: 2024-07-11
- PDF: 링크

 

댓글

댓글 입력