BitNet v2: 1비트 LLM을 위한 네이티브 4비트 활성화와 하다마드 변환

channel_editor_icon 허깅 페이스

4일 전

BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"이렇게 거대한 LLM을 정말 극한까지 압축해서, 저렴한 하드웨어에서도 빠르고 효율적으로 돌릴 수는 없을까?"

BitNet v2는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 초저비트(1~2비트) 양자화 LLM들이 대부분 가중치(Weights)만 저비트로 줄이고, 활성화(Activations)는 8비트로 유지하는 데 초점을 맞춘 것과는 달리, BitNet v2는 활성화까지 네이티브 4비트로 줄이면서도 성능 저하를 최소화하는 것을 지향합니다.

이 논문이 흥미로운 이유는 단순히 "더 적은 비트로 더 큰 모델을 돌린다" 수준을 넘어서, 하다마드(Hadamard) 변환을 활용한 새로운 양자화 기법 안에서 사용자의 실제 하드웨어 효율과 메모리 절감에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 기존 LLM의 활성화 값 분포는 극단값(outlier)이 많아 저비트 양자화에 취약했는데, 하다마드 변환을 통해 분포를 매끄럽게 만들어 4비트로도 충분히 표현할 수 있게 했습니다. 이제 진짜로 '초저비트 LLM의 실용화 시대'가 눈앞에 다가온 거죠.

✅ 어떻게 작동하나요? – BitNet v2의 핵심 아이디어

BitNet v2가 도입한 가장 눈에 띄는 개념은 바로 "ℋ-BitLinear (하다마드-비트리니어)"입니다. 이 모듈은 Attention과 Feed-Forward Network(FFN)에서 출력 프로젝션을 할 때, 활성화 분포에 하다마드 변환을 실시간(online)으로 적용한 뒤, 4비트로 양자화합니다.

이러한 ℋ-BitLinear는 실제로 Attention과 FFN의 중간 상태(Intermediate State)에서 하다마드 변환 → 4비트 양자화 → 선형 연산의 흐름으로 구현되며, 이를 통해 극단값(outlier) 문제를 완화하고, 4비트 활성화만으로도 성능 저하를 최소화하는 게 BitNet v2의 강점입니다.

이 모델은 총 4단계의 처리 과정을 거쳐 만들어졌습니다:

가중치 양자화 – 전체 모델의 가중치를 1.58비트(실제로는 {-1, 0, 1}의 3값)로 양자화하여 메모리와 연산량을 대폭 절감합니다.
활성화 분포 변환 – Attention과 FFN의 출력에 하다마드 변환을 적용해, 분포를 가우시안(정규분포) 형태로 매끄럽게 만듭니다.
4비트 활성화 양자화 – 하다마드 변환된 활성화를 4비트로 양자화하여, 최신 하드웨어의 4비트 연산을 최대한 활용합니다.
파인튜닝 – 8비트 활성화로 먼저 학습한 뒤, 소량의 데이터로 4비트 활성화에 맞게 추가 학습(fine-tuning)하여 성능 저하를 최소화합니다.

✅ 주요 기술적 특징과 혁신점

BitNet v2의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 하다마드 변환 기반 활성화 분포 정규화
이는 Attention/FFN의 중간 활성화 값에 하다마드 변환을 실시간으로 적용하여, 원래 극단값이 많던 분포를 정규분포에 가깝게 만드는 방식입니다. 기존의 단순 클리핑/스케일링과 달리, 선형 변환(하다마드)으로 분포 자체를 바꿔 저비트 양자화에 최적화된 상태를 만듭니다. 특히, 하드웨어 친화적(비트 연산만으로 구현 가능)이라는 점에서 효율성이 뛰어납니다.

2. 네이티브 4비트 활성화 지원
두 번째 특징의 핵심은 모델 전체를 4비트 활성화로 동작하게 만든 것입니다. 이를 위해 ℋ-BitLinear를 도입하고, 입력/출력 임베딩을 제외한 모든 선형 계층에서 4비트 활성화를 사용합니다. 이로써 최신 GPU/AI 칩의 4비트 연산 유닛을 100% 활용할 수 있고, 메모리 대역폭과 연산 효율이 극적으로 향상됩니다.

3. 1.58비트 가중치와의 결합
마지막으로 주목할 만한 점은 가중치는 1.58비트(3값), 활성화는 4비트라는 초저비트 조합입니다. 실제로 BitNet v2는 8비트 활성화로 먼저 학습한 뒤, 4비트 활성화로 파인튜닝하는 과정을 거쳐 성능 저하를 최소화했습니다. 이는 특히 배치 추론(Batched Inference) 환경에서 메모리와 연산량을 획기적으로 줄여줍니다.

✅ 실험 결과와 성능 분석

BitNet v2의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. 언어 이해 벤치마크(예: MMLU) 성능
표준 벤치마크(MMLU 등)에서 평가한 결과, BitNet v2 (4비트 활성화)는 BitNet b1.58 (8비트 활성화)와 거의 동등한 성능(예: 67.4 vs 67.5점)을 기록했습니다. 이는 기존 8비트 활성화 모델과 비교해도 성능 저하가 미미함을 보여줍니다.

2. 추론 효율성(Throughput, Memory)
4비트 활성화와 1.58비트 가중치의 조합으로, 메모리 사용량과 연산량이 2~4배 이상 감소했습니다. 특히 배치 추론 환경에서 동일 하드웨어에서 더 많은 동시 요청 처리가 가능해졌습니다.

3. 실제 응용 시나리오(서비스 배포 등)에서의 평가
실제 LLM API 서비스 환경에서 테스트한 결과, 응답 속도와 처리량이 크게 개선되었으며, 하드웨어 자원 소모도 현저히 줄었습니다. 다만, 극단적으로 복잡한 추론(예: 긴 맥락 유지)에서는 미세한 성능 저하가 관찰될 수 있습니다.

이러한 실험 결과들은 BitNet v2가 초저비트 LLM의 실용화라는 목표를 효과적으로 해결할 수 있음을 보여줍니다. 특히 실제 서비스 배포, 엣지 디바이스 활용 등에서 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

BitNet v2는 MMLU와 HellaSwag라는 첨단 벤치마크에서 각각 67.4, 81.2라는 점수를 기록했습니다. 이는 BitNet b1.58 수준의 성능입니다.

실제로 챗봇, 문서 요약, 코드 생성 등 다양한 실제 사용 시나리오에서, 특히 고속 배치 추론에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "극한의 추론 정밀도" 영역(예: 아주 복잡한 논리적 추론)에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

BitNet v2는 단지 새로운 모델이 아니라, "초저비트 LLM의 실용화와 하드웨어 효율 극대화"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 경량화된 LLM 서비스, 예를 들면 모바일/엣지 디바이스에서의 실시간 AI, 대규모 배치 추론까지 인식하게 될 가능성이 큽니다.

엣지 AI/모바일 LLM: 스마트폰, IoT 기기 등에서 대형 언어 모델을 실시간으로 구동할 때, 메모리와 연산량을 극한까지 줄여줍니다.
클라우드 대규모 배치 추론: 수많은 동시 요청을 처리하는 LLM API 서버에서, 동일 하드웨어로 더 많은 요청을 빠르게 처리할 수 있습니다.
저전력 AI 칩/FPGA 활용: 4비트 연산을 지원하는 최신 AI 칩, FPGA 등에서 LLM을 효율적으로 구동할 수 있습니다.

이러한 미래가 BitNet v2로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

BitNet v2에 입문하려면, 기본적인 PyTorch 기반 LLM 구현 경험과 양자화/저비트 연산 원리에 대한 이해가 필요합니다.
다행히도 논문 저자들의 공식 깃허브(https://aka.ms/GeneralAI)에 예제 코드가 잘 정리되어 있어, 실제 모델 구조와 ℋ-BitLinear 구현을 직접 확인하고 실습할 수 있습니다.

실무에 적용하고 싶다면?
양자화에 적합한 데이터셋을 확보하고, 다양한 실제 서비스 시나리오(챗봇, 문서 요약 등)를 테스트하면서 모델을 파인튜닝 및 벤치마킹하는 것이 핵심입니다. 또한, 4비트 연산 지원 하드웨어 환경 세팅도 병행되어야 합니다.

✅ 마치며

BitNet v2는 단순한 기술적 진보를 넘어, 초저비트 LLM의 실용화와 AI 하드웨어 효율 극대화라는 더 큰 의미를 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 AI 산업 및 기술 생태계의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 초저비트 AI 시대의 중요한 변곡점에 서 있으며, BitNet v2는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

TeLLMe: An Energy-Efficient Ternary LLM Accelerator for Prefilling and Decoding on Edge FPGAs
- 논문 설명: 대규모 언어 모델(LLM)을 엣지 플랫폼에 배포하는 것은 높은 계산 및 메모리 요구 사항으로 인해 어려움을 겪고 있습니다.
- 저자: Ye Qiao, Zhiheng Chen, Yifan Zhang, Yian Wang, Sitao Huang
- 발행일: 2025-04-22
- PDF: 링크

BitNet b1.58 2B4T Technical Report
- 논문 설명: 우리는 20억 개의 매개변수를 가진 최초의 오픈 소스, 네이티브 1비트 대형 언어 모델(LLM)인 BitNet b1.58 2B4T를 소개합니다.
- 저자: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei
- 발행일: 2025-04-16
- PDF: 링크

BitHEP -- The Limits of Low-Precision ML in HEP
- 논문 설명: 현대 신경망 아키텍처의 증가하는 복잡성은 계산 병목 현상을 완화하기 위해 빠르고 메모리 효율적인 구현을 요구합니다.
- 저자: Claudius Krause, Daohan Wang, Ramon Winterhalder
- 발행일: 2025-04-04
- PDF: 링크