Introduction
Background and Previous Works
Background
정규화 계층의 발전
지난 10년간 현대 신경망의 핵심 구성 요소로 자리매김
2015년 Batch Normalization (Ioffe & Szegedy) 도입
시각 인식 모델의 학습 수렴 속도 향상
성능 대폭 개선
현재 Transformer 구조에서는
Layer Normalization (LN)
주로 사용
정규화 계층의 중요성
빠르고 안정적인 학습을 위해 필수적
네트워크가 복잡해질수록 중요성 증가
새로운 아키텍처에서도 정규화 계층 유지하는 경향
새로운 접근:
DyT(Dynamic Tanh)
LN 계층의 S자형 출력 특성에 착안
수식: DyT(x) = tanh(αx)
α: 학습 가능한 스케일 파라미터
입력 통계량 계산 불필요 (mean(x), var(x))
DyT 적용 및 결과
기존 정규화 계층을 간단히 대체
시각/언어 Transformer에서 안정적 학습 입증
기존 하이퍼파라미터 유지 가능
Previous Works
정규화 계층의 일반적인 구조와 대표적 방식:
기본 구조
입력 형태: (B,T,C) - B(배치 크기), T(토큰 수), C(토큰당 임베딩 차원)
정규화 공식:
ϵ: 수치 안정성을 위한 작은 상수
γ, β: 학습 가능한 스케일/시프트 파라미터
μ, σ2: 입력의 평균과 분산
Batch Normalization (BN)
특징
최초의 정규화 계층 (Ioffe & Szegedy, 2015)
주로
ConvNet
모델에서 사용
배치와 토큰 축 모두에서 평균/분산 계산
다른 ConvNet 정규화 방식
Group Normalization (GN)
Instance Normalization (IN)
기본 수식은 유사, 통계 계산 범위만 상이
Layer Normalization (LN)과 RMSNorm
LayerNorm
각 샘플/토큰별 독립적 평균/분산 계산
RMSNorm
평균 계산 생략
분산만 계산하여 정규화
사용 현황
대부분의 신경망:
LN
사용 (단순성, 범용성)
최신 언어 모델(
LLaMA
,
Mistral, Qwen, Deepseek
등):
RMSNorm
채택
+ LayerNorm이 잘 동작하는 이유