Introduction

Background and Previous Works

정규화 계층의 발전
- 지난 10년간 현대 신경망의 핵심 구성 요소로 자리매김
- 2015년 Batch Normalization (Ioffe & Szegedy) 도입
  - 시각 인식 모델의 학습 수렴 속도 향상
  - 성능 대폭 개선
- 현재 Transformer 구조에서는 Layer Normalization (LN) 주로 사용
정규화 계층의 중요성
- 빠르고 안정적인 학습을 위해 필수적
- 네트워크가 복잡해질수록 중요성 증가
- 새로운 아키텍처에서도 정규화 계층 유지하는 경향
새로운 접근: DyT(Dynamic Tanh)
- LN 계층의 S자형 출력 특성에 착안
- 수식: DyT(x) = tanh(αx)
  - α: 학습 가능한 스케일 파라미터
  - 입력 통계량 계산 불필요 (mean(x), var(x))
DyT 적용 및 결과
- 기존 정규화 계층을 간단히 대체
- 시각/언어 Transformer에서 안정적 학습 입증
- 기존 하이퍼파라미터 유지 가능

정규화 계층의 일반적인 구조와 대표적 방식:

특징
- 최초의 정규화 계층 (Ioffe & Szegedy, 2015)
- 주로 ConvNet 모델에서 사용
- 배치와 토큰 축 모두에서 평균/분산 계산
다른 ConvNet 정규화 방식
- Group Normalization (GN)
- Instance Normalization (IN)
- 기본 수식은 유사, 통계 계산 범위만 상이

LayerNorm
- 각 샘플/토큰별 독립적 평균/분산 계산
RMSNorm
- 평균 계산 생략
- 분산만 계산하여 정규화
사용 현황
- 대부분의 신경망: LN 사용 (단순성, 범용성)
- 최신 언어 모델(LLaMA, Mistral, Qwen, Deepseek 등): RMSNorm 채택