"series:LLM 최적화 및 경량화 가이드" 키워드로 분류된 글 모음.
LLM의 폭발적 성장에 따른 막대한 운영 비용과 느린 추론 속도는 서비스 도입의 가장 큰 걸림돌입니다. 본 포스트는 모델 경량화의 필요성을 정의하고, 양자화(Quantization), 가지치기(Pruning), 지식 증류(Distillation) 등 핵심 최적화 전략 3가지를 개발자 관점에서 명쾌하게 정리합니다.