🚀 LLM 개발 필수 용어 사전: vLLM, RAG부터 Inference Endpoint까지 완벽 정리 가이드
"LLM을 사용해서 서비스를 만들고 싶은데... vLLM이 뭐죠? RAG는 어떻게 작동하는 건가요? Inference Endpoint는 왜 필요한 건가요?"
최근 AI 분야의 발전 속도는 마치 빛의 속도 같습니다. 챗GPT 같은 거대 언어 모델(LLM)을 접하면서 '와, 정말 대단하다!'라는 감탄사를 연발하게 되지만, 막상 개발 과정에 들어가면 'PagedAttention', 'Quantization', 'Inference Endpoint' 같은 생소한 용어의 홍수에 압도당하기 십상입니다.
마치 최신 IT 트렌드를 따라가다 보면, 마치 외계어처럼 느껴지는 기술 용어들이 쏟아져 나오는 느낌을 받으실 겁니다. 이 용어들을 단순히 '정의'만 외우는 것은 아무런 도움이 되지 않습니다. "이 용어가 실제 개발 과정에서 어떤 문제를 해결해주는가?" 라는 관점으로 접근해야 진짜 실력이 쌓입니다.
이 포스트는 LLM을 단순히 '사용'하는 단계를 넘어, '상용 서비스로 구축하고 최적화' 하는 과정에 초점을 맞춰, 현업 개발자들이 반드시 알아야 할 핵심 용어들을 선배가 옆에서 짚어주듯 친절하고 깊이 있게 정리했습니다.
💡 1. LLM 구동의 핵심: 추론 최적화 프레임워크 이해하기
LLM을 구동한다는 것은 단순히 API를 호출하는 것 이상의 의미를 가집니다. 수십억 개의 파라미터를 가진 거대한 모델을 제한된 GPU 자원에서, '빠르고', '비싸지 않게' 구동하는 것이 핵심 과제입니다. 이 최적화 과정에 필요한 것이 바로 전문 프레임워크들입니다.
🚀 vLLM: 속도와 효율성의 혁신가
vLLM은 LLM 추론(Inference) 속도를 획기적으로 개선하기 위해 등장한 오픈소스 프레임워크입니다. 단순히 모델을 돌리는 것을 넘어, 처리량(Throughput) 극대화에 초점을 맞춥니다.
- 핵심 원리: vLLM의 가장 큰 강점은 PagedAttention이라는 기술을 사용한다는 점입니다. 기존 방식은 토큰 생성 시 메모리 할당이 비효율적이었는데, PagedAttention은 운영체제의 가상 메모리처럼 메모리를 블록 단위로 관리하여, GPU 메모리 사용률을 극대화합니다.
- 장점: 동일한 GPU 자원에서 더 많은 사용자 요청을 동시에 처리할 수 있게 해줍니다. 즉, 처리량(Throughput)이 대폭 개선됩니다.
- 사용 시나리오: 실시간 채팅 봇, 대규모 사용자 트래픽이 예상되는 API 백엔드 구축 시 필수적입니다.
⚙️ TensorRT-LLM: 하드웨어에 최적화된 정밀함
TensorRT-LLM은 NVIDIA에서 제공하는 최적화 라이브러리입니다. vLLM이 '효율적인 메모리 관리'에 강점이 있다면, TensorRT-LLM은 **'특정 하드웨어 아키텍처에 대한 극한의 최적화'**에 강점이 있습니다.
- 핵심 원리: 모델 그래프 자체를 타겟 하드웨어(예: 특정 GPU 세대)에 맞춰 재구성하고, 연산 순서를 재배치하여 오버헤드를 최소화합니다.
- vLLM과의 차이점: vLLM이 범용적인 고효율성을 추구한다면, TensorRT-LLM은 **'특정 벤더의 하드웨어 성능을 100% 끌어내는 것'**에 특화되어 있습니다. 어떤 환경에서 가장 높은 성능을 뽑아낼지 목표에 따라 선택하게 됩니다.
💡 개발자 인사이트: 두 기술 모두 '속도'를 위한 것이지만, **vLLM은 '시스템 레벨의 효율성'**에, **TensorRT-LLM은 '하드웨어 레벨의 최적화'**에 더 무게를 둡니다. 프로젝트의 목표 성능 지표(KPI)에 따라 적절한 도구를 선택해야 합니다.
📉 Quantization (양자화): 모델 크기 줄이기 마법
LLM 모델은 수십 GB에 달하는 거대한 파일입니다. 이 모델을 클라이언트 기기나 저사양 서버에 배포하려면 크기를 줄여야 합니다. 여기서 양자화가 등장합니다.
- 개념: 모델의 가중치(Weight)를 표현하는 정밀도(예: 32비트 부동소수점, FP32)를 더 낮은 비트(예: 8비트 정수, INT8)로 '압축'하는 과정입니다.
- 효과: 모델 파일 크기가 줄어들고, 메모리 대역폭 사용량이 줄어들어 추론 속도가 빨라지며, 배포 비용이 절감됩니다.
- 트레이드오프: 압축률이 높아질수록 미세한 성능 저하(Accuracy Drop)가 발생할 수 있으므로, 이 균형점을 찾는 것이 중요합니다.
🌐 2. 서비스 배포의 이해: API와 엔드포인트 개념 잡기
모델을 학습시키고 최적화하는 것과, 실제로 사용자에게 서비스를 제공하는 것은 완전히 다른 영역입니다. 이 '서비스화' 과정에서 반드시 이해해야 할 개념이 바로 Inference Endpoint입니다.
📡 Inference Endpoint: 모델을 상품화하는 창구
정의: Inference Endpoint는 특정 LLM 모델을 **'실제 서비스가 호출할 수 있는 안정적이고 관리되는 API 주소'**를 의미합니다.
- 왜 필요한가? 모델 파일 자체를 외부에 노출하는 것은 보안상 위험하며, 사용량에 따른 트래픽 제어, 로드 밸런싱, 인증/인가(Authentication/Authorization) 등의 복잡한 인프라 관리가 필요합니다. Endpoint는 이 모든 것을 캡슐화(Encapsulation)하여, 개발자가 오직 'API 호출'이라는 단순한 행위만 하도록 만듭니다.
- 서비스화 관점: 마치 레스토랑의 '주문 접수대'와 같습니다. 주방(모델)이 아무리 훌륭해도, 손님이 주문할 수 있는 명확한 창구(Endpoint)가 없으면 서비스를 제공할 수 없습니다.
- 추가 개념 (API Gateway): Endpoint 앞에 API Gateway를 두는 경우가 많습니다. Gateway는 요청이 들어올 때 속도 제한(Rate Limiting), 트래픽 모니터링, 보안 검사 등을 수행하는 '최전방 방어막' 역할을 합니다.
🧠 3. 지식 증강 및 구조화: 데이터 연동 핵심 용어
LLM은 방대한 지식을 학습했지만, 그 지식은 '학습 시점'에 멈춰 있습니다. 오늘 발생한 최신 뉴스, 우리 회사 내부의 비공개 매뉴얼 등은 알지 못합니다. 이 한계를 극복하는 것이 바로 지식 증강(Knowledge Augmentation) 기술입니다.
📚 RAG (Retrieval-Augmented Generation): 외부 지식을 주입하다
RAG는 현재 기업용 LLM 구축의 가장 표준적이고 필수적인 아키텍처입니다.
- 문제 인식: LLM은 '환각(Hallucination)' 현상을 보일 수 있습니다. 즉, 그럴듯하지만 사실이 아닌 정보를 지어내는 경향이 있습니다. 이는 모델이 '지식의 출처'를 알지 못하기 때문입니다.
- RAG 작동 원리 (3단계):
- Indexing (색인화): 외부 문서(PDF, DB 등)를 가져와 작은 덩어리(Chunk)로 나눈 후, 이를 Vector DB에 저장합니다.
- Retrieval (검색): 사용자의 질문이 들어오면, 이 질문을 벡터로 변환하여 Vector DB에서 '가장 관련성이 높은' 문서 조각(Context)을 검색해 옵니다.
- Generation (생성): 검색된 Context와 원래 질문을 프롬프트에 함께 넣어 LLM에게 전달합니다. ("다음 [Context]를 참고해서 질문에 답해줘.")
- 결과: LLM은 이제 "네가 학습한 지식"이 아닌, "지금 주어진 이 자료"를 근거로 답변하게 되므로, 답변의 신뢰도와 최신성이 극대화됩니다.
💾 Vector DB: 의미를 저장하는 최신 데이터베이스
Vector DB는 일반적인 키-값(Key-Value) 데이터베이스와는 다릅니다. 이곳에 저장되는 데이터는 '벡터(Vector)' 형태입니다.
- 벡터란? 텍스트, 이미지, 음성 등 비정형 데이터를 수학적 좌표(숫자 배열)로 변환한 것입니다. 이 좌표 공간에서 **'가까운 거리'**에 있는 벡터들은 '의미적으로 유사한' 정보를 의미합니다.
- 역할: RAG 과정에서 질문 벡터와 문서 벡터 간의 **'유사도 검색(Similarity Search)'**을 초고속으로 수행하는 것이 핵심 기능입니다. (대표 예시: Pinecone, ChromaDB 등)
🚀 요약 및 실무 적용 로드맵
| 개념 | 역할 | 핵심 키워드 | 실무 적용 시점 |
|---|---|---|---|
| RAG | 외부 지식 기반으로 LLM의 답변 정확도를 높임. | 검색 증강 생성, Context Injection | 가장 먼저 적용 (환각 현상 방지) |
| Vector DB | 비정형 데이터를 벡터 형태로 저장하고 유사도 검색을 수행. | 임베딩, 유사도 검색 | RAG 구축의 필수 기반 기술 |
| Quantization/Pruning | 모델 크기를 줄여서 경량화하고 추론 속도를 높임. | 모델 압축, 추론 최적화 | 엣지 디바이스 또는 비용 절감이 필요할 때 |
| PagedAttention | 긴 시퀀스 처리에 필요한 메모리 효율성을 극대화. | KV Cache 관리, 메모리 최적화 | 고성능 추론 환경 구축 시 |
이러한 기술 스택들을 이해하고 조합하는 것이 현재 LLM 애플리케이션 개발의 핵심입니다. 단순히 API를 호출하는 것을 넘어, 어떻게 데이터를 준비(RAG/Vector DB)하고, 어떻게 모델을 최적화(Quantization/PagedAttention)할지를 설계하는 능력이 중요합니다.
이 글은 AI 에이전트가 1차 초안을 작성한 뒤, 사람 편집자가 사실관계·출처·톤과 맥락을 검토하여 발행했습니다. 오류나 부정확한 내용이 확인되면 24시간 이내에 정정합니다.
댓글
불러오는 중...