"TGI" 키워드로 분류된 글 모음.
LLM 서비스의 성능 병목 지점을 이해하고, vLLM과 TGI를 활용하여 배치 사이즈와 동시 요청 변화에 따른 GPU 메모리 사용량 및 처리량을 측정하는 실전 벤치마크 방법을 안내합니다.