태그
1편의 글
프롬프트 캐싱, 시맨틱 캐시, vLLM KV 프리픽스 캐시를 3계층으로 쌓아 LLM 추론 비용을 40~90% 줄이는 2026년 프로덕션 아키텍처를 코드와 함께 정리합니다.