태그
#AI
4편의 글
- ·10 min
LLM 추론 비용 최적화 2026: 프롬프트·시맨틱·KV 캐시 3계층 전략
프롬프트 캐싱, 시맨틱 캐시, vLLM KV 프리픽스 캐시를 3계층으로 쌓아 LLM 추론 비용을 40~90% 줄이는 2026년 프로덕션 아키텍처를 코드와 함께 정리합니다.
- ·11 min
쿠버네티스 GPU 공유 2026: MIG·타임슬라이싱·MPS·DRA로 추론 비용 절반 만들기
GPU 1장을 여러 LLM 추론 워크로드가 안전하게 나눠 쓰는 4가지 방식(MIG·타임슬라이싱·MPS·DRA)을 격리 수준·하드웨어 요건·NVIDIA GPU Operator 매니페스트와 함께 비교하고 선택 기준을 정리합니다.
- ·13 min
프로덕션 RAG 2026: 하이브리드 검색 + 리랭킹으로 검색 품질 끌어올리기
BM25 희소 검색과 밀집 벡터 검색을 RRF로 결합하고 cross-encoder 리랭커로 정밀도를 높이는 2026년 프로덕션 RAG 아키텍처를 코드와 함께 정리합니다.
- ·6 min
KServe + llm-d + vLLM로 만드는 클라우드 네이티브 LLM 추론 (2026)
KServe가 CNCF 프로젝트가 되고 v0.16에서 LLMInferenceService를 내놓았습니다. vLLM·llm-d와 엮어 KV-cache 인지 라우팅으로 처리량 3배·TTFT 2배를 만드는 프로덕션 추론 아키텍처를 정리합니다.