태그

#AI

4편의 글

2026년 5월 30일·10 min
LLM 추론 비용 최적화 2026: 프롬프트·시맨틱·KV 캐시 3계층 전략
프롬프트 캐싱, 시맨틱 캐시, vLLM KV 프리픽스 캐시를 3계층으로 쌓아 LLM 추론 비용을 40~90% 줄이는 2026년 프로덕션 아키텍처를 코드와 함께 정리합니다.
2026년 5월 30일·11 min
쿠버네티스 GPU 공유 2026: MIG·타임슬라이싱·MPS·DRA로 추론 비용 절반 만들기
GPU 1장을 여러 LLM 추론 워크로드가 안전하게 나눠 쓰는 4가지 방식(MIG·타임슬라이싱·MPS·DRA)을 격리 수준·하드웨어 요건·NVIDIA GPU Operator 매니페스트와 함께 비교하고 선택 기준을 정리합니다.
2026년 5월 23일·13 min
프로덕션 RAG 2026: 하이브리드 검색 + 리랭킹으로 검색 품질 끌어올리기
BM25 희소 검색과 밀집 벡터 검색을 RRF로 결합하고 cross-encoder 리랭커로 정밀도를 높이는 2026년 프로덕션 RAG 아키텍처를 코드와 함께 정리합니다.
2026년 5월 23일·6 min
KServe + llm-d + vLLM로 만드는 클라우드 네이티브 LLM 추론 (2026)
KServe가 CNCF 프로젝트가 되고 v0.16에서 LLMInferenceService를 내놓았습니다. vLLM·llm-d와 엮어 KV-cache 인지 라우팅으로 처리량 3배·TTFT 2배를 만드는 프로덕션 추론 아키텍처를 정리합니다.

AI — 블로그 | 인텐트코드