태그

#Kubernetes

2편의 글

2026년 5월 30일·11 min
쿠버네티스 GPU 공유 2026: MIG·타임슬라이싱·MPS·DRA로 추론 비용 절반 만들기
GPU 1장을 여러 LLM 추론 워크로드가 안전하게 나눠 쓰는 4가지 방식(MIG·타임슬라이싱·MPS·DRA)을 격리 수준·하드웨어 요건·NVIDIA GPU Operator 매니페스트와 함께 비교하고 선택 기준을 정리합니다.
2026년 5월 23일·6 min
KServe + llm-d + vLLM로 만드는 클라우드 네이티브 LLM 추론 (2026)
KServe가 CNCF 프로젝트가 되고 v0.16에서 LLMInferenceService를 내놓았습니다. vLLM·llm-d와 엮어 KV-cache 인지 라우팅으로 처리량 3배·TTFT 2배를 만드는 프로덕션 추론 아키텍처를 정리합니다.