태그
#LLM
4편의 글
- ·10 min
LLM 추론 비용 최적화 2026: 프롬프트·시맨틱·KV 캐시 3계층 전략
프롬프트 캐싱, 시맨틱 캐시, vLLM KV 프리픽스 캐시를 3계층으로 쌓아 LLM 추론 비용을 40~90% 줄이는 2026년 프로덕션 아키텍처를 코드와 함께 정리합니다.
- ·11 min
MCP 프로덕션 서버 구축 2026: Streamable HTTP·OAuth 2.1로 안전한 AI 에이전트 연동
MCP 최신 스펙(2025-11-25)을 기준으로 Streamable HTTP 전송과 OAuth 2.1 리소스 서버 인증을 적용해 프로덕션 등급 AI 에이전트 서버를 구축하는 방법을 코드와 함께 정리합니다.
- ·15 min
온디바이스 모바일 AI 2026: Apple Foundation Models와 Gemini Nano 실전 가이드
iOS 26 Foundation Models 프레임워크와 Android Gemini Nano(ML Kit GenAI)로 클라우드 없이 단말에서 LLM을 실행하는 2026년 온디바이스 모바일 AI 구현을 Swift·Kotlin 코드와 함께 정리합니다.
- ·6 min
KServe + llm-d + vLLM로 만드는 클라우드 네이티브 LLM 추론 (2026)
KServe가 CNCF 프로젝트가 되고 v0.16에서 LLMInferenceService를 내놓았습니다. vLLM·llm-d와 엮어 KV-cache 인지 라우팅으로 처리량 3배·TTFT 2배를 만드는 프로덕션 추론 아키텍처를 정리합니다.