기술 블로그
AI · 네이티브 클라우드 노트
AI 에이전트 · MLOps/RAG · 온디바이스 AI · 클라우드 네이티브 실전 노트.
- ·12 min
LLM 옵저버빌리티 2026: OpenTelemetry GenAI 시맨틱 컨벤션으로 에이전트 추적·비용 계측
OpenTelemetry GenAI 시맨틱 컨벤션을 기준으로 LLM·에이전트 호출을 표준 스팬·메트릭으로 계측하고 토큰·비용·지연을 추적하는 프로덕션 옵저버빌리티 구축법을 코드와 함께 정리합니다.
AI-AgentCloud-NativeLLM-ObservabilityMLOpsOpenTelemetry - ·11 min
MCP 프로덕션 서버 구축 2026: Streamable HTTP·OAuth 2.1로 안전한 AI 에이전트 연동
MCP 최신 스펙(2025-11-25)을 기준으로 Streamable HTTP 전송과 OAuth 2.1 리소스 서버 인증을 적용해 프로덕션 등급 AI 에이전트 서버를 구축하는 방법을 코드와 함께 정리합니다.
AI-AgentCloud-NativeLLMMCPOAuth2.1 - ·10 min
LLM 추론 비용 최적화 2026: 프롬프트·시맨틱·KV 캐시 3계층 전략
프롬프트 캐싱, 시맨틱 캐시, vLLM KV 프리픽스 캐시를 3계층으로 쌓아 LLM 추론 비용을 40~90% 줄이는 2026년 프로덕션 아키텍처를 코드와 함께 정리합니다.
AICloud-NativeCost-OptimizationLLMMLOps - ·11 min
쿠버네티스 GPU 공유 2026: MIG·타임슬라이싱·MPS·DRA로 추론 비용 절반 만들기
GPU 1장을 여러 LLM 추론 워크로드가 안전하게 나눠 쓰는 4가지 방식(MIG·타임슬라이싱·MPS·DRA)을 격리 수준·하드웨어 요건·NVIDIA GPU Operator 매니페스트와 함께 비교하고 선택 기준을 정리합니다.
AICloud-NativeGPUKubernetesMLOps - ·13 min
프로덕션 RAG 2026: 하이브리드 검색 + 리랭킹으로 검색 품질 끌어올리기
BM25 희소 검색과 밀집 벡터 검색을 RRF로 결합하고 cross-encoder 리랭커로 정밀도를 높이는 2026년 프로덕션 RAG 아키텍처를 코드와 함께 정리합니다.
AICloud-NativeMLOpsRAGVector-Search - ·15 min
온디바이스 모바일 AI 2026: Apple Foundation Models와 Gemini Nano 실전 가이드
iOS 26 Foundation Models 프레임워크와 Android Gemini Nano(ML Kit GenAI)로 클라우드 없이 단말에서 LLM을 실행하는 2026년 온디바이스 모바일 AI 구현을 Swift·Kotlin 코드와 함께 정리합니다.
AndroidiOSLLMMobile-AIOn-Device-AI - ·6 min
KServe + llm-d + vLLM로 만드는 클라우드 네이티브 LLM 추론 (2026)
KServe가 CNCF 프로젝트가 되고 v0.16에서 LLMInferenceService를 내놓았습니다. vLLM·llm-d와 엮어 KV-cache 인지 라우팅으로 처리량 3배·TTFT 2배를 만드는 프로덕션 추론 아키텍처를 정리합니다.
AICloud-NativeKubernetesLLMMLOps