ตั้งค่า Rolling Update, Resource Limits สำหรับ GPU และ Readiness Probe เพื่อให้ AI API ไม่มี Downtime Configure Rolling Update, GPU Resource Limits and Readiness Probes for zero-downtime AI APIs

การ deploy AI model บน Kubernetes ต้องการการตั้งค่าที่พิเศษกว่า workload ทั่วไป โดยเฉพาะเรื่อง GPU scheduling และ resource limits

GPU Scheduling

Kubernetes รองรับ GPU scheduling ผ่าน NVIDIA device plugin ซึ่งช่วยให้ Pod ร้องขอ GPU resource ได้โดยตรง

Deploying AI models on Kubernetes requires special configuration beyond regular workloads, especially around GPU scheduling and resource limits.