เลือกฮาร์ดแวร์ AI On-Premise — มุมมองจากประสบการณ์ DGX Spark
เมื่ออยากรู้จัก AI Server เองในองค์กร ต้องพิจารณาหลายปัจจัยพร้อมกัน — ไม่ใช่แค่ดูสเปก แต่ดู workflow, งบประมาณ, จำนวนผู้ใช้, และการติดตั้ง
เมื่ออยากรู้จัก AI Server เองในองค์กร ต้องพิจารณาหลายปัจจัยพร้อมกัน — ไม่ใช่แค่ดูสเปก แต่ดู workflow, งบประมาณ, จำนวนผู้ใช้, และการติดตั้ง
เมื่อ FP8 เริ่มไม่พอสำหรับ concurrent workloads ผมลอง NVFP4 weights + Atlas engine จาก Avarok — ได้บทเรียนเรื่อง scheduler design ที่ไม่มีใน documentation
ก่อนตัดสินใจจ่ายเงินกว่าแสนหกหมื่นบาท มี 5 red flags และ 3 checklist ที่คุณต้องตอบได้ก่อน — ผมเองก็ใช้วิธีนี้ก่อนตัดสินใจซื้อ DGX Spark
Developer ในยุค AI + Agentic ต้องเข้าใจอะไรบ้าง - MCP, model serving, routing, security, และการหา sweet spot ระหว่าง local กับ cloud
ทดลองรัน DiffusionGemma 26B ด้วย NVFP4 quantization บน DGX Spark - บททดสอบจริงว่า 4-bit floating point ทำให้ AI บนเครื่องเราดีขึ้นจริงหรือไม่
เปิด Hugging Face model card ของ Qwen3.6-35B-A3B แล้วพบว่า Qwen team แนะนำ sampling ตาม mode/task ไม่ใช่ตาม use case แบบที่เข้าใจ — โดยเฉพาะ thinking mode สำหรับ general tasks ใช้ temp=1.0 สูงกว่า coding ที่ใช้ temp=0.6
แนะนำ MiniMax-M3 โมเดล 1M Context พร้อมตั้งค่า LiteLLM Gateway สำหรับงานแต่ละประเภท
โมเดลเดียวกัน แต่ sampling ต่างกัน = พฤติกรรมต่างๆ — ผมแยก 8 profiles ผ่าน LiteLLM alias ตาม use case จริงที่ใช้งาน (coding, agent, agent-think, chat, reasoning, long context, mini, trading) พร้อมบทเรียนจากการทดสอบจริง เช่น agent loop และ presence_penalty
สรุปจาก HF model card ว่า Qwen team ใช้ parameters ต่างกันอย่างไรในแต่ละ benchmark category และแผนที่เอามาใช้ใน DGX Spark
เล่าประสบการณ์ deploy multi-environment บน self-hosted Gitea Actions - ทำไมถึงเลือก 99% self-host, แลกอะไรมาบ้าง, และเหมาะกับใคร