Tune NVFP4 ให้แรงขึ้น 20% — เรื่องของการขยับ 3 ค่า
ย้ายจาก gpu_memory_utilization=0.5 → 0.7 บน Qwen3.6-35B-A3B-NVFP4 ผ่าน concurrency 6 ได้ throughput เพิ่ม 20% แต่ single user กลับช้าลง — เล่าเบื้องหลังการ tune จริง ๆ บน DGX Spark
ย้ายจาก gpu_memory_utilization=0.5 → 0.7 บน Qwen3.6-35B-A3B-NVFP4 ผ่าน concurrency 6 ได้ throughput เพิ่ม 20% แต่ single user กลับช้าลง — เล่าเบื้องหลังการ tune จริง ๆ บน DGX Spark
เมื่ออยากรู้จัก AI Server เองในองค์กร ต้องพิจารณาหลายปัจจัยพร้อมกัน — ไม่ใช่แค่ดูสเปก แต่ดู workflow, งบประมาณ, จำนวนผู้ใช้, และการติดตั้ง
เมื่อ FP8 เริ่มไม่พอสำหรับ concurrent workloads ผมลอง NVFP4 weights + Atlas engine จาก Avarok — ได้บทเรียนเรื่อง scheduler design ที่ไม่มีใน documentation
ก่อนตัดสินใจจ่ายเงินกว่าแสนหกหมื่นบาท มี 5 red flags และ 3 checklist ที่คุณต้องตอบได้ก่อน — ผมเองก็ใช้วิธีนี้ก่อนตัดสินใจซื้อ DGX Spark
Developer ในยุค AI + Agentic ต้องเข้าใจอะไรบ้าง - MCP, model serving, routing, security, และการหา sweet spot ระหว่าง local กับ cloud
ทดลองรัน DiffusionGemma 26B ด้วย NVFP4 quantization บน DGX Spark - บททดสอบจริงว่า 4-bit floating point ทำให้ AI บนเครื่องเราดีขึ้นจริงหรือไม่
เปิด Hugging Face model card ของ Qwen3.6-35B-A3B แล้วพบว่า Qwen team แนะนำ sampling ตาม mode/task ไม่ใช่ตาม use case แบบที่เข้าใจ — โดยเฉพาะ thinking mode สำหรับ general tasks ใช้ temp=1.0 สูงกว่า coding ที่ใช้ temp=0.6
แนะนำ MiniMax-M3 โมเดล 1M Context พร้อมตั้งค่า LiteLLM Gateway สำหรับงานแต่ละประเภท
โมเดลเดียวกัน แต่ sampling ต่างกัน = พฤติกรรมต่างกัน — 10 profiles บน Qwen3.6-35B-A3B-NVFP4 ผ่าน LiteLLM alias สำหรับ Hermes Agent + LiteLLM Gateway
สรุปจาก HF model card ว่า Qwen team ใช้ parameters ต่างกันอย่างไรในแต่ละ benchmark category และแผนที่เอามาใช้ใน DGX Spark