Skip to main content

2 posts tagged with "qwen"

View All Tags

Qwen3.6-35B-A3B บน DGX Spark: เรื่อง sampling ที่ผมตั้งผิดมาตลอด

· 9 min read

ผมตั้งค่า vLLM มาหลายเดือนด้วยสูตรเดียวตลอด — temperature: 0.6, top_p: 0.95, top_k: 20 แล้วก็ปล่อยให้ client ไป override เอาเอง ไม่ว่าจะเป็น trading bot, Hermes agent, code review — ใช้ค่าเดียวกันหมด

จนเมื่อวานนี้ผมเปิด Hugging Face model card ของ Qwen3.6-35B-A3B อ่านเล่น ๆ ในส่วน Sampling Parameters ถึงได้รู้ว่า — Qwen team แนะนำ sampling ตาม mode และ task type ไม่ใช่ตาม benchmark หรือ use case แบบที่ผมเข้าใจ

อ้าว ผมเลยต้องกลับมานั่งคิดใหม่

Virtual Models บน LiteLLM Proxy: 1 โมเดล 5 profiles ใช้ให้เหมาะกับงาน

· 10 min read

ผมเคยตั้งค่า vLLM มาหลายเดือนด้วยสูตรเดียวตลอด — temperature: 0.6, top_p: 0.95 แล้วก็ปล่อยให้ทุก client ไป override เอาเอง ไม่ว่าจะเป็น Claude Code, Hermes Agent หรือ OpenWebUI — ใช้ค่าเดียวกันหมด

ผมคิดว่า "โมเดลตัวเดียวกัน ก็ต้องตั้งค่าเหมือนกันสิ" — จนกระทั่งลองเปลี่ยน sampling ตาม use case แล้วเห็นว่า โมเดลตัวเดียวกัน + sampling ต่างกัน = พฤติกรรมต่างกันโดยสิ้นเชิง