DGX Spark: First Impression - เมื่อซื้อเครื่อง AI มา แล้วได้เรียนรู้มากกว่าที่คิด
สารบัญ
- TL;DR
- Specs at a Glance
- ก่อนซื้อ: ความคาดหวัง vs ความจริง
- เปิดกล่องครั้งแรก
- วันแรก: ลอง DE Mode + Ollama + Open WebUI
- หลังถอด DE: เข้าสู่โลกของ CLI + API
- vLLM
- llama.cpp
- Model terminology ที่ต้องรู้
- เข้าสู่ชุมชน: spark-arena + sparkrun + NVIDIA Forums
- spark-arena.com
- sparkrun (scitrera/sparkrun)
- forums.developer.nvidia.com
- HuggingFace
- Reddit's "Two Units" Joke - Reality Check
- Context Size Testing: 16K vs 32K vs 256K
- Who is DGX Spark Really For?
- คุ้มค่า ถ้าคุณเป็น:
- ไม่คุ้ม ถ้าคุณเป็น:
- Pricing vs Alternatives
- สิ่งที่ต้องเรียนรู้เพิ่ม (ที่ไม่มีใน spec sheet)
- Conclusion
- References
หลังจากยุ่งกับการทดลอง model + tune config + debug API มาเกือบอาทิตย์แล้ว วันนี้ได้ฤกษ์นั่งเขียนรีวิว DGX Spark ที่ซื้อมา จะเล่าแบบตรงๆ ตามประสบการณ์จริงทั้งข้อดีและข้อเสีย ไม่มี hype ไม่มี marketing — แค่ "ซื้อมา ใช้มา เจออะไรมา" ครับ
Note: เครื่องที่ผมได้ — MSI EdgeXpert MS-C931 (รหัส SKU: 60STH-BGB104TG5) ใช้ chip NVIDIA GB10 Grace Blackwell เหมือนกับ NVIDIA DGX Spark แต่ MSI อ้างว่า thermal design ดีกว่า ทำให้เร็วกว่า 5-10% ในงานส่วนใหญ่
TL;DR
DGX Spark (MSI EdgeXpert) ไม่ใช่เครื่อง plug-and-play — ต้องลงทุนเวลาเรียนรู้ vLLM, quantization, และ serving stack แต่ถ้า use case ตรง (fine-tuning, AI agents หนักๆ, on-premise privacy) 128GB unified memory + NVIDIA stack คุ้มค่าที่สุดในตลาดตอนนี้ ถ้าแค่ generate code เป็นหลัก หรือใช้ LLM น้อย ใช้ cloud models ดีกว่า
Specs at a Glance
สเปกรวมของระบบ: ARM 20-core + 128GB unified memory + 4TB Gen5 SSD + 200Gbps networking โดย unified memory หมายความว่า CPU กับ GPU ใช้หน่วยความจำร่วมกัน — ไม่มีปัญหา VRAM bottleneck อีกต่อไป
ก่อนซื้อ: ความคาดหวัง vs ความจริง
ก่อนซื้อผมศึกษามาเยอะมาก - อ่าน spec, ดู benchmark, เทียบกับ Mac Studio, AMD Strix Halo, RTX 5090 build แล้วคาดหวังว่า "ได้เครื่องมา ติดตั้ง vLLM ก็รัน LLM ได้เต็มที่เลย" - ความจริงไม่เป็นแบบนั้นครับ
DGX Spark ไม่ใช่เครื่อง plug-and-play แต่ผมไม่ผิดหวัง เพราะผมเป็นนักพัฒนาที่ชอบเรียนรู้เครื่องมือใหม่ๆ การที่ต้องศึกษา vLLM, model architectures, quantization formats ถือว่าเป็นส่วนหนึ่งของการเดินทาง ไม่ใช่ปัญหา
เปิดกล่องครั้งแรก
spec ที่จ่ายเงินมา:
- NVIDIA GB10 Grace Blackwell Superchip - 1 PetaFLOP FP4
- CPU: ARM 20-core
- RAM: 128GB LPDDR5x unified memory
- Storage: 4TB Gen5 NVMe SSD
- Network: Dual LAN - 200Gbps ConnectX-7 + 10GbE
- OS: NVIDIA DGX OS (Ubuntu-based)
- WiFi 7 + BT 5.3
Note: 200Gbps networking คือ highlight ที่หลายคนมองข้าม - DGX Spark มี QSFP port สำหรับ cluster mode ซึ่งเป็นเหตุผลที่ Reddit ถึงล้อเลียนกันว่า "คุณต้องซื้อเครื่องที่ 2 เพราะรุ่นนี้ออกแบบมาให้ cluster" - เดี๋ยวเล่าเรื่องนี้ต่อด้านล่าง
วันแรก: ลอง DE Mode + Ollama + Open WebUI
DGX OS มาพร้อม GNOME desktop environment ผมลองใช้ GUI mode ดู:
- GNOME - ใช้งานได้ดี ไม่มีปัญหาอะไร
- Ollama - ติดตั้งง่าย รันโมเดลได้ทันที
- Open WebUI - หน้าต่างแชทสวยงาม เหมาะลองเล่น
แต่หลังจากเล่นไป 2-3 วัน ผมตัดสินใจ ถอด DE ออก เหลือเพียง CLI text mode เพราะ:
- ไม่ได้ใช้ GUI จริงจัง — 90% ของงานคือ SSH เข้าไป + ยิง API
- ทรัพยากร GPU/CPU — DE ใช้ memory และ CPU ที่ควรจัดสรรให้ vLLM
- เหมือนใช้ Mac mini แต่ปิด Finder — ใช้แต่ Terminal
- เป็น headless server มากกว่า desktop — DGX Spark ของผมคือ AI server ไม่ใช่ workstation
Note: ทางเลือก GUI vs CLI ไม่มีถูกผิด — ถ้าใครอยากใช้ Open WebUI คุยกับ model แบบสบายๆ DE + Ollama ก็ work ดี แต่ถ้าจะเอามาทำเป็น API server จริงจัง CLI ดีกว่า
หลังถอด DE: เข้าสู่โลกของ CLI + API
หลังถอด DE ออก ผมเริ่มเรียนรู้ tools ใหม่ๆ ที่ต้องใช้:
vLLM
เป็น main serving engine — OpenAI-compatible API, throughput สูง, มี PagedAttention จัดการ KV cache ดีมาก
llama.cpp
ทางเลือกสำหรับงาน lightweight — แต่สำหรับงานผม vLLM เหมาะกว่า
Model terminology ที่ต้องรู้
- MoE vs Dense — qwen3.6-35B-A3B ที่ผมใช้เป็น MoE (active แค่ 3B ต่อ token)
- Quantization: FP4, FP8, BF16, NVFP4 — แต่ละแบบมี hardware requirement ต่างกัน
Note: Blackwell chip รองรับ FP8 native — ผมจึงเลือก FP8 model เป็นหลัก เพราะได้ performance ดีที่สุดบน hardware นี้
เข้าสู่ชุมชน: spark-arena + sparkrun + NVIDIA Forums
นี่คือส่วนที่สนุกที่สุดของ DGX Spark journey — ชุมชนที่แข็งแรงมาก
spark-arena.com
LLM benchmark leaderboard เฉพาะ DGX Spark — ดูว่า model ไหนรันได้ดีบน GB10 เท่าไหร่ มี official recipes + community recipes ให้ copy ไปใช้ได้เลย
sparkrun (scitrera/sparkrun)
CLI tool ที่รวมการ launch/manage LLM inference บน DGX Spark — ไม่ต้องใช้ Slurm หรือ Kubernetes:
- รัน vLLM, SGLang, llama.cpp ได้
- Single node + cluster mode
- Recipe system + tab completion
pip install sparkrunใช้ได้เลย
forums.developer.nvidia.com
NVIDIA Developer Forums เป็นแหล่งข้อมูลชั้นเลิศ — กระทู้ช่วงวันแรกๆ เยอะมาก ผมเริ่มจากตรงนี้:
- "Most DGX Spark threads focus on 'how do I get the model to load without OOM?'" - เป็นเรื่องปกติตอนแรก
- มีคนแชร์ recipe + config + benchmark
- เมื่อ stack stable แล้ว ก็เริ่มคุยกันเรื่อง optimization
HuggingFace
แหล่ง model — มีทั้ง mainstream (Qwen, Llama, DeepSeek) และ uncensored models สำหรับ custom needs ผมเรียนรู้ชื่อ model patterns:
qwen3.6-35B-A3B-FP8= Qwen, 35B params, MoE A3B active, FP8 quantQwen3-Coder-Next= coding-specializedqwen3.6-27B= smaller, faster
Reddit's "Two Units" Joke - Reality Check
ใน subreddit r/LocalLLM มี meme เยอะมากเรื่อง "Buy 2 DGX Sparks for cluster" — ตอนแรกผมก็คิดว่าเป็น joke แต่พอลองดู NVIDIA's official documentation แล้ว:
- NVIDIA ไม่ค่อยพูดถึง scaling performance เกิน 2 units
- Reddit discussions ส่วนใหญ่ระบุว่า "1 unit ใช้ได้ แต่ 2+ units มี overhead ที่ document ไม่ครบ"
- 200Gbps ConnectX-7 มีไว้เพื่อ cluster แต่ cluster mode ยังเป็น early stage
สำหรับ single node ของผม: ผมเน้น 35B-A3B, 27B เป็นหลัก — ใช้งานได้สบาย ถ้าจะรัน 70B+ คงต้องซื้อเครื่องที่ 2 จริงๆ
Context Size Testing: 16K vs 32K vs 256K
ผมทดสอบ 3 context size เพื่อหา sweet spot:
| Context | Pros | Cons |
|---|---|---|
| 16K | เร็ว, throughput สูง | บางครั้ง reasoning ขาดตอนกลางทาง |
| 32K | สมดุลดี — reasoning เสร็จ + content ออกครบ | ใช้ VRAM ปานกลาง |
| 256K | context ใหญ่ ไม่ต้องกังวล | throughput ต่ำลงมาก, KV cache ใช้ memory เยอะ |
ผลลัพธ์: 32K เป็น sweet spot ที่ทำงานได้ดีกับ use case ของผม — ไม่ใช่ตั้งใจ แต่มันเกิดขึ้นจากการทดสอบ
Note: เลือก context size ตาม use case ไม่ใช่ "ยิ่งยาวยิ่งดี" — KV cache ใช้ memory ตาม O(n) ของ context length (attention computation ต่างหากที่เป็น O(n²)) แต่ถ้า context ยาว 8 เท่า KV cache ก็ใช้ memory มากขึ้น 8 เท่า ทำให้ concurrent requests น้อยลง
Rule: Bigger context ≠ Better performance — context ใหญ่ขึ้น ใช้ memory เยอะขึ้น ทำให้ concurrent requests ลดลง throughput ตามลง
Who is DGX Spark Really For?
หลังจากเล่นมาเกือบอาทิตย์ นี่คือมุมมองตรงๆ:
คุ้มค่า ถ้าคุณเป็น:
1. นักพัฒนาที่ต้องการ fine-tune model เฉพาะทาง
- ใช้ Unsloth, LoRA, etc. เพื่อ train model เอง
- 128GB unified memory พอ train 7B-13B models
- Data privacy - ไม่ต้องส่งข้อมูลออก
2. คนที่ใช้ AI Agent เยอะมาก
- 1000+ requests/day
- Cloud providers มี rate limit, local ไม่มี
- "When cloud APIs are down, my agents never go offline"
3. องค์กรที่ต้อง on-premise
- Healthcare, finance, government
- ข้อมูลห้ามออกนอกองค์กร
- Compliance + audit requirements
4. นักเล่น/นักวิจัยที่อยากทดลองโมเดล open source ล้ำหน้า
- Qwen, DeepSeek, Llama variants
- Uncensored models
- เปรียบเทียบ FP4 vs FP8 vs NVFP4
ไม่คุ้ม ถ้าคุณเป็น:
1. ใช้แค่เขียนโค้ดเป็นหลัก
- Cloud models (Claude, GPT) ยังเก่งกว่า
- Qwen3-Coder-Next ก็ดี แต่สู้ Sonnet ไม่ได้
- $19/month cloud subscription คุ้มกว่า
2. ใช้ LLM เดือนละไม่กี่ครั้ง
- Pay-per-use cloud ถูกกว่ามาก
- Setup time ไม่คุ้ม
3. ไม่อยากเรียนรู้ infrastructure
- ต้องอ่าน docs, ทำความเข้าใจ vLLM/quantization
- ถ้าไม่ชอบ CLI ไม่แนะนำ
Pricing vs Alternatives
ตอนผมซื้อ DGX Spark ราคาอยู่ที่เกือบ $4,700 (จาก CES 2025 ที่ประกาศ $3,999 → เพิ่มขึ้น ~17.5%) — แพงกว่าตอนประกาศราคาเยอะ ถ้าเทียบกับตัวเลือกอื่น:
| Option | Price | Note |
|---|---|---|
| NVIDIA DGX Spark | $4,699 | ราคาเต็ม |
| MSI EdgeXpert (ของผม) | ~$4,000 | thermal design ดีกว่า |
| ASUS Ascent GX10 | ~$3,999 | ถูกกว่า ~$700 |
| AMD Strix Halo mini PC | $1,999-3,999 | ครึ่งถึงเท่าราคา ขึ้นกับแบรนด์ |
| GMKtec EVO-X2 | ~$1,999-2,199 | ครึ่งราคา, China competitor |
| Apple Mac Studio M3 Ultra | $3,999+ | unified memory สูงสุด 512GB |
| Custom RTX 5090 build | ~$4,500-5,500 | bandwidth สูงกว่า 6 เท่า |
| Cloud APIs | $19/month | ถูกที่สุดถ้าใช้น้อย |
Note: Memory bandwidth เป็นจุดอ่อนของ DGX Spark - 273 GB/s vs RTX 5090 ที่ ~1,800 GB/s ถ้า workload เน้น LLM token generation → bandwidth สำคัญมาก ตรงนี้ RTX 5090 build ชนะ
Key insight: DGX Spark ไม่ใช่ตัวเลือกที่ถูกที่สุด — RTX 5090 build ราคาใกล้เคียงกัน แถม memory bandwidth สูงกว่า 6 เท่า แต่ DGX ชนะที่ unified memory (128GB shared) + NVIDIA software stack เต็มรูปแบบ ไม่ต้องกังวลเรื่อง VRAM limit
สิ่งที่ต้องเรียนรู้เพิ่ม (ที่ไม่มีใน spec sheet)
นี่คือ soft skills ที่ต้องมีถ้าจะใช้ DGX Spark:
- Serving engines - vLLM, llama.cpp, SGLang ต่างกันอย่างไร
- สถาปัตยกรรมโมเดล - MoE, dense, quant formats (FP4/FP8/BF16/NVFP4)
- Recipe YAML - Go template syntax ใช้ double brace
{{}}ถ้า JSON ใน recipe มี brace ต้อง escape ให้ถูก - การจัดการหน่วยความจำ - KV cache, prefix caching, chunked prefill
- Speculative decoding - MTP, draft model
- โหมด Cluster - เมื่อไหร่ต้องใช้, scaling performance
- การ serve API - OpenAI compatibility, request routing, caching
Conclusion
DGX Spark (MSI EdgeXpert) เป็นเครื่องที่ดีสำหรับ:
- นักพัฒนาที่อยากเชี่ยวชาญกับ AI workloads
- คนที่ต้องการ fine-tune custom models
- คนที่ต้องการ data privacy / on-premise
- คนที่ใช้ AI agents เยอะมาก
DGX Spark ไม่ใช่เครื่องสำหรับ:
- คนที่อยากเขียนโค้ดเป็นหลัก
- คนที่ใช้ LLM น้อย
- คนที่ไม่อยากเรียนรู้ infrastructure
ส่วนตัวของผม: ผมซื้อมาเพราะต้องการทำ local AI agents และ fine-tune custom models สำหรับ trading bot และ research tools ของตัวเอง — use case เฉพาะทางจริงๆ ถ้าใครซื้อมาแค่เขียนโค้ด ผมแนะนำให้ใช้ cloud models ดีกว่าครับ
แต่ถ้าสนใจ local AI, fine-tuning, หรืออยากมี infrastructure ของตัวเอง — DGX Spark ก็เป็นตัวเลือกที่น่าสนใจ (แต่ต้องลงทุนเวลาเรียนรู้ด้วย)
สิ่งที่ผมจะเขียนต่อไป:
- Optimization journey - เจาะลึก recipe, MTP, max_tokens paradox
- Multi-model strategy - ใช้ DGX คู่กับ provider models
- Custom tools ที่ผมสร้างบน DGX
ขอบคุณที่อ่านครับ - ถ้ามีคำถามอะไรถามได้เลย!
References
- NVIDIA DGX Spark
- MSI EdgeXpert MS-C931
- eugr/spark-vllm-docker
- spark-arena
- sparkrun
- NVIDIA Developer Forums - DGX Spark
- r/LocalLLaMA
เนื้อหานี้มีประโยชน์ไหม? ช่วยสนับสนุนค่ากาแฟให้ผู้เขียนสักแก้ว
Buy Me a Coffee