Skip to main content

DGX Spark: First Impression - เมื่อซื้อเครื่อง AI มา แล้วได้เรียนรู้มากกว่าที่คิด

· 13 min read

หลังจากยุ่งกับการทดลอง model + tune config + debug API มาเกือบอาทิตย์แล้ว วันนี้ได้ฤกษ์นั่งเขียนรีวิว DGX Spark ที่ซื้อมา จะเล่าแบบตรงๆ ตามประสบการณ์จริงทั้งข้อดีและข้อเสีย ไม่มี hype ไม่มี marketing — แค่ "ซื้อมา ใช้มา เจออะไรมา" ครับ

Note: เครื่องที่ผมได้MSI EdgeXpert MS-C931 (รหัส SKU: 60STH-BGB104TG5) ใช้ chip NVIDIA GB10 Grace Blackwell เหมือนกับ NVIDIA DGX Spark แต่ MSI อ้างว่า thermal design ดีกว่า ทำให้เร็วกว่า 5-10% ในงานส่วนใหญ่

TL;DR

DGX Spark (MSI EdgeXpert) ไม่ใช่เครื่อง plug-and-play — ต้องลงทุนเวลาเรียนรู้ vLLM, quantization, และ serving stack แต่ถ้า use case ตรง (fine-tuning, AI agents หนักๆ, on-premise privacy) 128GB unified memory + NVIDIA stack คุ้มค่าที่สุดในตลาดตอนนี้ ถ้าแค่ generate code เป็นหลัก หรือใช้ LLM น้อย ใช้ cloud models ดีกว่า

Specs at a Glance

สเปกรวมของระบบ: ARM 20-core + 128GB unified memory + 4TB Gen5 SSD + 200Gbps networking โดย unified memory หมายความว่า CPU กับ GPU ใช้หน่วยความจำร่วมกัน — ไม่มีปัญหา VRAM bottleneck อีกต่อไป

ก่อนซื้อ: ความคาดหวัง vs ความจริง

ก่อนซื้อผมศึกษามาเยอะมาก - อ่าน spec, ดู benchmark, เทียบกับ Mac Studio, AMD Strix Halo, RTX 5090 build แล้วคาดหวังว่า "ได้เครื่องมา ติดตั้ง vLLM ก็รัน LLM ได้เต็มที่เลย" - ความจริงไม่เป็นแบบนั้นครับ

DGX Spark ไม่ใช่เครื่อง plug-and-play แต่ผมไม่ผิดหวัง เพราะผมเป็นนักพัฒนาที่ชอบเรียนรู้เครื่องมือใหม่ๆ การที่ต้องศึกษา vLLM, model architectures, quantization formats ถือว่าเป็นส่วนหนึ่งของการเดินทาง ไม่ใช่ปัญหา

เปิดกล่องครั้งแรก

spec ที่จ่ายเงินมา:

  • NVIDIA GB10 Grace Blackwell Superchip - 1 PetaFLOP FP4
  • CPU: ARM 20-core
  • RAM: 128GB LPDDR5x unified memory
  • Storage: 4TB Gen5 NVMe SSD
  • Network: Dual LAN - 200Gbps ConnectX-7 + 10GbE
  • OS: NVIDIA DGX OS (Ubuntu-based)
  • WiFi 7 + BT 5.3

Note: 200Gbps networking คือ highlight ที่หลายคนมองข้าม - DGX Spark มี QSFP port สำหรับ cluster mode ซึ่งเป็นเหตุผลที่ Reddit ถึงล้อเลียนกันว่า "คุณต้องซื้อเครื่องที่ 2 เพราะรุ่นนี้ออกแบบมาให้ cluster" - เดี๋ยวเล่าเรื่องนี้ต่อด้านล่าง

วันแรก: ลอง DE Mode + Ollama + Open WebUI

DGX OS มาพร้อม GNOME desktop environment ผมลองใช้ GUI mode ดู:

  • GNOME - ใช้งานได้ดี ไม่มีปัญหาอะไร
  • Ollama - ติดตั้งง่าย รันโมเดลได้ทันที
  • Open WebUI - หน้าต่างแชทสวยงาม เหมาะลองเล่น

แต่หลังจากเล่นไป 2-3 วัน ผมตัดสินใจ ถอด DE ออก เหลือเพียง CLI text mode เพราะ:

  1. ไม่ได้ใช้ GUI จริงจัง — 90% ของงานคือ SSH เข้าไป + ยิง API
  2. ทรัพยากร GPU/CPU — DE ใช้ memory และ CPU ที่ควรจัดสรรให้ vLLM
  3. เหมือนใช้ Mac mini แต่ปิด Finder — ใช้แต่ Terminal
  4. เป็น headless server มากกว่า desktop — DGX Spark ของผมคือ AI server ไม่ใช่ workstation

Note: ทางเลือก GUI vs CLI ไม่มีถูกผิด — ถ้าใครอยากใช้ Open WebUI คุยกับ model แบบสบายๆ DE + Ollama ก็ work ดี แต่ถ้าจะเอามาทำเป็น API server จริงจัง CLI ดีกว่า

หลังถอด DE: เข้าสู่โลกของ CLI + API

หลังถอด DE ออก ผมเริ่มเรียนรู้ tools ใหม่ๆ ที่ต้องใช้:

vLLM

เป็น main serving engine — OpenAI-compatible API, throughput สูง, มี PagedAttention จัดการ KV cache ดีมาก

llama.cpp

ทางเลือกสำหรับงาน lightweight — แต่สำหรับงานผม vLLM เหมาะกว่า

Model terminology ที่ต้องรู้

  • MoE vs Dense — qwen3.6-35B-A3B ที่ผมใช้เป็น MoE (active แค่ 3B ต่อ token)
  • Quantization: FP4, FP8, BF16, NVFP4 — แต่ละแบบมี hardware requirement ต่างกัน

Note: Blackwell chip รองรับ FP8 native — ผมจึงเลือก FP8 model เป็นหลัก เพราะได้ performance ดีที่สุดบน hardware นี้

เข้าสู่ชุมชน: spark-arena + sparkrun + NVIDIA Forums

นี่คือส่วนที่สนุกที่สุดของ DGX Spark journey — ชุมชนที่แข็งแรงมาก

spark-arena.com

LLM benchmark leaderboard เฉพาะ DGX Spark — ดูว่า model ไหนรันได้ดีบน GB10 เท่าไหร่ มี official recipes + community recipes ให้ copy ไปใช้ได้เลย

sparkrun (scitrera/sparkrun)

CLI tool ที่รวมการ launch/manage LLM inference บน DGX Spark — ไม่ต้องใช้ Slurm หรือ Kubernetes:

  • รัน vLLM, SGLang, llama.cpp ได้
  • Single node + cluster mode
  • Recipe system + tab completion
  • pip install sparkrun ใช้ได้เลย

forums.developer.nvidia.com

NVIDIA Developer Forums เป็นแหล่งข้อมูลชั้นเลิศ — กระทู้ช่วงวันแรกๆ เยอะมาก ผมเริ่มจากตรงนี้:

  • "Most DGX Spark threads focus on 'how do I get the model to load without OOM?'" - เป็นเรื่องปกติตอนแรก
  • มีคนแชร์ recipe + config + benchmark
  • เมื่อ stack stable แล้ว ก็เริ่มคุยกันเรื่อง optimization

HuggingFace

แหล่ง model — มีทั้ง mainstream (Qwen, Llama, DeepSeek) และ uncensored models สำหรับ custom needs ผมเรียนรู้ชื่อ model patterns:

  • qwen3.6-35B-A3B-FP8 = Qwen, 35B params, MoE A3B active, FP8 quant
  • Qwen3-Coder-Next = coding-specialized
  • qwen3.6-27B = smaller, faster

Reddit's "Two Units" Joke - Reality Check

ใน subreddit r/LocalLLM มี meme เยอะมากเรื่อง "Buy 2 DGX Sparks for cluster" — ตอนแรกผมก็คิดว่าเป็น joke แต่พอลองดู NVIDIA's official documentation แล้ว:

  • NVIDIA ไม่ค่อยพูดถึง scaling performance เกิน 2 units
  • Reddit discussions ส่วนใหญ่ระบุว่า "1 unit ใช้ได้ แต่ 2+ units มี overhead ที่ document ไม่ครบ"
  • 200Gbps ConnectX-7 มีไว้เพื่อ cluster แต่ cluster mode ยังเป็น early stage

สำหรับ single node ของผม: ผมเน้น 35B-A3B, 27B เป็นหลัก — ใช้งานได้สบาย ถ้าจะรัน 70B+ คงต้องซื้อเครื่องที่ 2 จริงๆ

Context Size Testing: 16K vs 32K vs 256K

ผมทดสอบ 3 context size เพื่อหา sweet spot:

ContextProsCons
16Kเร็ว, throughput สูงบางครั้ง reasoning ขาดตอนกลางทาง
32Kสมดุลดี — reasoning เสร็จ + content ออกครบใช้ VRAM ปานกลาง
256Kcontext ใหญ่ ไม่ต้องกังวลthroughput ต่ำลงมาก, KV cache ใช้ memory เยอะ

ผลลัพธ์: 32K เป็น sweet spot ที่ทำงานได้ดีกับ use case ของผม — ไม่ใช่ตั้งใจ แต่มันเกิดขึ้นจากการทดสอบ

Note: เลือก context size ตาม use case ไม่ใช่ "ยิ่งยาวยิ่งดี" — KV cache ใช้ memory ตาม O(n) ของ context length (attention computation ต่างหากที่เป็น O(n²)) แต่ถ้า context ยาว 8 เท่า KV cache ก็ใช้ memory มากขึ้น 8 เท่า ทำให้ concurrent requests น้อยลง

Rule: Bigger context ≠ Better performance — context ใหญ่ขึ้น ใช้ memory เยอะขึ้น ทำให้ concurrent requests ลดลง throughput ตามลง

Who is DGX Spark Really For?

หลังจากเล่นมาเกือบอาทิตย์ นี่คือมุมมองตรงๆ:

คุ้มค่า ถ้าคุณเป็น:

1. นักพัฒนาที่ต้องการ fine-tune model เฉพาะทาง

  • ใช้ Unsloth, LoRA, etc. เพื่อ train model เอง
  • 128GB unified memory พอ train 7B-13B models
  • Data privacy - ไม่ต้องส่งข้อมูลออก

2. คนที่ใช้ AI Agent เยอะมาก

  • 1000+ requests/day
  • Cloud providers มี rate limit, local ไม่มี
  • "When cloud APIs are down, my agents never go offline"

3. องค์กรที่ต้อง on-premise

  • Healthcare, finance, government
  • ข้อมูลห้ามออกนอกองค์กร
  • Compliance + audit requirements

4. นักเล่น/นักวิจัยที่อยากทดลองโมเดล open source ล้ำหน้า

  • Qwen, DeepSeek, Llama variants
  • Uncensored models
  • เปรียบเทียบ FP4 vs FP8 vs NVFP4

ไม่คุ้ม ถ้าคุณเป็น:

1. ใช้แค่เขียนโค้ดเป็นหลัก

  • Cloud models (Claude, GPT) ยังเก่งกว่า
  • Qwen3-Coder-Next ก็ดี แต่สู้ Sonnet ไม่ได้
  • $19/month cloud subscription คุ้มกว่า

2. ใช้ LLM เดือนละไม่กี่ครั้ง

  • Pay-per-use cloud ถูกกว่ามาก
  • Setup time ไม่คุ้ม

3. ไม่อยากเรียนรู้ infrastructure

  • ต้องอ่าน docs, ทำความเข้าใจ vLLM/quantization
  • ถ้าไม่ชอบ CLI ไม่แนะนำ

Pricing vs Alternatives

ตอนผมซื้อ DGX Spark ราคาอยู่ที่เกือบ $4,700 (จาก CES 2025 ที่ประกาศ $3,999 → เพิ่มขึ้น ~17.5%) — แพงกว่าตอนประกาศราคาเยอะ ถ้าเทียบกับตัวเลือกอื่น:

OptionPriceNote
NVIDIA DGX Spark$4,699ราคาเต็ม
MSI EdgeXpert (ของผม)~$4,000thermal design ดีกว่า
ASUS Ascent GX10~$3,999ถูกกว่า ~$700
AMD Strix Halo mini PC$1,999-3,999ครึ่งถึงเท่าราคา ขึ้นกับแบรนด์
GMKtec EVO-X2~$1,999-2,199ครึ่งราคา, China competitor
Apple Mac Studio M3 Ultra$3,999+unified memory สูงสุด 512GB
Custom RTX 5090 build~$4,500-5,500bandwidth สูงกว่า 6 เท่า
Cloud APIs$19/monthถูกที่สุดถ้าใช้น้อย

Note: Memory bandwidth เป็นจุดอ่อนของ DGX Spark - 273 GB/s vs RTX 5090 ที่ ~1,800 GB/s ถ้า workload เน้น LLM token generation → bandwidth สำคัญมาก ตรงนี้ RTX 5090 build ชนะ

Key insight: DGX Spark ไม่ใช่ตัวเลือกที่ถูกที่สุด — RTX 5090 build ราคาใกล้เคียงกัน แถม memory bandwidth สูงกว่า 6 เท่า แต่ DGX ชนะที่ unified memory (128GB shared) + NVIDIA software stack เต็มรูปแบบ ไม่ต้องกังวลเรื่อง VRAM limit

สิ่งที่ต้องเรียนรู้เพิ่ม (ที่ไม่มีใน spec sheet)

นี่คือ soft skills ที่ต้องมีถ้าจะใช้ DGX Spark:

  1. Serving engines - vLLM, llama.cpp, SGLang ต่างกันอย่างไร
  2. สถาปัตยกรรมโมเดล - MoE, dense, quant formats (FP4/FP8/BF16/NVFP4)
  3. Recipe YAML - Go template syntax ใช้ double brace {{}} ถ้า JSON ใน recipe มี brace ต้อง escape ให้ถูก
  4. การจัดการหน่วยความจำ - KV cache, prefix caching, chunked prefill
  5. Speculative decoding - MTP, draft model
  6. โหมด Cluster - เมื่อไหร่ต้องใช้, scaling performance
  7. การ serve API - OpenAI compatibility, request routing, caching

Conclusion

DGX Spark (MSI EdgeXpert) เป็นเครื่องที่ดีสำหรับ:

  • นักพัฒนาที่อยากเชี่ยวชาญกับ AI workloads
  • คนที่ต้องการ fine-tune custom models
  • คนที่ต้องการ data privacy / on-premise
  • คนที่ใช้ AI agents เยอะมาก

DGX Spark ไม่ใช่เครื่องสำหรับ:

  • คนที่อยากเขียนโค้ดเป็นหลัก
  • คนที่ใช้ LLM น้อย
  • คนที่ไม่อยากเรียนรู้ infrastructure

ส่วนตัวของผม: ผมซื้อมาเพราะต้องการทำ local AI agents และ fine-tune custom models สำหรับ trading bot และ research tools ของตัวเอง — use case เฉพาะทางจริงๆ ถ้าใครซื้อมาแค่เขียนโค้ด ผมแนะนำให้ใช้ cloud models ดีกว่าครับ

แต่ถ้าสนใจ local AI, fine-tuning, หรืออยากมี infrastructure ของตัวเอง — DGX Spark ก็เป็นตัวเลือกที่น่าสนใจ (แต่ต้องลงทุนเวลาเรียนรู้ด้วย)


สิ่งที่ผมจะเขียนต่อไป:

  • Optimization journey - เจาะลึก recipe, MTP, max_tokens paradox
  • Multi-model strategy - ใช้ DGX คู่กับ provider models
  • Custom tools ที่ผมสร้างบน DGX

ขอบคุณที่อ่านครับ - ถ้ามีคำถามอะไรถามได้เลย!


References

แชร์บทความ

เนื้อหานี้มีประโยชน์ไหม? ช่วยสนับสนุนค่ากาแฟให้ผู้เขียนสักแก้ว

Buy Me a Coffee
Loading...