Skip to main content

5 posts tagged with "homelab"

View All Tags

DGX Spark: เมื่อ spec แรงไม่ได้แปลว่า run ได้ทันที

· 25 min read

ตอน DGX Spark มาถึงบ้าน ผมตื่นเต้นมาก — GB10 chip, 128GB unified memory, Blackwell architecture ผมคิดว่า "แค่เสียบปลั๊ก ติดตั้ง vLLM ก็ให้บริการ LLM ได้แรงๆ แล้ว" — แต่ความจริงหาเป็นแบบนั้นไม่

DGX Spark ไม่ใช่เครื่อง plug-and-play มันเป็นเครื่องสำหรับคนที่พร้อมจะเรียนรู้ - เรียนรู้เรื่อง serving engines, โครงสร้างของ model, รูปแบบ quantization และอีกหลายเรื่อง ก่อนที่จะดึงพลังออกมาได้เต็มที่

การเดินทางนี้กินเวลาหลายวัน ผมต้องศึกษา vLLM, llama.cpp, ความแตกต่างระหว่าง MoE กับ Dense, quantization ทุกแบบ (FP4, FP8, BF16, NVFP4) จนในที่สุดก็เข้าใจว่าทำไมคนอื่นถึงบอกว่า "DGX เป็นเครื่องสำหรับนักพัฒนาที่ใช้เฉพาะทาง"

DGX Spark: First Impression - เมื่อซื้อเครื่อง AI มา แล้วได้เรียนรู้มากกว่าที่คิด

· 13 min read

หลังจากยุ่งกับการทดลอง model + tune config + debug API มาเกือบอาทิตย์แล้ว วันนี้ได้ฤกษ์นั่งเขียนรีวิว DGX Spark ที่ซื้อมา จะเล่าแบบตรงๆ ตามประสบการณ์จริงทั้งข้อดีและข้อเสีย ไม่มี hype ไม่มี marketing — แค่ "ซื้อมา ใช้มา เจออะไรมา" ครับ

Note: เครื่องที่ผมได้MSI EdgeXpert MS-C931 (รหัส SKU: 60STH-BGB104TG5) ใช้ chip NVIDIA GB10 Grace Blackwell เหมือนกับ NVIDIA DGX Spark แต่ MSI อ้างว่า thermal design ดีกว่า ทำให้เร็วกว่า 5-10% ในงานส่วนใหญ่

เมื่อ timeout ไม่ใช่ปัญหา แต่ cache เป็นพระเอก: LiteLLM + DGX Spark Journey

· 9 min read

เรื่องมันเริ่มจากปัญหาที่น่ารำคาญมากตอนเที่ยงคืนครับ API ที่ผมใช้รัน backtest trading bot มัน timeout แบบสุ่ม — บาง call ผ่าน บาง call ไม่ผ่าน แถมพอลองยิง prompt เดิมซ้ำ ก็ได้ output กลับมาทันที ฟังดูขัดแย้งใช่ไหมครับ?

ผมใช้เวลาทั้งคืนไล่หาสาเหตุ จนในที่สุดก็พบว่า ปัญหาไม่ได้อยู่ที่ vLLM ไม่ได้อยู่ที่ DGX Spark และไม่ได้อยู่ที่ model เลย — มันอยู่ที่ LiteLLM proxy layer ที่ผมตั้งใจใช้เป็น "แค่ทางผ่าน" ตั้งแต่ต้น

LiteLLM Proxy: วาง Gateway ครอบ LLM ให้ทีมใช้งานแบบมีระบบ

· 13 min read

intro

ผมรัน LLM เองบน homelab มาสักพัก

เริ่มจาก llama.cpp บนเครื่องสเปกต่ำ ถามอะไรก็ตอบได้

แล้วขยับมา vLLM ที่ throughput สูงกว่า รับ request พร้อมกันได้มากกว่า

ทุกอย่างดูดี จนกระทั่งวันหนึ่งเพื่อนร่วมงานถามว่า

"ขอใช้ด้วยได้ไหม?"

ผมก็เลยเปิด port ให้เพื่อนยิง request ตรงเข้ามา

ผ่านไปสักพัก ก็เริ่มเจอปัญหา

ไม่รู้ว่าใครใช้ไปเท่าไหร่ — ไม่มี log ไม่มี metric รู้แค่ GPU ทำงานหนักขึ้น

ไม่มี API key แยกคน — ทุกคนใช้ key เดียวกัน ถ้า key หลุดก็จบเลย

ไม่มี rate limit — มีคนส่ง request ต่อเนื่อง ทำให้คนอื่นรอคิวนาน

ไม่มี cache — คำถามซ้ำๆ ถูกส่งไป LLM ทุกครั้ง เสียทรัพยากรโดยไม่จำเป็น

backend ล่มที ทุกอย่างก็หยุดทำงาน — ไม่มี fallback ไม่มี retry

ถ้าจะเขียนระบบจัดการเองก็ทำได้ แต่ต้องมานั่งทำ auth, logging, rate limit, cache, dashboard...

ไม่ใช่งานที่ผมอยากทำ

แค่อยากให้ทีมใช้ LLM ได้สะดวก โดยที่ยังคุมทุกอย่างได้

Hermes + Honcho หลายเครื่อง สมองเดียว - ออกแบบ Architecture สำหรับ Homelab

· 7 min read

ผมมี ThinkPad T14 เป็นเครื่องหลัก รัน Hermes Agent คุยผ่าน Telegram ทุกวัน จน Honcho memory เริ่มมีข้อมูลเยอะขึ้นเรื่อย ๆ — AI จำผมได้จริง ๆ ไม่ใช่แค่จำ facts แต่เข้าใจ context

แล้ววันหนึ่งก็คิดขึ้นได้: ผมมี X13 อีกเครื่อง มี server Proxmox ใน homelab อีกตัว ทำไมไม่ให้ทุกเครื่องมี AI assistant ของตัวเองบ้าง?