Bản cập nhật "cuối cùng" của Qwen 3.5 từ Unsloth: Khi AI được vắt chanh để tiết kiệm RAM

Lại là mấy ông thần Unsloth và cái bài văn "bản cập nhật cuối cùng". Nghe nó cứ quen quen như kiểu anh em dev mình thề bỏ nhậu sau mỗi lần fix bug xuyên đêm, hoặc đặt tên file là final_v2_fix_last_hope.zip vậy. Nhưng lần này, có vẻ như họ làm thật và mang tới một đống đồ chơi cực xịn cho cộng đồng Local LLM.

Tóm tắt vụ "buff giáp" cho Qwen 3.5: Nhỏ mà có võ

Nếu ông nào chưa biết thì Unsloth là hội chuyên đi "độ" AI, giúp các model ngôn ngữ lớn (LLM) chạy nhanh hơn và ăn ít RAM hơn. Lần này họ nhắm vào Qwen 3.5 - con hàng đang làm mưa làm gió của nhà Alibaba. Dưới đây là mấy điểm cốt lõi anh em cần hóng:

Bộ Dataset "Chính chủ" mới: Toàn bộ các file GGUF giờ đều dùng dataset imatrix mới để calibration. Hiểu đơn giản là họ huấn luyện lại cách nén để model thông minh hơn khi chat, code và gọi tool (tool-calling).
Giảm Max KLD (Sai số nén) cực mạnh: Đây là cái ăn tiền nhất. Ví dụ bản UD-Q4_K_XL nặng hơn bản cũ 8% nhưng lại giảm sai số tới 51%. Tức là độ thông minh tiệm cận hàng gốc nhưng chạy nhẹ như bay.
Hỗ trợ "Thinking" trên LM Studio: Giờ anh em có thể bật chế độ suy nghĩ (tương tự như mấy con DeepSeek R1) ngay trên LM Studio với các bản GGUF của Unsloth.
Tối ưu cho phần cứng "nhà nghèo": Họ thay các layer BF16 bằng F16 để mấy con GPU đời cũ hoặc CPU không hỗ trợ tập lệnh mới vẫn có thể chạy mượt, không bị báo lỗi hay sập server giữa chừng.
Đội hình ra sân: Cập nhật đủ các size từ 35B, 122B cho đến con quái vật 397B.

Giang hồ mạng nói gì về cú "chốt hạ" này?

Dân tình trên Reddit (LocalLLaMA) đang bàn tán xôn xao, chủ yếu là vào thả tim cho đội Unsloth vì làm việc quá trâu bò:

Phe nghi ngờ: Một ông tên spaceman_ vào khịa ngay: "Cái chữ Final này nghe giống qwen3.5_gguf_final_final_v2 quá, đừng có jinx nhé!". Tác giả cũng phải vào cười khổ thừa nhận là chưa biết chừng sau này hứng lên lại update tiếp.
Phe đòi hỏi: Nhiều anh em vẫn đang hóng bản Coder (dành riêng cho dân dev) và các bản nhỏ hơn (9B trở xuống) để chạy trên điện thoại hoặc máy tính văn phòng.
Phe cảm động: Mọi người cũng dành lời khen cho team Qwen (Alibaba) vì đã làm việc xuyên đêm, không ngủ để release model cho cộng đồng Open Source.

Góc nhìn từ WorkCloud: Đừng chạy đua vũ trang, hãy chọn "vừa miếng"

Nhìn cái cách Unsloth tối ưu từng MB RAM, giảm từng % sai số, tôi lại thấy nó cực kỳ thực tế cho các doanh nghiệp SME tại Việt Nam.

Nhiều ông cứ nghe đồn AI là phải đầu tư server hàng tỷ đồng, thuê chuyên gia lương nghìn đô. Nhưng thực tế, với những bản nén cực xịn như thế này, một doanh nghiệp có thể tự chạy một con chatbot hỗ trợ khách hàng hoặc hỗ trợ dev nội bộ trên một chiếc máy tính workstation tầm trung.

Tại WorkCloud, chúng tôi cũng mang tư duy thực dụng này vào vận hành. Thay vì dùng những giải pháp cồng kềnh, đắt đỏ, chúng tôi tập trung vào việc tối ưu quy trình và tiếp cận công nghệ theo cách "vắt chanh" hiệu quả nhất. AI không cần phải là một thứ gì đó quá cao siêu, nó chỉ cần chạy mượt, trả lời đúng và... rẻ. Qwen 3.5 được Unsloth tối ưu chính là minh chứng: Công nghệ đỉnh cao hoàn toàn có thể tiếp cận được với chi phí cực kỳ dễ thở.

Nguồn: Reddit - Final Qwen3.5 Unsloth GGUF Update!

Tóm tắt vụ "buff giáp" cho Qwen 3.5: Nhỏ mà có võ

Bộ Dataset "Chính chủ" mới: Toàn bộ các file GGUF giờ đều dùng dataset imatrix mới để calibration. Hiểu đơn giản là họ huấn luyện lại cách nén để model thông minh hơn khi chat, code và gọi tool (tool-calling).

Giảm Max KLD (Sai số nén) cực mạnh: Đây là cái ăn tiền nhất. Ví dụ bản UD-Q4_K_XL nặng hơn bản cũ 8% nhưng lại giảm sai số tới 51%. Tức là độ thông minh tiệm cận hàng gốc nhưng chạy nhẹ như bay.

Hỗ trợ "Thinking" trên LM Studio: Giờ anh em có thể bật chế độ suy nghĩ (tương tự như mấy con DeepSeek R1) ngay trên LM Studio với các bản GGUF của Unsloth.

Tối ưu cho phần cứng "nhà nghèo": Họ thay các layer BF16 bằng F16 để mấy con GPU đời cũ hoặc CPU không hỗ trợ tập lệnh mới vẫn có thể chạy mượt, không bị báo lỗi hay sập server giữa chừng.

Đội hình ra sân: Cập nhật đủ các size từ 35B, 122B cho đến con quái vật 397B.

Giang hồ mạng nói gì về cú "chốt hạ" này?

Dân tình trên Reddit (LocalLLaMA) đang bàn tán xôn xao, chủ yếu là vào thả tim cho đội Unsloth vì làm việc quá trâu bò:

Phe nghi ngờ: Một ông tên spaceman_ vào khịa ngay: "Cái chữ Final này nghe giống qwen3.5_gguf_final_final_v2 quá, đừng có jinx nhé!". Tác giả cũng phải vào cười khổ thừa nhận là chưa biết chừng sau này hứng lên lại update tiếp.

Phe đòi hỏi: Nhiều anh em vẫn đang hóng bản Coder (dành riêng cho dân dev) và các bản nhỏ hơn (9B trở xuống) để chạy trên điện thoại hoặc máy tính văn phòng.

Phe cảm động: Mọi người cũng dành lời khen cho team Qwen (Alibaba) vì đã làm việc xuyên đêm, không ngủ để release model cho cộng đồng Open Source.

Góc nhìn từ WorkCloud: Đừng chạy đua vũ trang, hãy chọn "vừa miếng"

Nhìn cái cách Unsloth tối ưu từng MB RAM, giảm từng % sai số, tôi lại thấy nó cực kỳ thực tế cho các doanh nghiệp SME tại Việt Nam.