Qwen3.5-35B-A3B: "Quái thú" Code mới hay chỉ là một cú lùa gà khác?

Ngày xưa hồi tôi còn làm Dev lương ba cọc ba đồng, mỗi lần nghe mấy ông Big Tech quảng cáo AI "thay đổi thế giới" là tôi lại cười khẩy. Toàn bánh vẽ để lùa anh em nạp tiền hàng tháng chứ béo bở gì. Nhưng dạo gần đây, có một con hàng tên là Qwen3.5-35B-A3B đang khiến giới mộ điệu LocalLLaMA nháo nhào. Liệu đây là "gamechanger" thật sự hay lại là một pha ảo thuật thông số?

Tóm tắt vụ úp sọt: Khi "hàng Tàu" Qwen3.5 đập tan định kiến

Chuyện là có một ông Dev trên Reddit vừa lôi con Qwen3.5 bản 35B về "tra tấn" trên con card RTX 3090 ghẻ (đùa thôi, card đó vẫn là ước mơ của khối anh em). Và kết quả làm lão ấy sốc đến mức phải lên bài ngay lập tức. Dưới đây là mấy điểm cốt yếu cho anh em lười đọc:

Tốc độ bàn thờ: Chạy trên Linux, dùng llama.cpp mà nó bắn ra hơn 100 tokens/giây (t/s). Tầm này thì đọc code chưa kịp chớp mắt nó đã viết xong rồi.
Vượt qua bài test tuyển dụng: Lão này lấy luôn cái bài test tuyển Mobile Dev (thứ mà trước AI một Dev cứng phải mất 5 tiếng mới xong) để thử lửa. Kết quả? Qwen3.5 xử gọn trong 10 phút.
Vả vỡ mặt demo của OpenAI: Cái dashboard mà OpenAI dùng để khoe Cursor hồi hè năm ngoái, con Qwen này tái hiện lại trong vòng đúng 5 phút.
Ăn RAM vừa phải: Ngốn khoảng 22GB VRAM. Tức là anh em chỉ cần một con card đồ họa đời cũ một chút hoặc dàn máy workstation cỏ là đã có thể tự nuôi một con "đệ" code thiện chiến tại gia.

Giang hồ mạng dậy sóng: Kẻ khen nức nở, người chê "ảo ma"

Dưới bài post, anh em Dev khắp nơi nhảy vào combat và chia sẻ trải nghiệm cũng xôm tụ không kém:

Phe cuồng tốc độ: Có ông khoe dùng RTX 5090 (hàng khủng) đẩy lên tận 180 t/s. Tầm này thì AI nó code nhanh hơn cả tốc độ não người kịp nghĩ ra bug.
Phe hoài nghi nhân sinh: Một vài anh em than thở rằng dù đọc code rất thông minh nhưng khi bảo nó tự tay sửa file (tool use) thì nó lại "ngáo ngơ", hay làm hỏng cấu trúc file.
Phe chuyên gia tinh chỉnh: Các thánh vọc vạch thì phản pháo ngay: "Do các ông không biết set tham số thôi!". Hóa ra con Qwen này cực kỳ nhạy cảm với các thông số như temperature hay top_p. Chỉ cần chỉnh lệch một tí là nó từ thiên tài biến thành kẻ học việc ngay.
Phe so sánh thực dụng: Nhiều người khẳng định ở mảng coding, nó đã tiệm cận trình độ của Claude 3.5 Sonnet - con hàng được coi là "vua code" hiện nay. Điểm yếu duy nhất là kiến thức nền đôi khi hơi nông, nhưng bù lại nó biết tìm kiếm web rất tốt thay vì ngồi bốc phét (hallucination).

Góc nhìn từ WorkCloud: Bài học sinh tồn cho SME và Dev

Nói thật với anh em, nhìn cái cảnh thiên hạ nô nức khoe AI mã nguồn mở (open weights) mà tôi thấy mừng cho mấy ông doanh nghiệp vừa và nhỏ (SME).

Tại sao? Vì trước đây muốn dùng AI xịn là phải cúng tiền cho OpenAI, Anthropic theo đầu người. SME mà có chục ông Dev là mỗi tháng bay ngay mấy triệu tiền phí, mà dữ liệu thì lại cứ phải đẩy lên cloud của bọn nó, lo ngay ngáy vụ bảo mật.

Với những con hàng như Qwen3.5, tư duy thực dụng lên ngôi:

Chi phí rẻ mạt: Đầu tư một cái server cỏ hoặc tận dụng máy cũ là có AI dùng riêng cho công ty, không lo trả phí hàng tháng.
Tốc độ là tiền bạc: Thay vì ngồi đợi AI cloud phản hồi, anh em dùng local model nó phản hồi trong tích tắc, flow làm việc mượt mà hơn hẳn.

Tại WorkCloud, chúng tôi luôn hướng tới việc giúp SME tiếp cận công nghệ đỉnh cao với chi phí tối ưu nhất. Nếu anh em coi AI là cái động cơ, thì những nền tảng như WorkCloud chính là bộ khung giúp vận hành cả doanh nghiệp trơn tru. Đừng mải mê chạy theo những thứ hào nhoáng, đắt đỏ khi mà "hàng ngon bổ rẻ" ngay trước mắt đang ngày càng hoàn thiện.

Chốt lại: Đừng nghe quảng cáo, hãy cứ tự mình cài thử, test thử. Nếu con Qwen này giúp anh em bớt được 1-2 tiếng fix bug mỗi ngày để đi uống trà đá thì tội gì mà không thử, đúng không?

Nguồn: Reddit - Qwen3.5-35B-A3B is a gamechanger for agentic coding

Tóm tắt vụ úp sọt: Khi "hàng Tàu" Qwen3.5 đập tan định kiến

Tốc độ bàn thờ: Chạy trên Linux, dùng llama.cpp mà nó bắn ra hơn 100 tokens/giây (t/s). Tầm này thì đọc code chưa kịp chớp mắt nó đã viết xong rồi.

Vượt qua bài test tuyển dụng: Lão này lấy luôn cái bài test tuyển Mobile Dev (thứ mà trước AI một Dev cứng phải mất 5 tiếng mới xong) để thử lửa. Kết quả? Qwen3.5 xử gọn trong 10 phút.

Vả vỡ mặt demo của OpenAI: Cái dashboard mà OpenAI dùng để khoe Cursor hồi hè năm ngoái, con Qwen này tái hiện lại trong vòng đúng 5 phút.

Ăn RAM vừa phải: Ngốn khoảng 22GB VRAM. Tức là anh em chỉ cần một con card đồ họa đời cũ một chút hoặc dàn máy workstation cỏ là đã có thể tự nuôi một con "đệ" code thiện chiến tại gia.

Giang hồ mạng dậy sóng: Kẻ khen nức nở, người chê "ảo ma"

Dưới bài post, anh em Dev khắp nơi nhảy vào combat và chia sẻ trải nghiệm cũng xôm tụ không kém:

Phe cuồng tốc độ: Có ông khoe dùng RTX 5090 (hàng khủng) đẩy lên tận 180 t/s. Tầm này thì AI nó code nhanh hơn cả tốc độ não người kịp nghĩ ra bug.

Phe hoài nghi nhân sinh: Một vài anh em than thở rằng dù đọc code rất thông minh nhưng khi bảo nó tự tay sửa file (tool use) thì nó lại "ngáo ngơ", hay làm hỏng cấu trúc file.

Phe chuyên gia tinh chỉnh: Các thánh vọc vạch thì phản pháo ngay: "Do các ông không biết set tham số thôi!". Hóa ra con Qwen này cực kỳ nhạy cảm với các thông số như temperature hay top_p. Chỉ cần chỉnh lệch một tí là nó từ thiên tài biến thành kẻ học việc ngay.

Phe so sánh thực dụng: Nhiều người khẳng định ở mảng coding, nó đã tiệm cận trình độ của Claude 3.5 Sonnet - con hàng được coi là "vua code" hiện nay. Điểm yếu duy nhất là kiến thức nền đôi khi hơi nông, nhưng bù lại nó biết tìm kiếm web rất tốt thay vì ngồi bốc phét (hallucination).

Góc nhìn từ WorkCloud: Bài học sinh tồn cho SME và Dev

Nói thật với anh em, nhìn cái cảnh thiên hạ nô nức khoe AI mã nguồn mở (open weights) mà tôi thấy mừng cho mấy ông doanh nghiệp vừa và nhỏ (SME).

Với những con hàng như Qwen3.5, tư duy thực dụng lên ngôi:

Chi phí rẻ mạt: Đầu tư một cái server cỏ hoặc tận dụng máy cũ là có AI dùng riêng cho công ty, không lo trả phí hàng tháng.

Tốc độ là tiền bạc: Thay vì ngồi đợi AI cloud phản hồi, anh em dùng local model nó phản hồi trong tích tắc, flow làm việc mượt mà hơn hẳn.