Trong vài năm gần đây, Cloudflare không chỉ nổi tiếng với CDN, bảo mật và tối ưu hóa mạng mà còn mở rộng mạnh mẽ sang lĩnh vực AI inference và edge AI. Với nền tảng Workers AI, Cloudflare cho phép developer chạy các mô hình AI trực tiếp trên hệ thống edge của họ mà không cần xây dựng hạ tầng GPU phức tạp.
Đối với các doanh nghiệp công nghệ và các đơn vị triển khai giải pháp cloud như LionTech – đối tác (partner) của Cloudflare trong lĩnh vực hạ tầng và nền tảng cloud, sự phát triển của Workers AI mở ra nhiều cơ hội mới trong việc xây dựng các hệ thống AI có khả năng mở rộng cao, độ trễ thấp và triển khai nhanh chóng trên quy mô toàn cầu.
Mới đây, Cloudflare đã công bố một cập nhật đáng chú ý: mô hình NVIDIA Nemotron-3 Super chính thức được hỗ trợ trên Workers AI. Đây là một mô hình ngôn ngữ lớn được thiết kế tối ưu cho các hệ thống AI agents, reasoning tasks và automation workflows.
Sự xuất hiện của Nemotron-3 Super trên Workers AI mở ra nhiều cơ hội mới cho developer khi xây dựng các ứng dụng AI có khả năng mở rộng, chạy gần người dùng hơn và có độ trễ thấp hơn so với các kiến trúc AI truyền thống.

Bài viết này sẽ giúp bạn hiểu rõ:
- Workers AI của Cloudflare là gì
- NVIDIA Nemotron-3 Super là mô hình AI như thế nào
- Kiến trúc Mixture-of-Experts và Mamba-Transformer
- Các khả năng nổi bật của Nemotron-3 Super
- Công nghệ Multi-Token Prediction giúp tăng tốc inference
- Context window 32K tokens cho AI workflows
- Cách sử dụng Nemotron-3 Super trên Workers AI
- Ứng dụng thực tế trong AI agents và automation systems
1. Workers AI của Cloudflare là gì
Workers AI là nền tảng cho phép developer chạy các mô hình AI trực tiếp trên mạng lưới edge toàn cầu của Cloudflare.
Thay vì phải:
- Xây dựng server GPU
- Triển khai hạ tầng inference
- Quản lý scaling và latency
developer chỉ cần gọi API của Workers AI để sử dụng mô hình AI.
Workers AI mang lại nhiều lợi ích:
- Latency thấp: Model chạy gần người dùng nhờ mạng lưới edge toàn cầu của Cloudflare.
- Không cần quản lý hạ tầng: Developer chỉ tập trung vào logic ứng dụng.
- Tích hợp trực tiếp với Cloudflare Workers: Có thể kết hợp AI với hệ thống serverless.
Nhờ vậy, Workers AI trở thành nền tảng lý tưởng để xây dựng:
- chatbot
- AI assistants
- AI agents
- Automation workflows
- Semantic search
- Document processing
Trong các dự án triển khai hệ thống AI và cloud hiện đại, LionTech thường kết hợp Workers AI với các dịch vụ edge và serverless của Cloudflare để xây dựng các hệ thống AI có khả năng mở rộng cao và tối ưu hiệu suất toàn cầu.
2. Nemotron-3 Super – mô hình AI mới từ NVIDIA
Nemotron-3 Super là một mô hình ngôn ngữ lớn được phát triển bởi NVIDIA, được thiết kế cho các tác vụ AI nâng cao như reasoning, tool usage và multi-step workflows.
Theo thông tin từ Cloudflare, Nemotron-3 Super có:
- 120B parameters tổng
- 12B parameters active trong mỗi lần inference
Điều này có nghĩa mô hình sử dụng kiến trúc Mixture-of-Experts (MoE) để kích hoạt một phần nhỏ các tham số trong mỗi lần chạy.
Cách tiếp cận này giúp:
- Giảm chi phí tính toán
- Tăng tốc inference
- Vẫn giữ hiệu năng cao
Nemotron-3 Super được tối ưu đặc biệt cho:
- AI agents
- Reasoning tasks
- Instruction following
- Tool calling
Đây là những yếu tố rất quan trọng trong các hệ thống AI hiện đại.
3. Kiến trúc Mixture-of-Experts và Mamba-Transformer
Một điểm nổi bật của Nemotron-3 Super là việc sử dụng kiến trúc Mixture-of-Experts (MoE).
Trong kiến trúc này, mô hình bao gồm nhiều “expert networks”, nhưng mỗi lần inference chỉ kích hoạt một số expert cần thiết.
Lợi ích của MoE bao gồm:
- Giảm chi phí GPU
- Tăng hiệu suất inference
- Mở rộng quy mô mô hình hiệu quả hơn
Ngoài ra, Nemotron-3 Super còn sử dụng kiến trúc Mamba-Transformer hybrid.
Sự kết hợp này mang lại:
- Khả năng xử lý chuỗi dài tốt hơn
- Hiệu suất cao hơn so với transformer truyền thống
- Tối ưu cho AI workflows phức tạp
Nhờ vậy, model có thể xử lý các tác vụ yêu cầu nhiều bước suy luận.
4. Các khả năng nổi bật của Nemotron-3 Super
Nemotron-3 Super được thiết kế để phục vụ nhiều tác vụ AI phức tạp.
4.1 Reasoning
Model có khả năng suy luận nhiều bước, phù hợp cho:
- AI agents
- Problem solving
- Logic tasks
4.2 Instruction Following
Model có thể hiểu và thực thi các chỉ dẫn phức tạp từ người dùng.
Điều này giúp nó phù hợp với:
- AI assistants
- Workflow automation
- Coding assistants
4.3 Tool Calling
Nemotron-3 Super được tối ưu để tương tác với các công cụ bên ngoài.
Ví dụ:
- API calls
- Database queries
- Automation systems
Đây là yếu tố quan trọng khi xây dựng AI agents hiện đại.
5. Multi-Token Prediction giúp tăng tốc AI
Một công nghệ quan trọng trong Nemotron-3 Super là Multi-Token Prediction (MTP).
Trong các mô hình ngôn ngữ truyền thống, model thường dự đoán từng token một.
Multi-Token Prediction cho phép model dự đoán nhiều token cùng lúc, giúp:
- Tăng tốc độ sinh văn bản
- Giảm latency
- Cải thiện hiệu suất inference
Điều này đặc biệt quan trọng khi triển khai AI trên edge hoặc trong các hệ thống realtime.
6. Context window 32K tokens
Nemotron-3 Super hỗ trợ context window lên đến 32K tokens.
Điều này giúp model có thể xử lý:
- Tài liệu dài
- Conversation history
- Complex workflows
Ví dụ trong các ứng dụng như:
- Document analysis
- Knowledge assistants
- AI research tools
context window lớn giúp model hiểu nhiều thông tin hơn trong một lần inference.
7. Cách sử dụng Nemotron-3 Super trên Workers AI
Developer có thể sử dụng Nemotron-3 Super thông qua Workers AI API.
Ví dụ trong Cloudflare Worker:
const response = await env.AI.run(
"@cf/nvidia/nemotron-3-super-120b-a12b",
{
prompt: "Explain how edge AI works."
}
);
Cloudflare cũng cung cấp:
- REST API
- OpenAI-compatible endpoint
Điều này giúp developer dễ dàng tích hợp Nemotron-3 Super vào các hệ thống hiện có.
8. Ứng dụng thực tế trong AI agents và automation
Sự xuất hiện của Nemotron-3 Super trên Workers AI mở ra nhiều ứng dụng thực tế.
8.1 AI Agents
Developer có thể xây dựng các hệ thống AI có khả năng:
- Lập kế hoạch
- Sử dụng công cụ
- Thực hiện nhiều bước xử lý
8.2 Automation Systems
AI có thể tự động hóa các quy trình như:
- Data analysis
- Customer support
- Internal workflows
8.3 Developer Tools
Nemotron-3 Super cũng có thể được dùng cho:
- Coding assistants
- Debugging tools
- Documentation generation
Trong các hệ thống AI hiện đại, nhiều doanh nghiệp đang triển khai các AI agents kết hợp Workers AI và edge computing, giúp tối ưu hiệu suất và giảm độ trễ. Đây cũng là hướng tiếp cận được LionTech áp dụng trong các dự án triển khai AI và cloud cho doanh nghiệp, đặc biệt trong các hệ thống automation và AI-driven platforms.
Kết luận
Việc Cloudflare đưa NVIDIA Nemotron-3 Super vào Workers AI đánh dấu một bước tiến quan trọng trong việc đưa các mô hình AI mạnh mẽ đến gần hơn với developer.
Với kiến trúc Mixture-of-Experts, công nghệ Multi-Token Prediction và context window 32K tokens, Nemotron-3 Super được tối ưu cho các hệ thống AI agents, reasoning workflows và automation platforms.
Khi kết hợp với hạ tầng edge của Cloudflare, các mô hình AI có thể chạy với độ trễ thấp, khả năng mở rộng cao và chi phí tối ưu, giúp developer xây dựng các ứng dụng AI hiện đại một cách nhanh chóng.
Với vai trò là đối tác của Cloudflare, LionTech luôn theo sát các cập nhật mới trong hệ sinh thái Cloudflare và AI để hỗ trợ doanh nghiệp triển khai các nền tảng cloud, edge computing và AI agents một cách hiệu quả, giúp tăng tốc quá trình chuyển đổi số và xây dựng các hệ thống thông minh trong tương lai.
Liên hệ với LionTech tại:
- SDT: (+84) 098 269 1932
- Email: support@liontech.vn
- Website: liontech.vn
- Fanpage: facebook.com/liontech.vn
- Linked In: company/liontech-vn
Nguồn: Cloudflare Developers
Câu hỏi thường gặp
GA360 có thể lưu trữ dữ liệu lên đến 50 tháng, trong khi GA4 miễn phí chỉ lưu tối đa 14 tháng.
