XIN CHÀO!

Chào mừng bạn đến với LionTech

THEO DÕI CHÚNG TÔI

NVIDIA Nemotron-3 Super xuất hiện trên Cloudflare Workers AI: Bước tiến mới cho AI Agents

Cloudflare
Mar 30, 2026
NVIDIA Nemotron-3 Super xuất hiện trên Cloudflare Workers AI: Bước tiến mới cho AI Agents

Trong vài năm gần đây, Cloudflare không chỉ nổi tiếng với CDN, bảo mật và tối ưu hóa mạng mà còn mở rộng mạnh mẽ sang lĩnh vực AI inference và edge AI. Với nền tảng Workers AI, Cloudflare cho phép developer chạy các mô hình AI trực tiếp trên hệ thống edge của họ mà không cần xây dựng hạ tầng GPU phức tạp.

Đối với các doanh nghiệp công nghệ và các đơn vị triển khai giải pháp cloud như LionTech – đối tác (partner) của Cloudflare trong lĩnh vực hạ tầng và nền tảng cloud, sự phát triển của Workers AI mở ra nhiều cơ hội mới trong việc xây dựng các hệ thống AI có khả năng mở rộng cao, độ trễ thấp và triển khai nhanh chóng trên quy mô toàn cầu.

Mới đây, Cloudflare đã công bố một cập nhật đáng chú ý: mô hình NVIDIA Nemotron-3 Super chính thức được hỗ trợ trên Workers AI. Đây là một mô hình ngôn ngữ lớn được thiết kế tối ưu cho các hệ thống AI agents, reasoning tasks và automation workflows.

Sự xuất hiện của Nemotron-3 Super trên Workers AI mở ra nhiều cơ hội mới cho developer khi xây dựng các ứng dụng AI có khả năng mở rộng, chạy gần người dùng hơn và có độ trễ thấp hơn so với các kiến trúc AI truyền thống.

Cloudflare Workers AI

Bài viết này sẽ giúp bạn hiểu rõ:

  • Workers AI của Cloudflare là gì
  • NVIDIA Nemotron-3 Super là mô hình AI như thế nào
  • Kiến trúc Mixture-of-Experts và Mamba-Transformer
  • Các khả năng nổi bật của Nemotron-3 Super
  • Công nghệ Multi-Token Prediction giúp tăng tốc inference
  • Context window 32K tokens cho AI workflows
  • Cách sử dụng Nemotron-3 Super trên Workers AI
  • Ứng dụng thực tế trong AI agents và automation systems

1. Workers AI của Cloudflare là gì

Workers AI là nền tảng cho phép developer chạy các mô hình AI trực tiếp trên mạng lưới edge toàn cầu của Cloudflare.

Thay vì phải:

  • Xây dựng server GPU
  • Triển khai hạ tầng inference
  • Quản lý scaling và latency

developer chỉ cần gọi API của Workers AI để sử dụng mô hình AI.

Workers AI mang lại nhiều lợi ích:

  • Latency thấp: Model chạy gần người dùng nhờ mạng lưới edge toàn cầu của Cloudflare.
  • Không cần quản lý hạ tầng: Developer chỉ tập trung vào logic ứng dụng.
  • Tích hợp trực tiếp với Cloudflare Workers: Có thể kết hợp AI với hệ thống serverless.

Nhờ vậy, Workers AI trở thành nền tảng lý tưởng để xây dựng:

  • chatbot
  • AI assistants
  • AI agents
  • Automation workflows
  • Semantic search
  • Document processing

Trong các dự án triển khai hệ thống AI và cloud hiện đại, LionTech thường kết hợp Workers AI với các dịch vụ edge và serverless của Cloudflare để xây dựng các hệ thống AI có khả năng mở rộng cao và tối ưu hiệu suất toàn cầu.

2. Nemotron-3 Super – mô hình AI mới từ NVIDIA

Nemotron-3 Super là một mô hình ngôn ngữ lớn được phát triển bởi NVIDIA, được thiết kế cho các tác vụ AI nâng cao như reasoning, tool usage và multi-step workflows.

Theo thông tin từ Cloudflare, Nemotron-3 Super có:

  • 120B parameters tổng
  • 12B parameters active trong mỗi lần inference

Điều này có nghĩa mô hình sử dụng kiến trúc Mixture-of-Experts (MoE) để kích hoạt một phần nhỏ các tham số trong mỗi lần chạy.

Cách tiếp cận này giúp:

  • Giảm chi phí tính toán
  • Tăng tốc inference
  • Vẫn giữ hiệu năng cao

Nemotron-3 Super được tối ưu đặc biệt cho:

  • AI agents
  • Reasoning tasks
  • Instruction following
  • Tool calling

Đây là những yếu tố rất quan trọng trong các hệ thống AI hiện đại.

3. Kiến trúc Mixture-of-Experts và Mamba-Transformer

Một điểm nổi bật của Nemotron-3 Super là việc sử dụng kiến trúc Mixture-of-Experts (MoE).

Trong kiến trúc này, mô hình bao gồm nhiều “expert networks”, nhưng mỗi lần inference chỉ kích hoạt một số expert cần thiết.

Lợi ích của MoE bao gồm:

  • Giảm chi phí GPU
  • Tăng hiệu suất inference
  • Mở rộng quy mô mô hình hiệu quả hơn

Ngoài ra, Nemotron-3 Super còn sử dụng kiến trúc Mamba-Transformer hybrid.

Sự kết hợp này mang lại:

  • Khả năng xử lý chuỗi dài tốt hơn
  • Hiệu suất cao hơn so với transformer truyền thống
  • Tối ưu cho AI workflows phức tạp

Nhờ vậy, model có thể xử lý các tác vụ yêu cầu nhiều bước suy luận.

4. Các khả năng nổi bật của Nemotron-3 Super

Nemotron-3 Super được thiết kế để phục vụ nhiều tác vụ AI phức tạp.

4.1 Reasoning

Model có khả năng suy luận nhiều bước, phù hợp cho:

  • AI agents
  • Problem solving
  • Logic tasks

4.2 Instruction Following

Model có thể hiểu và thực thi các chỉ dẫn phức tạp từ người dùng.

Điều này giúp nó phù hợp với:

  • AI assistants
  • Workflow automation
  • Coding assistants

4.3 Tool Calling

Nemotron-3 Super được tối ưu để tương tác với các công cụ bên ngoài.

Ví dụ:

  • API calls
  • Database queries
  • Automation systems

Đây là yếu tố quan trọng khi xây dựng AI agents hiện đại.

5. Multi-Token Prediction giúp tăng tốc AI

Một công nghệ quan trọng trong Nemotron-3 Super là Multi-Token Prediction (MTP).

Trong các mô hình ngôn ngữ truyền thống, model thường dự đoán từng token một.

Multi-Token Prediction cho phép model dự đoán nhiều token cùng lúc, giúp:

  • Tăng tốc độ sinh văn bản
  • Giảm latency
  • Cải thiện hiệu suất inference

Điều này đặc biệt quan trọng khi triển khai AI trên edge hoặc trong các hệ thống realtime.

6. Context window 32K tokens

Nemotron-3 Super hỗ trợ context window lên đến 32K tokens.

Điều này giúp model có thể xử lý:

  • Tài liệu dài
  • Conversation history
  • Complex workflows

Ví dụ trong các ứng dụng như:

  • Document analysis
  • Knowledge assistants
  • AI research tools

context window lớn giúp model hiểu nhiều thông tin hơn trong một lần inference.

7. Cách sử dụng Nemotron-3 Super trên Workers AI

Developer có thể sử dụng Nemotron-3 Super thông qua Workers AI API.

Ví dụ trong Cloudflare Worker:

const response = await env.AI.run(

  "@cf/nvidia/nemotron-3-super-120b-a12b",

  {

    prompt: "Explain how edge AI works."

  }

);

Cloudflare cũng cung cấp:

  • REST API
  • OpenAI-compatible endpoint

Điều này giúp developer dễ dàng tích hợp Nemotron-3 Super vào các hệ thống hiện có.

8. Ứng dụng thực tế trong AI agents và automation

Sự xuất hiện của Nemotron-3 Super trên Workers AI mở ra nhiều ứng dụng thực tế.

8.1 AI Agents

Developer có thể xây dựng các hệ thống AI có khả năng:

  • Lập kế hoạch
  • Sử dụng công cụ
  • Thực hiện nhiều bước xử lý

8.2 Automation Systems

AI có thể tự động hóa các quy trình như:

  • Data analysis
  • Customer support
  • Internal workflows

8.3 Developer Tools

Nemotron-3 Super cũng có thể được dùng cho:

  • Coding assistants
  • Debugging tools
  • Documentation generation

Trong các hệ thống AI hiện đại, nhiều doanh nghiệp đang triển khai các AI agents kết hợp Workers AI và edge computing, giúp tối ưu hiệu suất và giảm độ trễ. Đây cũng là hướng tiếp cận được LionTech áp dụng trong các dự án triển khai AI và cloud cho doanh nghiệp, đặc biệt trong các hệ thống automation và AI-driven platforms.

Kết luận

Việc Cloudflare đưa NVIDIA Nemotron-3 Super vào Workers AI đánh dấu một bước tiến quan trọng trong việc đưa các mô hình AI mạnh mẽ đến gần hơn với developer.

Với kiến trúc Mixture-of-Experts, công nghệ Multi-Token Predictioncontext window 32K tokens, Nemotron-3 Super được tối ưu cho các hệ thống AI agents, reasoning workflows và automation platforms.

Khi kết hợp với hạ tầng edge của Cloudflare, các mô hình AI có thể chạy với độ trễ thấp, khả năng mở rộng cao và chi phí tối ưu, giúp developer xây dựng các ứng dụng AI hiện đại một cách nhanh chóng.

Với vai trò là đối tác của Cloudflare, LionTech luôn theo sát các cập nhật mới trong hệ sinh thái Cloudflare và AI để hỗ trợ doanh nghiệp triển khai các nền tảng cloud, edge computing và AI agents một cách hiệu quả, giúp tăng tốc quá trình chuyển đổi số và xây dựng các hệ thống thông minh trong tương lai.

Liên hệ với LionTech tại:

Nguồn: Cloudflare Developers

Được gắn thẻ bởi:

Câu hỏi thường gặp

GA360 có thể lưu trữ dữ liệu lên đến 50 tháng, trong khi GA4 miễn phí chỉ lưu tối đa 14 tháng.