1. [人工智能](/topics/ai/ai-inference/)

[生成式 AI](/topics/ai/generative-ai)

社区模型

# AI 模型  

探索并部署由社区构建的优质 AI 模型，这些模型通过 [NVIDIA AI 推理平台](https://developer.nvidia.cn/topics/ai/ai-inference?sortBy=developer_learning_library%2Fsort%2Ffeatured_in.inference%3Adesc%2Ctitle%3Aasc)加速，并可在 NVIDIA 加速基础设施上运行。

[探索模型](https://build.nvidia.com/models &quot;vMaterials for Windows&quot;)[查看性能](/deep-learning-performance-training-inference/ai-inference &quot;vMaterials for Linux &quot;)

* * *

## ![AI Model - DeepSeek logo](https://developer.download.nvidia.com/images/pretrained-ai-models/deepseek.svg)DeepSeek

DeepSeek 是一系列开源模型，采用混合专家（MoE）架构，具备强大的多款模型和先进的推理能力。DeepSeek 模型可以通过 TensorRT-LLM 优化性能，适用于数据中心部署。您可以使用 NIM 亲自试用这些模型，或者使用开源的 NeMo 框架进行定制。

#### 探索

探索示例应用，了解 DeepSeek 模型的不同用例。

- 
[社区教程：使用 Docker 和 Ollama 在 NVIDIA Jetson Orin Nano™ Super 上使用 DeepSeek R1 开启旅程](https://dev.to/ajeetraina/my-journey-with-deepseek-r1-on-nvidia-jetson-orin-nano-super-using-docker-and-ollama-1k2m)
- 
[NVIDIA Blackwell 提供创纪录的 DeepSeek-R1 推理性能](https://developer.nvidia.com/zh-cn/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/)

#### 集成

开始使用适合您开发环境的合适工具和框架。

- 
[从 Jetson AI 实验室下载容器](https://www.jetson-ai-lab.com/models.html)
- 
[使用 NeMo 框架，使用您自己的数据自定义 DeepSeek v3](https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html)

#### 优化

使用 TensorRT-LLM 优化 LLM 的推理工作负载。了解如何在 TensorRT-LLM 中设置和开始使用 Llama。

- 
[如何在 TensorRT-LLM 中实现 DeepSeek-R1 的最佳性能](https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/blogs/Best_perf_practice_on_DeepSeek-R1_in_TensorRT-LLM.md)
- 

[使用 TensorRT 模型优化器量化 Deepseek R1 到 FP4](https://github.com/NVIDIA/TensorRT-Model-Optimizer/tree/main/examples/deepseek)  
  
TensorRT Model Optimizer 现在具有可部署到 vLLM 的试验性功能。[查看工作流程](https://github.com/NVIDIA/TensorRT-Model-Optimizer/blob/main/examples/llm_ptq/README.md#deploy-fp8-quantized-model-using-vllm)。

- 
[使用 DeepSeek-R1 和推理时间缩放自动生成 GPU 内核](https://developer.nvidia.com/zh-cn/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/)

开始使用适合您开发环境的模型。

Model 

### 借助 NVIDIA NIM 获取生产就绪型 DeepSeek 模型。

只需 API 调用，即可实现快速原型设计。

[部署生产就绪型 DeepSeek 模型](https://build.nvidia.com/search?q=deepseek)

Model 

### NVIDIA DeepSeek R1 FP4  

NVIDIA DeepSeek R1 FP4 模型是 DeepSeek R1 模型的量化版本，后者是使用优化的 Transformer 架构的自回归语言模型。NVIDIA DeepSeek R1 FP4 模型使用 TensorRT Model Optimizer 进行量化。

[在 Hugging Face 上使用 TensorRT-LLM 进行部署](https://huggingface.co/nvidia/DeepSeek-R1-FP4#deploy-with-tensorrt-llm)

Model 

### Ollama 上的 DeepSeek  
  

Ollama 可让您快速将 DeepSeek 部署到所有 GPU。

[使用 Ollama 部署优化模型](https://huggingface.co/nvidia/Llama-3.1-8B-Instruct-FP8)

[查看更多系列产品](https://build.nvidia.com/search?q=deepseek)

## ![AI Model - Google DeepMind’s Gemma logo](https://developer.download.nvidia.com/images/pretrained-ai-models/gemma.svg)Gemma

Gemma 是 Google DeepMind 的轻量级开放模型系列。Gemma 模型涵盖各种规模和专业领域，可满足每位开发者的独特需求。NVIDIA 与 Google 合作，使这些模型能够在各种 NVIDIA 平台上以最佳方式运行，确保您在硬件上获得更高性能，从数据中心 GPU (如 NVIDIA Blackwell 和 NVIDIA Hopper 架构芯片) 到 Windows RTX 和 Jetson 设备。企业客户可以使用 NVIDIA NIM 微服务部署经过优化的容器，以获得生产级支持，并使用端到端 NeMo 框架进行自定义。随着最新版 Gemma 3n 的发布，这些模型现在可以原生支持多语种和多模态处理文本、图像、视频和音频数据。

#### 探索

探索示例应用，了解 Gemma 模型的不同用例。

- 
[观看 Jetson Orin Nano 上的 Gemma3：以 15 TPS 运行视觉语言模型的现场演示 (含示例)](https://www.youtube.com/watch?v=jSKHeYVcAB8)
- 
[在 NVIDIA Jetson Orin Nano 上观看 Google 的 Gemma2 SLM：对话式边缘 AI 的未来](https://www.youtube.com/watch?v=mgUrthfw3ys)

#### 集成

在您的设备上使用 Gemma，并制作自己的 Gemma。

- 
[从 Jetson AI 实验室下载 Gemma 容器](https://www.jetson-ai-lab.com/models.html)
- 
[通过与 RTX 聊天下载 Gemma GitHub](https://github.com/NVIDIA/ChatRTX)
- 
[使用 NeMo 框架为您的数据自定义 Gemma](https://docs.nvidia.com/nemo-framework/user-guide/24.09/llms/gemma.html)
- 

阅读博客：[在 NVIDIA Jetson 和 RTX 上运行 Google DeepMind 的 Gemma 3n](https://developer.nvidia.com/zh-cn/blog/run-google-deepminds-gemma-3n-on-nvidia-jetson-and-rtx/)

#### 优化

使用 TensorRT-LLM 优化 LLM 的推理工作负载。了解如何在 TensorRT-LLM 中设置和开始使用 Llama。

- 

阅读博客：[NVIDIA TensorRT-LLM 为 Google Gemma 加速推理](https://developer.nvidia.com/zh-cn/blog/nvidia-tensorrt-llm-revs-up-inference-for-google-gemma/)

- 
[借助 Dynamo-Triton™ 和 TensorRT-LLM 在 GKE 上使用 GPU 服务 Gemma 开放模型](https://cloud.google.com/kubernetes-engine/docs/tutorials/serve-gemma-gpu-tensortllm)
- 
[TensorRT-Model-Optimizer 训练后量化指南，兼容 vLLM 和 SGLang](https://github.com/NVIDIA/TensorRT-Model-Optimizer/blob/main/examples/llm_ptq/README.md#deploy-fp8-quantized-model-using-vllm)

开始使用适合您开发环境的模型。

Model 

### 开始使用 NVIDIA NIM 构建 Gemma 模型  

Gemma 3 现已入选 NVIDIA API Catalog，只需调用 API 即可实现快速原型设计。

[试验和部署 Gemma 模型](https://build.nvidia.com/search?q=gemma)

Model 

### Ollama 上的 Gemma 3 模型  

借助 Ollama，您只需几秒钟即可开始在单个 NVIDIA H100 Tensor Core GPU 上运行功能最强大的 Gemma 模型。

[下载 Ollama 上的 Gemma3](https://ollama.com/library/gemma3)

Model 

### Gemma-2b-it ONNX INT4

Gemma-2b-it ONNX INT4 模型通过[TensorRT 模型优化器](https://github.com/NVIDIA/TensorRT-Model-Optimizer)。使用 Hugging Face 的 Transformers 库或您首选的开发环境，根据您的独特需求轻松微调和调整模型。

[在 Hugging Face 上下载](https://huggingface.co/nvidia/Gemma-2b-it-ONNX-INT4)

[查看更多系列产品](https://build.nvidia.com/search?q=gemma)

## ![AI Model - OpenAI’s ChatGPT logo](https://developer.download.nvidia.com/images/logos/logo-openai.svg)gpt-oss

早在 2016 年，NVIDIA 和 OpenAI 就发布了 NVIDIA DGX™，开始突破 AI 的界限。随着 OpenAI gpt-oss-20b 和 gpt - oss-120b 的发布，协作式 AI 创新得以延续。NVIDIA 已在 NVIDIA Blackwell 架构上优化了这两个新的开放权重模型，以加速推理性能，在 NVIDIA GB200 NVL72 系统上每秒可提供高达 150 万个 token (TPS) 。

#### 探索

探索开放模型和示例，了解经 NVIDIA 优化的 gpt-oss 模型的不同用例。

- 

可启动的 NVIDIA：[使用 NVIDIA TensorRT-LLM 优化推理](https://brev.nvidia.com/launchable/deploy?launchableID=env-30i1YjHsRWT109HL6eYxLUeHIwF)

- 

[如何使用 OpenAI 的 gpt-oss-20b 构建简单的 AI 智能体](https://www.youtube.com/watch?v=e2sgwsC92Bc)

- 

阅读博客：[NVIDIA 在 NVIDIA GB200 NVL72 上提供 150 万 TPS 推理，加速从云到边缘的 OpenAI gpt-oss 模型](https://developer.nvidia.com/zh-cnblog/delivering-1-5-m-tps-inference-on-nvidia-gb200-nvl72-nvidia-accelerates-openai-gpt-oss-models-from-cloud-to-edge/)

#### 集成

利用开放式 gpt-oss 模型，为您的开发环境使用合适的工具和框架。

- 

[Ollama RTX 入门：3 步信息图](https://developer.download.nvidia.com/images/pretrained-ai-models/rtx-ai-garage-3-steps-20b.png)

- 

[GGML/llama.cpp GitHub 自述文件](https://github.com/ggml-org/llama.cpp)

- 

[GitHub：Codex CLI - 入门指南](https://github.com/openai/codex)

#### 优化

NVIDIA 已在 NVIDIA Blackwell 架构上优化了这两个新的开放权重模型，以加速推理性能。

- 

[在 OpenAI 的 Cookbook 中使用 NVIDIA TensorRT-LLM 运行 gpt-oss-20b](https://cookbook.openai.com/articles/run-nvidia)

- 

[vLLM 支持 gpt-oss](https://blog.vllm.ai/2025/08/05/gpt-oss.html)

- 

[探索 Eigen AI、NVIDIA、SGLang 和开源社区在 SGLang 协作中的 OpenAI GPT-OSS 模型](https://github.com/sgl-project/sglang/issues/8833)

- 

[Dynamo 部署指南：使用 TensorRT-LLM 分类运行 gpt-oss-120b](https://github.com/ai-dynamo/dynamo/blob/main/components/backends/trtllm/gpt-oss.md)

- 

[适用于 LLM 的 FlashInfer 内核服务库提供优化的注意力和 MoE 路由内核。](https://github.com/flashinfer-ai/flashinfer)

开始使用适用于您开发环境的模型。

Model 

### 借助 NVIDIA NIM 获取生产就绪型 gpt-oss 模型

下载并部署预封装、可移植、优化的 NIM 微服务：

- 

gpt-oss-120b：可供下载[链接](https://build.nvidia.com/openai/gpt-oss-120b/deploy) | [文档](https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-120b)

- 

gpt-oss-20b：可供下载[链接](https://build.nvidia.com/openai/gpt-oss-20b/deploy) | [文档](https://docs.api.nvidia.com/nim/reference/openai-gpt-oss-20b)

Model 

### 在 Hugging Face 上探索 gpt-oss 模型  

NVIDIA 与多个顶级开源框架合作，例如[Hugging Face Transformer](https://huggingface.co/blog/welcome-openai-gpt-oss)、Ollama 和 vLLM，以及用于优化内核和模型增强的 NVIDIA TensorRT-LLM。

[探索 120b 模型](https://huggingface.co/openai/gpt-oss-120b)

Model 

### 在 Ollama 上探索 gpt-oss  

开发者可以使用 Ollama、Llama.cpp 或 Microsoft AI Foundry Local，通过自己喜欢的应用和 SDK 体验这些模型。

[在 Ollama 上探索](https://ollama.com/library/gpt-oss)

## ![AI Model - OpenAI’s ChatGPT logo](https://developer.download.nvidia.com/images/pretrained-ai-models/kimi-color-1.svg)Kimi

Kimi 是 Moonshot AI 推出的一个开放权重模型家族，涵盖 MoE（混合专家）、思维模型以及各类专用模型。Kimi K2 是一款最先进的 MoE 语言模型，拥有 320 亿激活参数，总参数量达到 1 万亿。Kimi K2 思维型 MoE 模型在 Artificial Analysis 榜单上被评为最智能的开源模型，在 NVIDIA GB200 NVL72 机架级系统上，性能相比 NVIDIA HGX™ H200 提升了 10 倍。Fireworks AI 已在 NVIDIA B200 平台上部署了 Kimi K2，以在 Artificial Analysis 榜单上取得领先表现。

#### 探索

探索开源模型与示例，了解 NVIDIA 优化版 Kimi 模型在不同场景下的应用。

- 

[突破性性能：人人都可负担的 Kimi K2 高效训练](https://developer.nvidia.cn/blog/accelerating-large-scale-mixture-of-experts-training-in-pytorch/)

- 

[如何基于 NVIDIA Hopper 在云端部署 Kimi K2 模型  
  
](https://www.gmicloud.ai/blog/how-to-deploy-the-kimi-k2-model-on-the-cloud)

#### 集成  

使用合适的工具与框架，在您的开发环境中利用开放的 Kimi 模型快速上手。

- 

[Lambda 教程：使用 8 张 NVIDIA Blackwell GPU 与 vLLM 部署一万亿参数模型  
  
  
  
](https://lambda.ai/blog/how-to-serve-kimi-k2-instruct-on-lambda-with-vllm?utm_source=twitter&amp;utm_medium=organic-social&amp;utm_campaign=2025-12-kimi-k2-tutorial&amp;utm_content=post-1)

#### 优化  

了解 NVIDIA 如何针对 Blackwell 架构优化开放权重模型，以加速推理性能。

- 

[Kimi K2 Thinking 在 NVIDIA GB200 NVL72 上实现 10 倍加速，每个 token 成本降低至原来的十分之一  
](https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/)

- 

[NVIDIA Kimi K2 Thinking NVFP4 模型通过 TensorRT Model Optimizer 实现量化优化  
](https://huggingface.co/nvidia/Kimi-K2-Thinking-NVFP4)

- 

[Kimi K2 Thinking 在 NVIDIA Blackwell 上以超过 140 TPS 的速度运行（由 Baseten 实现）  
  
](https://www.baseten.co/blog/kimi-k2-thinking-at-140-tps-on-nvidia-blackwell/)

在您的开发环境中快速上手，使用这些模型开启应用开发之旅。

Model 

### 使用 NVIDIA NIM 获取可用于生产环境的 Kimi K2 模型

下载并部署预封装、便携且高优化的 NIM 微服务：

- 

Kimi K2 Instruct: [链接](https://build.nvidia.com/moonshotai/kimi-k2-instruct/modelcard) | [Docs](https://docs.api.nvidia.com/nim/reference/moonshotai-kimi-k2-instruct)

- 

Kimi K2 Instruct 0905:  [链接](https://build.nvidia.com/moonshotai/kimi-k2-instruct-0905/modelcard) | [文档](https://docs.api.nvidia.com/nim/reference/moonshotai-kimi-k2-instruct-0905)

Model 

### 在 Hugging Face 上探索 Kimi K2 模型   

NVIDIA Kimi K2 Thinking NVFP4 是 Moonshot AI 的 Kimi K2 Thinking 模型的量化版本，该模型是一种自回归语言模型，采用优化的 Transformer 架构。

[探索模型](https://huggingface.co/nvidia/Kimi-K2-Thinking-NVFP4)

Model 

### 在 Hugging Face 上探索 Kimi K2 Thinking NVFP4  

NVIDIA Kimi K2 Thinking NVFP4 模型是 Kimi K2 Thinking 模型的量化版本，采用优化的 Transformer 架构。该模型通过 TensorRT Model Optimizer 实现量化优化。

[探索 Kimi K2 Thinking NVFP4](https://huggingface.co/nvidia/Kimi-K2-Thinking-NVFP4)

## ![AI Model - Meta’s Llama logo](https://developer.download.nvidia.com/images/pretrained-ai-models/meta.svg)Llama

Llama 是 Meta 的开放基础模型集合，最近在 2025 年发布的 Llama 4 中实现了多模态。NVIDIA 与 Meta 合作，利用 [NVIDIA TensorRT™-LLM](https://github.com/NVIDIA/TensorRT-LLM/tree/release/0.5.0) (TRT-LLM) 推进这些模型的推理，以更大限度地提高数据中心 GPU (例如 NVIDIA Blackwell 和 NVIDIA Hopper™ 架构 GPU) 的性能。多个 Llama 模型的优化版本可作为 [NVIDIA NIM™ 微服务](/nim)提供，以提供易于部署的体验。您还可以使用端到端 [NVIDIA NeMo™ 框架](https://docs.nvidia.com/nemo-framework/index.html)，使用自己的数据自定义 Llama。

#### 探索

探索示例应用，了解 Llama 模型的不同用例。

- 
[Llama 3 8B 作为 NVIDIA Jetson™ 上的语音代理](https://www.youtube.com/watch?v=7lKBJPpasAQ)
- 
[使用 Llama 3 和 LlamaIndex 的检索增强生成 (RAG) 示例应用](https://github.com/NVIDIA/GenerativeAIExamples/tree/main/RAG/examples/basic_rag/llamaindex)
- 
[使用 Llama 3.1 405B NVIDIA NIM 在五分钟内构建简单的 AI 智能体](https://www.youtube.com/watch?v=mg0kwpmUhPU)

#### 集成

开始使用适合您 AI 模型开发环境的工具和框架。

- 
[在 Dynamo-Triton™ 中为 Multi-LoRA vLLM 后端部署 Llama](https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/vllm_backend/docs/llama_multi_lora_tutorial.html)
- 
[使用 Hugging Face Transformer 和 PyTorch 设置适用于 Llama 的 NVIDIA RTX™](https://www.youtube.com/watch?v=af7XjGekm4g)
- 
[借助 Transformer 引擎加速 Hugging Face Llama 3](https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/te_llama/tutorial_accelerate_hf_llama_with_te.html)
- 
[使用 NeMo 框架为您的数据定制 Llama](https://docs.nvidia.com/nemo-framework/user-guide/24.09/llms/llama.html)

#### 优化

借助 TensorRT-LLM 优化大语言模型 (LLM) 的推理工作负载。了解如何在 TRT-LLM 中设置和开始使用 Llama。

- 
[对 Llama 3 进行基准测试 NVIDIA NIM](https://developer.nvidia.com/zh-cn/blog/llm-performance-benchmarking-measuring-nvidia-nim-performance-with-genai-perf/#setting_up_an_openai-compatible_llama-3_inference_service_with_nim)
- 
[借助 TensorRT-LLM 预测解码，将 Llama 3.3 70B 提升 3 倍](https://developer.nvidia.com/zh-cn/blog/boost-llama-3-3-70b-inference-throughput-3x-with-nvidia-tensorrt-llm-speculative-decoding/)
- 
[利用性能经过优化的 Llama 3.1 NVIDIA NIM 微服务为生成式 AI 提供支持](https://www.youtube.com/watch?v=_rtfR5MXjUc)
- 
[TensorRT-Model-Optimizer 训练后量化指南，兼容 vLLM 和 SGLang](https://github.com/NVIDIA/TensorRT-Model-Optimizer/blob/main/examples/llm_ptq/README.md#deploy-fp8-quantized-model-using-vllm)

开始使用适合您开发环境的模型。

Model 

### 借助 NVIDIA NIM 获取生产就绪型 Llama 模型  

NVIDIA API Catalog 只需调用 API 即可实现快速原型设计。

[部署生产就绪型 Llama 模型](https://build.nvidia.com/search?q=llama)

Model 

### Ollama 上的 Llama 4

Ollama 可让您快速将 Llama 4 部署到所有 GPU 上。

[使用 Ollama 部署优化模型](https://ollama.com/library/llama4)

Model 

### 在 Hugging Face 上量化 Llama 3.1 8B  

NVIDIA Llama 3.1 8B Instruct 通过开源模型量化为 FP8 进行了优化[TensorRT 模型优化器](https://github.com/NVIDIA/TensorRT-Model-Optimizer)库。与数据中心和消费级设备兼容。

[从 Hugging Face 下载](https://huggingface.co/nvidia/Llama-3.1-8B-Instruct-FP8)

[查看更多系列产品](https://build.nvidia.com/search?filters=publisher%3Ameta&amp;q=llama)

## ![AI Model - NVIDIA Nemotron logo](https://developer.download.nvidia.com/images/logos/m48-containerized-model-76b900(1).svg)NVIDIA Nemotron

NVIDIA Nemotron™ 开放模型系列 (包括 Llama Nemotron) 在推理和各种代理式任务方面表现出色。这些模型针对各种用例进行了优化：Nano 具有成本效益，在准确性和计算能力之间实现了超强平衡，而 Ultra 可提供更高的准确性。凭借开放式许可证，这些模型可确保商业可行性和数据控制。

#### 探索

探索模型、数据集和示例应用，了解 Nemotron 模型的不同用例。

- 
[使用全新 NVIDIA Llama Nemotron Super v1.5 构建更准确、更高效的 AI 智能体](https://developer.nvidia.com/zh-cn/blog/build-more-accurate-and-efficient-ai-agents-with-the-new-nvidia-llama-nemotron-super-v1-5/)
- 
[NVIDIA Nemotron-Personas 数据集说明](https://youtube.com/shorts/47IayEsgtLQ?feature=shared)

#### 集成

开始使用适合您开发环境的工具和框架，利用开放的 Nemotron 模型和数据集实现代理式 AI。

- 
[Nemotron 后训练数据集](https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1)
- 
[Llama Nemotron Super v1.5](https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5?linkId=100000375720466)
- 
[Llama Nemotron VLM 数据集](https://huggingface.co/datasets/nvidia/Llama-Nemotron-VLM-Dataset-v1)

#### 优化

使用 NVIDIA NeMo 优化 Nemotron，并使用 NVIDIA NIM 和具有可定制参考工作流的 NVIDIA Blueprint 构建 AI 智能体。

- 
[如何使用 NVIDIA Llama Nemotron 模型通过推理增强 RAG 工作流](https://developer.nvidia.com/zh-cn/blog/how-to-enhance-rag-pipelines-with-reasoning-using-nvidia-llama-nemotron-models/?linkId=100000376536389&amp;ncid=so-nvsh-832804)
- 
[使用 NVIDIA Llama Nemotron Nano 4B 构建边缘 AI 智能体](https://www.youtube.com/watch?v=LnSt5jt-DkQ)
- 
[借助 NVIDIA Llama Nemotron Nano VL 实现多模态文档智能](https://www.youtube.com/watch?v=FHc5KxgJ61g)

开始使用适用于您开发环境的模型。

Model 

### Nemotron Nano  

为 PC 和边缘设备提供出色的准确性。  
  
新发布的 Nemotron Nano 2 支持可配置的思维预算，使企业能够控制 token 生成，以降低成本并在边缘设备上部署优化的智能体。

[Nemotron Nano 入门](https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2)

Model 

### Llama Nemotron Super

在单个 NVIDIA H100 Tensor Core GPU 上提供最高的准确性和吞吐量。  
  
Llama Nemotron Super 1.5 具有 FP4 精度，针对 NVFP4 格式的 NVIDIA Blackwell 架构进行了优化，与 NVIDIA H100 上的 FP8 相比，NVIDIA B200 上的吞吐量提高了 6 倍。

[Llama Nemotron Super 入门](https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5?linkId=100000375720466)

Model 

### Llama Nemotron Ultra  

为复杂系统提供领先的代理式 AI 准确性，并针对多 GPU 数据中心进行优化。

[Llama Nemotron Ultra 入门](https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1)

## ![AI Model - Microsoft Phi logo](https://developer.download.nvidia.com/images/pretrained-ai-models/windows.svg)Phi

Microsoft Phi 是小语言模型 (SLM) 系列，可为商业和研究任务提供高效性能。这些模型基于高质量训练数据进行训练，在数学推理、代码生成、高级推理、摘要、长文档问答和信息检索方面表现出色。由于 Phi 模型体积小，因此可以部署在单个 GPU 环境中的设备上，例如 Windows RTX 和 Jetson。随着 Phi-4 系列模型的推出，Phi 已扩展到高级推理和多模态。

#### 探索

探索示例应用，了解 Phi 模型的不同用例。

- 
[AI Podcast 助手演示 Notebook](https://github.com/NVIDIA/GenerativeAIExamples/tree/main/community/ai-podcast-assistant)
- 
[了解近期发布的多模态 Phi 4](https://developer.nvidia.com/zh-cn/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/)
- 
[重构推理：引入 Phi-4 迷你闪存推理](https://azure.microsoft.com/en-us/blog/reasoning-reimagined-introducing-phi-4-mini-flash-reasoning/)

#### 集成

开始使用适合您开发环境的合适工具和框架。

- 
[从 Jetson AI 实验室下载容器](https://www.jetson-ai-lab.com/models.html)
- 
[使用 NeMo 框架使用您自己的数据自定义 Phi 3](https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/phi3.html)
- 
[GitHub 上的 PhiCookBook](https://github.com/microsoft/PhiCookBook)

#### 优化

使用 TensorRT-LLM 优化 LLM 的推理工作负载。了解如何在 TRT-LLM 中设置和开始使用 Llama。

- 

[使用 TensorRT-LLM 开源库优化 Phi 3](https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/models/core/phi)

- 
[使用 Triton 和 TensorRT-LLM 部署 Phi 3](https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/getting_started/llm.html)

开始使用适合您开发环境的模型。

Model 

### 借助 NVIDIA NIM 获取生产就绪型 Phi 模型

NVIDIA API Catalog 只需调用 API 即可实现快速原型设计

[部署生产就绪型 Phi 模型](https://build.nvidia.com/search?q=phi%20)

Model 

### Ollama 上的 Phi

Ollama 可让您快速将 Phi 部署到所有 GPU。

[使用 Ollama 部署优化模型](https://ollama.com/library/phi4)

Model 

### Phi-3.5-mini-Instruct INT4 ONNX

Phi-3.5-mini-Instruct INT4 ONNX 模型是 Microsoft Phi - 3.5 - mini - Instruct 模型的量化版本，具有 38 亿个参数。

[从 NVIDIA 目录下载](https://catalog.ngc.nvidia.com/orgs/nvidia/models/phi-3.5-mini-instruct-onnx-int4-rtx)

[查看更多系列产品](https://build.nvidia.com/search?q=phi)

## ![AI Model - Microsoft Phi logo](https://developer.download.nvidia.com/images/logos/logo-qwen.svg)Qwen

阿里巴巴发布了 Tongyi Qwen3，这是一个开源混合推理大语言模型 (LLM) 系列。Qwen3 系列包括两个 MoE 模型，即 235B-A22B (总参数和活动参数为 22B) 和 30B - A3B，以及六个密集模型，包括 0.6 B、1.7 B、4B、8B、14B 和 32B 版本。借助超快的 token 生成，开发者可以使用不同的框架 (例如 NVIDIA TensorRT-LLM、Ollama、SGLang 和 vLLM) 在 NVIDIA GPU 上高效地将 Qwen3 模型集成和部署到生产应用中。

#### 探索

探索示例应用，了解 Qwen 模型的不同用例。

- 

阅读博客：[借助 NVIDIA，集成 Tongyi Qwen3 模型并将其部署到生产应用中](https://developer.nvidia.com/zh-cn/blog/integrate-and-deploy-tongyi-qwen3-models-into-production-applications-with-nvidia/)

- 

[Canary-Qwen-2.5 B 设定新的语音 AI 基准](https://www.youtube.com/watch?v=p3RbbtVVgvk)

#### 集成

开始使用适合您开发环境的合适工具和框架。

- 
[使用 NeMo 自定义 Qwen3](https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/qwen3.html)
- 
[使用 SGLang 在 NVIDIA GPU 上部署 Qwen](https://docs.sglang.ai/basic_usage/qwen3.html)
- 

[新的开源 Qwen3-Next 模型预览混合 MoE 架构，可跨 NVIDIA 平台提高准确性并加速并行处理](https://developer.nvidia.com/zh-cn/blog/new-open-source-qwen3-next-models-preview-hybrid-moe-architecture-delivering-improved-accuracy-and-accelerated-parallel-processing-across-nvidia-platform/?linkId=100000382638998)

#### 优化

使用 TensorRT-LLM 优化 LLM 的推理工作负载。了解如何在 TRT-LLM 中设置和开始使用 Llama。

- 

[GB200 上使用 TensorRT-LLM 分解的 Qwen3 性能评估](https://nvidia.github.io/TensorRT-LLM/blogs/tech_blog/blog5_Disaggregated_Serving_in_TensorRT-LLM.html#qwen-3)

- 
[使用 TensorRT-LLM 为单节点、单 GPU 或多 GPU 构建和运行 Qwen 模型](https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/README.md)
- 
[使用 NVIDIA Dynamo 社区对 Qwen3 进行基准测试](https://www.youtube.com/watch?v=BUVOCqbmy3U)

开始使用适合您开发环境的模型。

Model 

### NVIDIA API Catalog 上的 Qwen 模型

尝试使用这些能够思考和推理的强大模型，显著提高下游任务 (尤其是难题) 的性能。

[探索模型](https://build.nvidia.com/qwen)

Model 

### NVIDIA NeMo Canary-qwen-2.5 b

NVIDIA NeMo Canary-Qwen-2.5 B 是一种英语语音识别模型，可在多个英语语音基准测试中实现出色性能。

[从 Hugging Face 下载](https://huggingface.co/nvidia/canary-qwen-2.5b)

Model 

### Ollama 上的 Qwen

借助 Ollama，您可以将各种 Qwen 模型快速部署到所有 NVIDIA GPU。Qwen3 是 Qwen 系列中的最新一代大语言模型，提供了一整套密集和混合专家 (MoE) 模型。

[使用 Ollama 在本地部署 Qwen](https://ollama.com/library/qwen)[从 Ollama 下载最新版本的 Qwen3](https://ollama.com/library/qwen3)

[查看更多系列产品](https://build.nvidia.com/search?q=qwen)

## 更多资源

 ![Decorative image representing Developer Community](https://developer.download.nvidia.com/icons/m48-developer-1.svg)
### 加入 NVIDIA 开发者计划

 ![Decorative image representing Training and Certification](https://developer.download.nvidia.com/icons/m48-certification-ribbon-2.svg)
### 获取培训和认证

 ![Decorative image representing Inception for Startups](https://developer.download.nvidia.com/images/isaac/m48-ai-startup-256px-blk.png)
### 加速您的初创公司

* * *

## 伦理 AI

NVIDIA 认为，可信 AI 是一项共同责任，我们制定了相关政策和实践，以支持各种 AI 应用的开发。根据我们的服务条款下载或使用时，开发者应与其支持的模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。请在[此处](https://www.nvidia.com/en-us/support/submit-security-vulnerability/)报告安全漏洞或 NVIDIA AI 问题。

立即试用热门社区模型。

[联系我们](mailto:ContactDesignWorks@nvidia.com)