<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0">
  <channel>
    <title>Inference models</title>
    <link>https://lambda.ai/inference-models</link>
    <description>Lambda's catalog of model cards for the LLMs that matter. Search by model name to get architecture breakdowns, hardware requirements, deployment guides, and throughput benchmarks on NVIDIA GPUs.</description>
    <language>en</language>
    <pubDate>Thu, 12 Mar 2026 16:48:32 GMT</pubDate>
    <dc:date>2026-03-12T16:48:32Z</dc:date>
    <dc:language>en</dc:language>
    <item>
      <title>nvidia/NVIDIA-Nemotron-3-Super-120B-A12B</title>
      <link>https://lambda.ai/inference-models/nvidia/nvidia-nemotron-3-super-120b-a12b</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/nvidia/nvidia-nemotron-3-super-120b-a12b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-nemotron-3-super-on-lambda-1773333896548.png" alt="How to deploy Nemotron 3 Super on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;h3&gt;vLLM&lt;/h3&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware&lt;/th&gt; 
    &lt;th&gt;Gen. throughput&lt;/th&gt; 
    &lt;th&gt;TTFT&lt;/th&gt; 
    &lt;th&gt;ITL&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA B200 GPUs (NVFP4)&lt;/td&gt; 
    &lt;td&gt;2,057 tok/s&lt;/td&gt; 
    &lt;td&gt;4,040ms&lt;/td&gt; 
    &lt;td&gt;12ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA B200 GPU (NVFP4)&lt;/td&gt; 
    &lt;td&gt;1,517 tok/s&lt;/td&gt; 
    &lt;td&gt;4,455ms&lt;/td&gt; 
    &lt;td&gt;16ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA B200 GPUs (FP8)&lt;/td&gt; 
    &lt;td&gt;1,847 tok/s&lt;/td&gt; 
    &lt;td&gt;3,948ms&lt;/td&gt; 
    &lt;td&gt;13ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA H100 GPUs (FP8)&lt;/td&gt; 
    &lt;td&gt;1,116 tok/s&lt;/td&gt; 
    &lt;td&gt;4,557ms&lt;/td&gt; 
    &lt;td&gt;24ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;4× NVIDIA A100 GPUs (BF16)&lt;/td&gt; 
    &lt;td&gt;553 tok/s&lt;/td&gt; 
    &lt;td&gt;6,694ms&lt;/td&gt; 
    &lt;td&gt;51ms&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/nvidia/nvidia-nemotron-3-super-120b-a12b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-nemotron-3-super-on-lambda-1773333896548.png" alt="How to deploy Nemotron 3 Super on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;h3&gt;vLLM&lt;/h3&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware&lt;/th&gt; 
    &lt;th&gt;Gen. throughput&lt;/th&gt; 
    &lt;th&gt;TTFT&lt;/th&gt; 
    &lt;th&gt;ITL&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA B200 GPUs (NVFP4)&lt;/td&gt; 
    &lt;td&gt;2,057 tok/s&lt;/td&gt; 
    &lt;td&gt;4,040ms&lt;/td&gt; 
    &lt;td&gt;12ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA B200 GPU (NVFP4)&lt;/td&gt; 
    &lt;td&gt;1,517 tok/s&lt;/td&gt; 
    &lt;td&gt;4,455ms&lt;/td&gt; 
    &lt;td&gt;16ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA B200 GPUs (FP8)&lt;/td&gt; 
    &lt;td&gt;1,847 tok/s&lt;/td&gt; 
    &lt;td&gt;3,948ms&lt;/td&gt; 
    &lt;td&gt;13ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA H100 GPUs (FP8)&lt;/td&gt; 
    &lt;td&gt;1,116 tok/s&lt;/td&gt; 
    &lt;td&gt;4,557ms&lt;/td&gt; 
    &lt;td&gt;24ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;4× NVIDIA A100 GPUs (BF16)&lt;/td&gt; 
    &lt;td&gt;553 tok/s&lt;/td&gt; 
    &lt;td&gt;6,694ms&lt;/td&gt; 
    &lt;td&gt;51ms&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fnvidia%2Fnvidia-nemotron-3-super-120b-a12b&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Thu, 12 Mar 2026 16:48:32 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/nvidia/nvidia-nemotron-3-super-120b-a12b</guid>
      <dc:date>2026-03-12T16:48:32Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>allenai/Olmo-Hybrid-Instruct-DPO-7B</title>
      <link>https://lambda.ai/inference-models/allenai/olmo-hybrid-instruct-dpo-7b</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/allenai/olmo-hybrid-instruct-dpo-7b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-olmo-hybrid-7b-on-lambda-1772833629145.png" alt="How to deploy OLMo Hybrid 7B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput on vLLM&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware&lt;/th&gt; 
    &lt;th&gt;Gen. throughput&lt;/th&gt; 
    &lt;th&gt;TTFT&lt;/th&gt; 
    &lt;th&gt;ITL&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA B200 GPU&lt;/td&gt; 
    &lt;td&gt;1,765 tok/s&lt;/td&gt; 
    &lt;td&gt;4,424ms&lt;/td&gt; 
    &lt;td&gt;14ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
    &lt;td&gt;1,066 tok/s&lt;/td&gt; 
    &lt;td&gt;4,665ms&lt;/td&gt; 
    &lt;td&gt;25ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA A100 GPU&lt;/td&gt; 
    &lt;td&gt;551 tok/s&lt;/td&gt; 
    &lt;td&gt;7,191ms&lt;/td&gt; 
    &lt;td&gt;51ms&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/allenai/olmo-hybrid-instruct-dpo-7b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-olmo-hybrid-7b-on-lambda-1772833629145.png" alt="How to deploy OLMo Hybrid 7B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput on vLLM&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware&lt;/th&gt; 
    &lt;th&gt;Gen. throughput&lt;/th&gt; 
    &lt;th&gt;TTFT&lt;/th&gt; 
    &lt;th&gt;ITL&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA B200 GPU&lt;/td&gt; 
    &lt;td&gt;1,765 tok/s&lt;/td&gt; 
    &lt;td&gt;4,424ms&lt;/td&gt; 
    &lt;td&gt;14ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
    &lt;td&gt;1,066 tok/s&lt;/td&gt; 
    &lt;td&gt;4,665ms&lt;/td&gt; 
    &lt;td&gt;25ms&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA A100 GPU&lt;/td&gt; 
    &lt;td&gt;551 tok/s&lt;/td&gt; 
    &lt;td&gt;7,191ms&lt;/td&gt; 
    &lt;td&gt;51ms&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fallenai%2Folmo-hybrid-instruct-dpo-7b&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Fri, 06 Mar 2026 21:49:02 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/allenai/olmo-hybrid-instruct-dpo-7b</guid>
      <dc:date>2026-03-06T21:49:02Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>Qwen/Qwen3.5-122B-A10B</title>
      <link>https://lambda.ai/inference-models/qwen/qwen3.5-122b-a10b</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/qwen/qwen3.5-122b-a10b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-qwen3-5-122b-a10b-on-lambda-1772129577550.png" alt="How to deploy Qwen3.5-122B-A10B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× B200&lt;/td&gt; 
      &lt;td&gt;2,197 tok/s&lt;/td&gt; 
      &lt;td&gt;1,156ms&lt;/td&gt; 
      &lt;td&gt;13ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× H100&lt;/td&gt; 
      &lt;td&gt;1,585 tok/s&lt;/td&gt; 
      &lt;td&gt;2,613ms&lt;/td&gt; 
      &lt;td&gt;18ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× A100&lt;/td&gt; 
      &lt;td&gt;930 tok/s&lt;/td&gt; 
      &lt;td&gt;4,602ms&lt;/td&gt; 
      &lt;td&gt;30ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× B200&lt;/td&gt; 
      &lt;td&gt;1,817 tok/s&lt;/td&gt; 
      &lt;td&gt;4,904ms&lt;/td&gt; 
      &lt;td&gt;13ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× H100&lt;/td&gt; 
      &lt;td&gt;1,843 tok/s&lt;/td&gt; 
      &lt;td&gt;1,060ms&lt;/td&gt; 
      &lt;td&gt;16ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× A100&lt;/td&gt; 
      &lt;td&gt;744 tok/s&lt;/td&gt; 
      &lt;td&gt;7,612ms&lt;/td&gt; 
      &lt;td&gt;35ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/qwen/qwen3.5-122b-a10b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-qwen3-5-122b-a10b-on-lambda-1772129577550.png" alt="How to deploy Qwen3.5-122B-A10B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× B200&lt;/td&gt; 
      &lt;td&gt;2,197 tok/s&lt;/td&gt; 
      &lt;td&gt;1,156ms&lt;/td&gt; 
      &lt;td&gt;13ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× H100&lt;/td&gt; 
      &lt;td&gt;1,585 tok/s&lt;/td&gt; 
      &lt;td&gt;2,613ms&lt;/td&gt; 
      &lt;td&gt;18ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× A100&lt;/td&gt; 
      &lt;td&gt;930 tok/s&lt;/td&gt; 
      &lt;td&gt;4,602ms&lt;/td&gt; 
      &lt;td&gt;30ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× B200&lt;/td&gt; 
      &lt;td&gt;1,817 tok/s&lt;/td&gt; 
      &lt;td&gt;4,904ms&lt;/td&gt; 
      &lt;td&gt;13ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× H100&lt;/td&gt; 
      &lt;td&gt;1,843 tok/s&lt;/td&gt; 
      &lt;td&gt;1,060ms&lt;/td&gt; 
      &lt;td&gt;16ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× A100&lt;/td&gt; 
      &lt;td&gt;744 tok/s&lt;/td&gt; 
      &lt;td&gt;7,612ms&lt;/td&gt; 
      &lt;td&gt;35ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fqwen%2Fqwen3.5-122b-a10b&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Thu, 26 Feb 2026 18:14:52 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/qwen/qwen3.5-122b-a10b</guid>
      <dc:date>2026-02-26T18:14:52Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>Qwen/Qwen3-Coder-Next</title>
      <link>https://lambda.ai/inference-models/qwen/qwen3-coder-next</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/qwen/qwen3-coder-next" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-qwen3-coder-next-on-lambda-1772129576923.png" alt="How to deploy Qwen3-Coder-Next on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;2× NVIDIA B200 GPUs&lt;/td&gt; 
      &lt;td&gt;1,877 tok/s&lt;/td&gt; 
      &lt;td&gt;1,330ms&lt;/td&gt; 
      &lt;td&gt;16ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA H100 GPUs&lt;/td&gt; 
      &lt;td&gt;1,810 tok/s&lt;/td&gt; 
      &lt;td&gt;1,960ms&lt;/td&gt; 
      &lt;td&gt;16ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA A100 GPUs&lt;/td&gt; 
      &lt;td&gt;1,069 tok/s&lt;/td&gt; 
      &lt;td&gt;3,969ms&lt;/td&gt; 
      &lt;td&gt;26ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;2× NVIDIA B200 GPUs&lt;/td&gt; 
      &lt;td&gt;1,721 tok/s&lt;/td&gt; 
      &lt;td&gt;4,602ms&lt;/td&gt; 
      &lt;td&gt;14ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA H100 GPUs&lt;/td&gt; 
      &lt;td&gt;2,180 tok/s&lt;/td&gt; 
      &lt;td&gt;933ms&lt;/td&gt; 
      &lt;td&gt;14ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA A100 GPUs&lt;/td&gt; 
      &lt;td&gt;851 tok/s&lt;/td&gt; 
      &lt;td&gt;6,997ms&lt;/td&gt; 
      &lt;td&gt;31ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/qwen/qwen3-coder-next" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-qwen3-coder-next-on-lambda-1772129576923.png" alt="How to deploy Qwen3-Coder-Next on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;2× NVIDIA B200 GPUs&lt;/td&gt; 
      &lt;td&gt;1,877 tok/s&lt;/td&gt; 
      &lt;td&gt;1,330ms&lt;/td&gt; 
      &lt;td&gt;16ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA H100 GPUs&lt;/td&gt; 
      &lt;td&gt;1,810 tok/s&lt;/td&gt; 
      &lt;td&gt;1,960ms&lt;/td&gt; 
      &lt;td&gt;16ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA A100 GPUs&lt;/td&gt; 
      &lt;td&gt;1,069 tok/s&lt;/td&gt; 
      &lt;td&gt;3,969ms&lt;/td&gt; 
      &lt;td&gt;26ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;2× NVIDIA B200 GPUs&lt;/td&gt; 
      &lt;td&gt;1,721 tok/s&lt;/td&gt; 
      &lt;td&gt;4,602ms&lt;/td&gt; 
      &lt;td&gt;14ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA H100 GPUs&lt;/td&gt; 
      &lt;td&gt;2,180 tok/s&lt;/td&gt; 
      &lt;td&gt;933ms&lt;/td&gt; 
      &lt;td&gt;14ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;4× NVIDIA A100 GPUs&lt;/td&gt; 
      &lt;td&gt;851 tok/s&lt;/td&gt; 
      &lt;td&gt;6,997ms&lt;/td&gt; 
      &lt;td&gt;31ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fqwen%2Fqwen3-coder-next&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Thu, 26 Feb 2026 18:14:51 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/qwen/qwen3-coder-next</guid>
      <dc:date>2026-02-26T18:14:51Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>Nanbeige/Nanbeige4.1-3B</title>
      <link>https://lambda.ai/inference-models/nanbeige/nanbeige4.1-3b</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/nanbeige/nanbeige4.1-3b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-nanbeige4-1-3b-on-lambda-1772129579017.png" alt="How to deploy Nanbeige4.1-3B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA B200 GPU&lt;/td&gt; 
      &lt;td&gt;4,547 tok/s&lt;/td&gt; 
      &lt;td&gt;766ms&lt;/td&gt; 
      &lt;td&gt;6ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
      &lt;td&gt;2,381 tok/s&lt;/td&gt; 
      &lt;td&gt;1,619ms&lt;/td&gt; 
      &lt;td&gt;12ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA A100 GPU&lt;/td&gt; 
      &lt;td&gt;1,174 tok/s&lt;/td&gt; 
      &lt;td&gt;3,830ms&lt;/td&gt; 
      &lt;td&gt;29ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA B200 GPU&lt;/td&gt; 
      &lt;td&gt;4,806 tok/s&lt;/td&gt; 
      &lt;td&gt;526ms&lt;/td&gt; 
      &lt;td&gt;6ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
      &lt;td&gt;2,472 tok/s&lt;/td&gt; 
      &lt;td&gt;822ms&lt;/td&gt; 
      &lt;td&gt;12ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA A100 GPU&lt;/td&gt; 
      &lt;td&gt;1,050 tok/s&lt;/td&gt; 
      &lt;td&gt;1,480ms&lt;/td&gt; 
      &lt;td&gt;29ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/nanbeige/nanbeige4.1-3b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-nanbeige4-1-3b-on-lambda-1772129579017.png" alt="How to deploy Nanbeige4.1-3B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA B200 GPU&lt;/td&gt; 
      &lt;td&gt;4,547 tok/s&lt;/td&gt; 
      &lt;td&gt;766ms&lt;/td&gt; 
      &lt;td&gt;6ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
      &lt;td&gt;2,381 tok/s&lt;/td&gt; 
      &lt;td&gt;1,619ms&lt;/td&gt; 
      &lt;td&gt;12ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA A100 GPU&lt;/td&gt; 
      &lt;td&gt;1,174 tok/s&lt;/td&gt; 
      &lt;td&gt;3,830ms&lt;/td&gt; 
      &lt;td&gt;29ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA B200 GPU&lt;/td&gt; 
      &lt;td&gt;4,806 tok/s&lt;/td&gt; 
      &lt;td&gt;526ms&lt;/td&gt; 
      &lt;td&gt;6ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
      &lt;td&gt;2,472 tok/s&lt;/td&gt; 
      &lt;td&gt;822ms&lt;/td&gt; 
      &lt;td&gt;12ms&lt;/td&gt; 
     &lt;/tr&gt; 
     &lt;tr&gt; 
      &lt;td&gt;1× NVIDIA A100 GPU&lt;/td&gt; 
      &lt;td&gt;1,050 tok/s&lt;/td&gt; 
      &lt;td&gt;1,480ms&lt;/td&gt; 
      &lt;td&gt;29ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fnanbeige%2Fnanbeige4.1-3b&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Thu, 26 Feb 2026 18:14:50 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/nanbeige/nanbeige4.1-3b</guid>
      <dc:date>2026-02-26T18:14:50Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>Qwen/Qwen3.5-397B-A17B</title>
      <link>https://lambda.ai/inference-models/qwen/qwen3.5-397b-a17b</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/qwen/qwen3.5-397b-a17b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-qwen3-5-397b-a17b-on-lambda-1772129577611.png" alt="How to deploy Qwen3.5-397B-A17B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× B200&lt;/td&gt; 
      &lt;td&gt;1,269 tok/s&lt;/td&gt; 
      &lt;td&gt;1,943ms&lt;/td&gt; 
      &lt;td&gt;23ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× B200&lt;/td&gt; 
      &lt;td&gt;1,268 tok/s&lt;/td&gt; 
      &lt;td&gt;5,024ms&lt;/td&gt; 
      &lt;td&gt;20ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/qwen/qwen3.5-397b-a17b" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-qwen3-5-397b-a17b-on-lambda-1772129577611.png" alt="How to deploy Qwen3.5-397B-A17B on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput&lt;/h2&gt; 
&lt;div class="tab-container"&gt; 
 &lt;div class="tab-buttons"&gt; SGLang vLLM 
 &lt;/div&gt; 
 &lt;div class="tab-content active"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× B200&lt;/td&gt; 
      &lt;td&gt;1,269 tok/s&lt;/td&gt; 
      &lt;td&gt;1,943ms&lt;/td&gt; 
      &lt;td&gt;23ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
 &lt;div class="tab-content"&gt; 
  &lt;div class="table-wrapper"&gt; 
   &lt;table&gt; 
    &lt;thead&gt; 
     &lt;tr&gt; 
      &lt;th&gt;Hardware&lt;/th&gt; 
      &lt;th&gt;Gen. throughput&lt;/th&gt; 
      &lt;th&gt;TTFT&lt;/th&gt; 
      &lt;th&gt;ITL&lt;/th&gt; 
     &lt;/tr&gt; 
    &lt;/thead&gt; 
    &lt;tbody&gt; 
     &lt;tr&gt; 
      &lt;td&gt;8× B200&lt;/td&gt; 
      &lt;td&gt;1,268 tok/s&lt;/td&gt; 
      &lt;td&gt;5,024ms&lt;/td&gt; 
      &lt;td&gt;20ms&lt;/td&gt; 
     &lt;/tr&gt; 
    &lt;/tbody&gt; 
   &lt;/table&gt; 
  &lt;/div&gt; 
 &lt;/div&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fqwen%2Fqwen3.5-397b-a17b&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Thu, 26 Feb 2026 18:14:49 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/qwen/qwen3.5-397b-a17b</guid>
      <dc:date>2026-02-26T18:14:49Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>zai-org/GLM-5</title>
      <link>https://lambda.ai/inference-models/zai-org/glm-5</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/zai-org/glm-5" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-glm-5-on-lambda-1771375311603.png" alt="How to deploy GLM-5 on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;NVIDIA HGX B200&lt;/td&gt; 
    &lt;td&gt;700&lt;/td&gt; 
    &lt;td&gt;6,300&lt;/td&gt; 
    &lt;td&gt;1,662&lt;/td&gt; 
    &lt;td&gt;103&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;4,194,304&lt;/td&gt; 
    &lt;td&gt;524,288&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/zai-org/glm-5" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-glm-5-on-lambda-1771375311603.png" alt="How to deploy GLM-5 on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;NVIDIA HGX B200&lt;/td&gt; 
    &lt;td&gt;700&lt;/td&gt; 
    &lt;td&gt;6,300&lt;/td&gt; 
    &lt;td&gt;1,662&lt;/td&gt; 
    &lt;td&gt;103&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;4,194,304&lt;/td&gt; 
    &lt;td&gt;524,288&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fzai-org%2Fglm-5&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Wed, 18 Feb 2026 00:50:01 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/zai-org/glm-5</guid>
      <dc:date>2026-02-18T00:50:01Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>zai-org/GLM-4.7-Flash</title>
      <link>https://lambda.ai/inference-models/zai-org/glm-4.7-flash</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/zai-org/glm-4.7-flash" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-glm-4-7-flash-on-lambda-1771375310274.png" alt="How to deploy GLM-4.7-Flash on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA Blackwell B200 GPU&lt;/td&gt; 
    &lt;td&gt;902.74&lt;/td&gt; 
    &lt;td&gt;8,124.65&lt;/td&gt; 
    &lt;td&gt;6,170.78&lt;/td&gt; 
    &lt;td&gt;30.61&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;2,097,152&lt;/td&gt; 
    &lt;td&gt;262,144&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
    &lt;td&gt;660.67&lt;/td&gt; 
    &lt;td&gt;5,946.05&lt;/td&gt; 
    &lt;td&gt;20,087.41&lt;/td&gt; 
    &lt;td&gt;27.24&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;2,097,152&lt;/td&gt; 
    &lt;td&gt;262,144&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/zai-org/glm-4.7-flash" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-glm-4-7-flash-on-lambda-1771375310274.png" alt="How to deploy GLM-4.7-Flash on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA Blackwell B200 GPU&lt;/td&gt; 
    &lt;td&gt;902.74&lt;/td&gt; 
    &lt;td&gt;8,124.65&lt;/td&gt; 
    &lt;td&gt;6,170.78&lt;/td&gt; 
    &lt;td&gt;30.61&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;2,097,152&lt;/td&gt; 
    &lt;td&gt;262,144&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;1× NVIDIA H100 GPU&lt;/td&gt; 
    &lt;td&gt;660.67&lt;/td&gt; 
    &lt;td&gt;5,946.05&lt;/td&gt; 
    &lt;td&gt;20,087.41&lt;/td&gt; 
    &lt;td&gt;27.24&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;2,097,152&lt;/td&gt; 
    &lt;td&gt;262,144&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fzai-org%2Fglm-4.7-flash&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Wed, 18 Feb 2026 00:49:35 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/zai-org/glm-4.7-flash</guid>
      <dc:date>2026-02-18T00:49:35Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>arcee-ai/Trinity-Large-Preview</title>
      <link>https://lambda.ai/inference-models/arcee-ai/trinity-large-preview</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/arcee-ai/trinity-large-preview" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-trinity-large-preview-on-lambda-1771375312470.png" alt="How to deploy Trinity Large Preview on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;NVIDIA HGX B200&lt;/td&gt; 
    &lt;td&gt;1,735&lt;/td&gt; 
    &lt;td&gt;15,611&lt;/td&gt; 
    &lt;td&gt;1,850&lt;/td&gt; 
    &lt;td&gt;17&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;2,097,152&lt;/td&gt; 
    &lt;td&gt;262,144&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/arcee-ai/trinity-large-preview" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-trinity-large-preview-on-lambda-1771375312470.png" alt="How to deploy Trinity Large Preview on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;NVIDIA HGX B200&lt;/td&gt; 
    &lt;td&gt;1,735&lt;/td&gt; 
    &lt;td&gt;15,611&lt;/td&gt; 
    &lt;td&gt;1,850&lt;/td&gt; 
    &lt;td&gt;17&lt;/td&gt; 
    &lt;td&gt;256&lt;/td&gt; 
    &lt;td&gt;2,097,152&lt;/td&gt; 
    &lt;td&gt;262,144&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Farcee-ai%2Ftrinity-large-preview&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Wed, 18 Feb 2026 00:46:51 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/arcee-ai/trinity-large-preview</guid>
      <dc:date>2026-02-18T00:46:51Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
    <item>
      <title>MiniMaxAI/MiniMax-M2.5</title>
      <link>https://lambda.ai/inference-models/minimaxai/minimax-m2.5</link>
      <description>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/minimaxai/minimax-m2.5" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-minimax-m2-5-on-lambda-1770998118656.png" alt="How to deploy MiniMax M2.5 on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA B200 GPU&lt;/td&gt; 
    &lt;td&gt;896&lt;/td&gt; 
    &lt;td&gt;8,062&lt;/td&gt; 
    &lt;td&gt;3,091&lt;/td&gt; 
    &lt;td&gt;36&lt;/td&gt; 
    &lt;td&gt;512&lt;/td&gt; 
    &lt;td&gt;4,194,304&lt;/td&gt; 
    &lt;td&gt;524,288&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;4× NVIDIA H100 GPU&lt;/td&gt; 
    &lt;td&gt;849&lt;/td&gt; 
    &lt;td&gt;7,644&lt;/td&gt; 
    &lt;td&gt;13,131&lt;/td&gt; 
    &lt;td&gt;27&lt;/td&gt; 
    &lt;td&gt;512&lt;/td&gt; 
    &lt;td&gt;4,194,304&lt;/td&gt; 
    &lt;td&gt;524,288&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;</description>
      <content:encoded>&lt;div class="hs-featured-image-wrapper"&gt; 
 &lt;a href="https://lambda.ai/inference-models/minimaxai/minimax-m2.5" title="" class="hs-featured-image-link"&gt; &lt;img src="https://lambda.ai/hubfs/web-static/images/llm-pages/llm-how-to-deploy-minimax-m2-5-on-lambda-1770998118656.png" alt="How to deploy MiniMax M2.5 on Lambda featured image" class="hs-featured-image" style="width:auto !important; max-width:50%; float:left; margin:0 15px 15px 0;"&gt; &lt;/a&gt; 
&lt;/div&gt; 
&lt;h2&gt;TL;DR: token throughput (SGLang)&lt;/h2&gt; 
&lt;div class="table-wrapper"&gt; 
 &lt;table&gt; 
  &lt;thead&gt; 
   &lt;tr&gt; 
    &lt;th&gt;Hardware configuration&lt;/th&gt; 
    &lt;th&gt;Generation throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;Total throughput (tok/s)&lt;/th&gt; 
    &lt;th&gt;TTFT (ms)&lt;/th&gt; 
    &lt;th&gt;ITL (ms)&lt;/th&gt; 
    &lt;th&gt;Prompts&lt;/th&gt; 
    &lt;th&gt;Tokens in&lt;/th&gt; 
    &lt;th&gt;Tokens out&lt;/th&gt; 
    &lt;th&gt;Parallel requests&lt;/th&gt; 
   &lt;/tr&gt; 
  &lt;/thead&gt; 
  &lt;tbody&gt; 
   &lt;tr&gt; 
    &lt;td&gt;2× NVIDIA B200 GPU&lt;/td&gt; 
    &lt;td&gt;896&lt;/td&gt; 
    &lt;td&gt;8,062&lt;/td&gt; 
    &lt;td&gt;3,091&lt;/td&gt; 
    &lt;td&gt;36&lt;/td&gt; 
    &lt;td&gt;512&lt;/td&gt; 
    &lt;td&gt;4,194,304&lt;/td&gt; 
    &lt;td&gt;524,288&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
   &lt;tr&gt; 
    &lt;td&gt;4× NVIDIA H100 GPU&lt;/td&gt; 
    &lt;td&gt;849&lt;/td&gt; 
    &lt;td&gt;7,644&lt;/td&gt; 
    &lt;td&gt;13,131&lt;/td&gt; 
    &lt;td&gt;27&lt;/td&gt; 
    &lt;td&gt;512&lt;/td&gt; 
    &lt;td&gt;4,194,304&lt;/td&gt; 
    &lt;td&gt;524,288&lt;/td&gt; 
    &lt;td&gt;32&lt;/td&gt; 
   &lt;/tr&gt; 
  &lt;/tbody&gt; 
 &lt;/table&gt; 
&lt;/div&gt;  
&lt;img src="https://track.hubspot.com/__ptq.gif?a=21998649&amp;amp;k=14&amp;amp;r=https%3A%2F%2Flambda.ai%2Finference-models%2Fminimaxai%2Fminimax-m2.5&amp;amp;bu=https%253A%252F%252Flambda.ai%252Finference-models&amp;amp;bvt=rss" alt="" width="1" height="1" style="min-height:1px!important;width:1px!important;border-width:0!important;margin-top:0!important;margin-bottom:0!important;margin-right:0!important;margin-left:0!important;padding-top:0!important;padding-bottom:0!important;padding-right:0!important;padding-left:0!important; "&gt;</content:encoded>
      <pubDate>Fri, 13 Feb 2026 16:03:16 GMT</pubDate>
      <guid>https://lambda.ai/inference-models/minimaxai/minimax-m2.5</guid>
      <dc:date>2026-02-13T16:03:16Z</dc:date>
      <dc:creator>Lambda</dc:creator>
    </item>
  </channel>
</rss>
