共耀辉煌： google gemma 优化后可正在nvidia gpu上运转

共耀光芒： Google Gemma 优化后可在NVIDIA GPU上运行 2024-02-27 02:43 148

"共耀辉煌： google gemma 优化后可正在nvidia gpu上运转,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 "

借助TensorRT-LLM，Google全新开放语言模型可在NVIDIA AI平台(包括本地 RTX AI PC)上加速运行

2024年2月21日，NVIDIA携手Google在所有NVIDIA AI平台上发布面向Gemma的优化功能，Gemma是Google最先进的新型轻量级2B和 7B开放语言模型，可在任何地方运行，从而降低成本并加快特定领域用户案例的创新工作。

NVIDIA 和 Google的团队紧密合作，利用(Use)NVIDIA TensorRT-LLM(用于优化大语言模型推理性能的开源库)，在数据中心的NVIDIA GPU、云计算和搭载NVIDIA RTX GPU 的PC上运行时，加速Gemma性能(Gemma由创建 Gemini 模型的相同研究和技术构建)。

这使开发者能将全球高性能 AI PC中超过1亿台搭载NVIDIA RTX GPU的用户作为潜在用户进行(Carry Out)开发。

开发者还可在搭载 NVIDIA GPU 的云端运行Gemma，该实例拥有141GB HBM3e显存，速度为4.8TB/秒，Google将于今年(This Year)部署该实例。

此外，企业级开发者还可利用(Use)NVIDIA丰富的工具生态系统(包括依托NeMo框架的 NVIDIA AI Enterprise和 TensorRT-LLM)，对 Gemma 进行(Carry Out)微调，并将优化后的模型部署到生产应用中。

详细了解有关 TensorRT-LLM如何加快 Gemma 推理速度的更多信息，以及面向开发者的其他信息：包括 Gemma 的多个模型文件和模型的 FP8 量化版本，以上这些都使用 TensorRT-LLM 进行(Carry Out)优化。

您可在NVIDIA AI Playground 上直接通过浏览器体验 Gemma 2B 和Gemma 7B。

Gemma 即将上线Chat with RTX

NVIDIA Chat with RTX 技术演示版也即将支持 Gemma，该Demo使用检索增强生成(RAG) 和 TensorRT-LLM 软件，为用户提供在本地 Windows RTX PC 上的生成式AI功能。

共耀光芒： Google Gemma 优化后可在NVIDIA GPU上运行