TensorRT

百科大全

更新时间：2025-10-06 02:43:1319

admin管理员组
文章数量:1794759

TensorRT

TensorRT-LLM for Jetson是针对Jetson平台优化的高性能大语言模型（LLM）推理库，专为Jetson AGX Orin等高性能计算设备设计。该库集成了先进的量化技术、注意力核函数以及分页键值（KV）缓存，旨在提供高效的LLM推理性能。

01、 核心特性

高级量化：TensorRT-LLM支持INT4等高级量化技术，能够显著降低模型大小和推理延迟，同时保持较高的推理精度。
注意力核函数：针对LLM中常用的注意力机制进行了优化，提高了计算效率。

02、部署环境

TensorRT-LLM for Jetson的部署需要满足以下环境要求：

硬件：支持Jetson AGX Orin设备，其他Orin设备的支持正在测试中。
软件：需要安装JetPack 6.1（包含CUDA、cuDNN和TensorRT），并推荐使用NVMe SSD以确保足够的存储空间。此外，还需要安装一些必要的依赖项，如Python3-pip、libopenblas-dev等。

03、 安装与配置

安装JetPack 6.1：通过NVIDIA SDK Manager安装JetPack 6.1，并确保将Jetson设备锁定在MAX-N时钟频率。
安装依赖项：更新系统软件包，并安装所需的依赖项，如Python3-pip、libopenblas-dev、git-lfs等。此外，还需要安装cusparselt库和特定版本的numpy。
安装TensorRT-LLM：从TensorRT-LLM的GitHub仓库中克隆v0.12.0-jetson分支，并按照提供的指南进行安装和配置。

04、模型转换与推理

模型转换：TensorRT-LLM提供了模型转换工具，可以将LLM模型转换为TensorRT-LLM引擎。例如，可以使用提供的脚本将Llama模型转换为TensorRT-LLM引擎，并应用INT4量化。
推理性能：转换后的模型可以在Jetson AGX Orin设备上高效运行，支持多种输入和输出长度配置。通过参考基准性能测试结果，可以了解到TensorRT-LLM在不同配置下的解码速度和上下文处理时间。

05、开放接口与扩展性

TensorRT-LLM提供了Python和C++编程接口，方便开发者进行集成和扩展。此外，还提供了一个示例服务器端点，支持OpenAI协议，使得TensorRT-LLM可以轻松地替换其他本地或云端的模型后端。这意味着开发者可以使用标准的openai-python包来与TensorRT-LLM进行交互，从而实现跨语言和跨设备的聊天完成请求。

06、结论

TensorRT-LLM for Jetson是一个高性能的大语言模型推理库，专为Jetson AGX Orin等高性能计算设备设计。通过先进的量化技术、注意力核函数以及分页KV缓存等特性，TensorRT-LLM能够提供高效的推理性能，并支持多种编程接口和扩展性选项。这为开发者在Jetson平台上进行大语言模型推理提供了强有力的支持。

资料地址：.html

.12.0-jetson/README4Jetson.md#3-reference-memory-usage

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2024-11-27，如有侵权请联系 cloudcommunity@tencent 删除性能LLM量化模型配置

本文标签： TensorRT

版权声明：本文标题：TensorRT 内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1753997253a1697207.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

写会百科网

TensorRT

TensorRT

更多相关文章

TensorRT(10):python版本安装

TensorRT

发表评论

推荐文章

AI 驱动的数据库 TDSQL

【HTTP】HTTP报文格式和抓包

MFC Windows 程序设计

【算法篇】三道题理解什么是递归，回溯和剪枝

Java 表单提交：如何像 PHP 和 Python 一样简单？

热门文章

docmost

对比长安链、FISCO BCOS、蚂蚁链

【Linux】进程概念

ChatGPT之搭建API代理服务

初识Linux · 有关gdb

C++第十四弹

初识C++ · string的使用(2)

【数据结构】图论基础

【机器学习】ID3、C4.5、CART 算法

借助spring的IOC能力消除条件判断

最新文章

Linux系统之jobs命令的基本使用

手把手教学！简单上手“AI复活”技术

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

JVM专题

学会5个图表，让数据分析简洁高效

写“藤”的作文1200字

有关于进步的作文

幼儿园见习报告

语数英寒假作业上册答案五年级

伊索寓言经典语词句摘抄