CentOS 8环境下Text Generation Inference的完整安装指南 (2025年05月版)

引言

Text Generation Inference (TGI) 是Hugging Face推出的高性能文本生成推理服务，特别优化了大型语言模型(LLM)的部署。本指南将详细介绍在CentOS 8环境下安装和配置TGI的全过程，包括依赖安装、环境配置和基本使用。

准备工作

系统要求

CentOS 8 (建议使用最新稳定版)
至少16GB RAM (运行大模型需要更多内存)
50GB可用磁盘空间
NVIDIA GPU (推荐)或CPU环境

前置条件

root或sudo权限
稳定的网络连接

第一步：系统更新与基础依赖安装

首先更新系统并安装基础工具：

代码片段

# 更新系统软件包
sudo dnf update -y

# 安装基础开发工具
sudo dnf groupinstall "Development Tools" -y

# 安装其他必要依赖
sudo dnf install -y git wget curl bzip2 python3 python3-devel openssl-devel libffi-devel

注意事项：
– CentOS 8默认使用Python3.6，但TGI需要Python3.7+
– 如果遇到”Failed to download metadata”错误，可能需要配置正确的CentOS仓库源

第二步：安装Python3.9+

CentOS 8默认Python版本较低，我们需要手动安装较新版本：

代码片段

# 添加EPEL仓库
sudo dnf install -y epel-release

# 启用PowerTools仓库
sudo dnf config-manager --set-enabled powertools

# 安装Python3.9和相关工具
sudo dnf install -y python39 python39-devel python39-pip python39-wheel

# 设置Python3.9为默认版本
sudo alternatives --set python /usr/bin/python3.9
sudo alternatives --set python3 /usr/bin/python3.9

# 验证Python版本
python --version

原理说明：
TGI及其依赖需要较新的Python特性，CentOS默认提供的Python版本无法满足要求。我们通过EPEL仓库获取更新的软件包。

第三步：安装CUDA和cuDNN (GPU环境)

如果使用GPU加速，需要安装NVIDIA驱动和CUDA：

代码片段

# 添加NVIDIA CUDA仓库
distribution=$(. /etc/os-release;echo $ID$VERSION_ID | sed -e 's/\.//g')
wget https://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-$distribution.pin
sudo mv cuda-$distribution.pin /etc/yum.repos.d/cuda.repo

# 安装CUDA Toolkit (根据你的GPU选择合适版本)
sudo dnf install -y cuda-11-7

# 设置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

# 验证CUDA安装
nvcc --version

# cuDNN需要从NVIDIA官网手动下载后安装(需注册账号)

实践经验：
– CUDA版本需与你的GPU驱动兼容，建议查看NVIDIA官方文档匹配版本号
– cuDNN版本必须与CUDA版本严格匹配

第四步：安装Rust编译器

TGI的部分组件是用Rust编写的，需要先安装Rust工具链：

代码片段

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y

# 添加Rust到PATH环境变量
source $HOME/.cargo/env

# 验证安装
rustc --version

第五步：创建虚拟环境并安装TGI

推荐使用虚拟环境隔离Python依赖：

代码片段

python -m venv tgi-env
source tgi-env/bin/activate

# 升级pip和setuptools
pip install --upgrade pip setuptools wheel

# 安装Text Generation Inference（2025年5月最新版）
pip install text-generation-inference==1.x.x #请替换为最新版本号

# GPU用户还需要额外安装Flash Attention（可选但推荐）
pip install flash-attn --no-build-isolation

注意事项：
– Flash Attention可以显著提升推理速度但需要特定硬件支持
– TGI版本更新频繁，建议查看官方文档获取最新版本号

第六步：下载模型权重文件（以Llama2为例）

代码片段

mkdir models && cd models 

# Hugging Face Hub下载（需先登录） 
huggingface-cli login 

# Llama2模型下载示例（需申请权限） 
git lfs install 
git clone https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 

cd ..

替代方案：
如果无法直接访问Hugging Face Hub，可以使用镜像源或离线下载后传输到服务器。

第七步：启动TGI服务

以下是启动服务的典型命令：

代码片段

text-generation-launcher \
    --model-id ./models/Llama-2-7b-chat-hf \
    --port=8080 \
    --max-input-length=2048 \
    --max-total-tokens=4096 \
    --num-shard=1 \ # GPU数量 
    --quantize bitsandbytes #量化选项（可选）

参数说明：
– --model-id:指定模型路径或Hugging Face Hub ID
– --port:服务监听端口
– --max-input-length:最大输入长度限制
– --num-shard:并行GPU数量

第八步：测试服务

服务启动后可以通过curl测试:

代码片段

curl http://localhost:8080/generate \ 
    -X POST \ 
    -d '{"inputs":"What is Text Generation Inference?","parameters":{"max_new_tokens":50}}' \ 
    -H 'Content-Type: application/json'

预期输出应包含生成的文本内容。

常见问题解决

1.CUDA版本不匹配错误

代码片段

Error: No CUDA runtime is found, using CUDA_HOME='/usr/local/cuda'

解决方案：确认CUDA路径正确并已添加到环境变量中。

2.内存不足错误

代码片段

OutOfMemoryError: CUDA out of memory.

解决方案：减小模型规模、使用量化(–quantize参数)或增加服务器内存。

3.端口冲突

代码片段

Address already in use (os error98)

解决方案：更改–port参数值或停止占用端口的进程。

总结

本文详细介绍了在CentOS8上部署Text Generation Inference服务的完整流程:
1.系统准备和依赖项安装
2.Python环境和CUDA配置
3.TGI服务部署
4.模型下载和服务测试

对于生产环境部署,建议考虑以下优化措施:
-使用Docker容器化部署