在Docker容器上5分钟搞定LiteLLM安装，无坑指南

引言

LiteLLM是一个轻量级的语言模型推理服务，可以帮助开发者快速部署和使用各种开源大语言模型。使用Docker容器来安装LiteLLM是最简单、最干净的方式，可以避免环境依赖问题。本文将带你通过Docker在5分钟内完成LiteLLM的安装和基本使用。

准备工作

在开始之前，请确保你的系统已经安装了以下软件：
– Docker (版本20.10.0或更高)
– Docker Compose (可选，但推荐)

你可以通过以下命令检查是否已安装：

代码片段

docker --version
docker-compose --version

如果没有安装，请参考Docker官方文档进行安装。

步骤1：拉取LiteLLM Docker镜像

LiteLLM提供了官方Docker镜像，我们可以直接拉取：

代码片段

docker pull ghcr.io/berriai/litellm:main-latest

参数说明：
– ghcr.io：GitHub容器注册表
– berriai/litellm：LiteLLM的官方仓库
– main-latest：最新的稳定版本标签

实践经验：
如果网络连接不稳定导致拉取失败，可以尝试：
1. 使用国内镜像源
2. 添加--platform linux/amd64参数指定平台

步骤2：运行LiteLLM容器

现在我们可以运行一个LiteLLM容器：

代码片段

docker run -d --name litellm -p 4000:4000 ghcr.io/berriai/litellm:main-latest

参数解释：
– -d：后台运行容器
– --name litellm：为容器指定名称
– -p 4000:4000：将主机的4000端口映射到容器的4000端口
– ghcr.io/berriai/litellm:main-latest：使用的镜像名称

步骤3：验证安装

容器运行后，我们可以通过以下命令检查是否正常运行：

代码片段

docker ps | grep litellm

如果看到类似下面的输出，说明容器正在运行：

代码片段

CONTAINER ID   IMAGE                                COMMAND                  CREATED         STATUS         PORTS                    NAMES
a1b2c3d4e5f6   ghcr.io/berriai/litellm:main-latest   "python3 -m litellm"     2 minutes ago   Up 2 minutes   0.0.0.0:4000->4000/tcp   litellm

也可以通过API测试服务是否可用：

代码片段

curl http://localhost:4000/health

预期响应应该是：

代码片段

{"status":"ok"}

步骤4：基本使用示例

现在我们可以通过简单的HTTP请求与LiteLLM交互。以下是一个Python示例代码：

代码片段

import requests

url = "http://localhost:4000/v1/completions"
headers = {
    "Content-Type": "application/json"
}
data = {
    "model": "gpt-3.5-turbo",
    "messages": [{"role": "user", "content": "你好！介绍一下你自己"}]
}

response = requests.post(url, headers=headers, json=data)
print(response.json())

代码解释：
1. 我们向容器的4000端口发送POST请求
2. /v1/completions是标准的OpenAI API端点格式
3. model参数指定使用的模型（这里使用的是兼容OpenAI API的模型）

高级配置（可选）

如果你想自定义配置，可以挂载配置文件到容器中：

首先创建一个配置文件config.yaml：

代码片段

model_list:
  - model_name: gpt-3.5-turbo-instruct
    litellm_params:
      model: gpt-3.5-turbo-instruct

general_settings:
  completion_model: gpt-3.5-turbo-instruct

然后使用挂载卷的方式运行容器：

代码片段

docker run -d \
  --name litellm \
  -p 4000:4000 \
  -v $(pwd)/config.yaml:/app/config.yaml \
  ghcr.io/berriai/litellm:main-latest \
  --config /app/config.yaml

常见问题解决

Q1: 端口冲突怎么办？

如果4000端口已被占用，可以修改映射端口：

代码片段

docker run -d --name litellm -p [新端口]:4000 ghcr.io/berriai/litellm:main-latest

Q2: GPU加速如何启用？

如果你有NVIDIA GPU并安装了nvidia-docker，可以使用以下命令启用GPU加速：

代码片段

docker run -d --gpus all --name litellm -p 4000:4000 ghcr.io/berriai/litellm:main-latest

Q3: Docker日志如何查看？

使用以下命令查看容器的日志输出：

代码片段

docker logs litellm -f

按Ctrl+C退出日志查看模式。

Docker Compose方式（推荐）

为了更方便管理，我们可以使用Docker Compose。创建一个docker-compose.yml文件：

代码片段

version: '3'

services:
  litellm:
    image: ghcr.io/berriai/litellm:main-latest 
    container_name: litellm 
    ports:
      - "4000:4000"
    restart: unless-stopped 
    volumes:
      - ./config.yaml:/app/config.yaml 
    command: --config /app/config.yaml 

# GPU版本需要取消下面的注释并确保已安装nvidia-docker    
#    deploy:
#      resources:
#        reservations:
#          devices:
#            - driver: nvidia 
#              count: all 
#              capabilities: [gpu]

然后运行：

代码片段

docker-compose up -d

停止服务：

代码片段

docker-compose down

总结

通过本文我们学习了：
1. Docker方式安装LiteLLM的基本步骤 ✅
2. LiteLLM容器的基本配置和验证方法 ✅
3. Python客户端调用示例 ✅
4. Docker Compose的推荐部署方式 ✅
5. GPU加速和常见问题解决方案 ✅

现在你已经拥有了一个功能完整的LiteLLM服务！接下来可以探索更多功能如模型切换、批处理等高级特性。