手把手教你在Intel Mac上安装LiteLLM，新手必看教程 (2025年05月)

引言

LiteLLM是一个轻量级的开源大语言模型推理框架，它可以帮助开发者在本地快速部署和运行各种开源大语言模型。对于使用Intel芯片Mac电脑的用户来说，正确安装LiteLLM可以让你在不依赖云端服务的情况下体验AI能力。本教程将详细介绍在Intel Mac上安装LiteLLM的完整步骤。

准备工作

在开始安装前，请确保你的Intel Mac满足以下要求：

macOS 10.15 (Catalina) 或更高版本
Intel处理器（非Apple Silicon）
Python 3.8或更高版本
至少8GB内存（推荐16GB以上）
至少20GB可用磁盘空间

检查你的系统信息

打开终端（Terminal），输入以下命令查看你的Mac处理器信息：

代码片段

sysctl -n machdep.cpu.brand_string

你应该会看到类似”Intel(R) Core(TM) i7-9750H CPU @ 2.60GHz”的输出，确认是Intel处理器。

步骤1：安装Homebrew

Homebrew是macOS上的包管理器，可以简化软件安装过程。

代码片段

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装完成后，将Homebrew添加到你的PATH环境变量中：

代码片段

echo 'eval "$(/usr/local/bin/brew shellenv)"' >> ~/.zshrc
source ~/.zshrc

验证安装是否成功：

代码片段

brew --version

步骤2：安装Python和相关工具

虽然macOS自带Python，但建议使用Homebrew安装最新版本：

代码片段

brew install python

同时安装pip（Python包管理器）：

代码片段

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python3 get-pip.py

验证Python和pip安装：

代码片段

python3 --version
pip3 --version

步骤3：创建虚拟环境

为了避免与其他Python项目冲突，我们创建一个专门的虚拟环境：

代码片段

python3 -m venv litellm_env
source litellm_env/bin/activate

你会看到终端提示符前面出现(litellm_env)，表示已激活虚拟环境。

步骤4：安装LiteLLM

现在可以正式安装LiteLLM了：

代码片段

pip install litellm[all]

这个命令会安装LiteLLM核心包及其所有可选依赖项。

可选：加速依赖项安装

如果你遇到下载速度慢的问题，可以使用国内镜像源：

代码片段

pip install litellm[all] -i https://pypi.tuna.tsinghua.edu.cn/simple/

步骤5：验证安装

运行以下命令验证LiteLLM是否成功安装：

代码片段

python3 -c "import litellm; print(litellm.__version__)"

如果看到版本号输出（如”0.10.0″），说明安装成功。

步骤6：运行第一个示例

让我们创建一个简单的Python脚本来测试LiteLLM的基本功能。创建一个名为test_litellm.py的文件：

代码片段

# test_litellm.py

from litellm import completion

# LiteLLM默认使用OpenAI API格式的接口进行调用测试
response = completion(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": "你好！请介绍一下你自己"}]
)

print(response)

运行这个脚本：

代码片段

python3 test_litellm.py

注意：这个示例默认会尝试连接OpenAI API。如果你想在本地运行开源模型，需要额外配置。

进阶配置：本地运行开源模型

如果你想在本地运行开源大模型如Llama或Mistral，需要额外步骤：

1. 下载模型权重文件

首先下载你想要的模型权重文件。以Llama2为例（需要先申请访问权限）：

代码片段

mkdir -p ~/models/llama2-7b-chat-hf && cd ~/models/llama2-7b-chat-hf
wget [模型下载链接]
unzip [下载的文件名]

2. 使用LiteLLM加载本地模型

修改之前的测试脚本为使用本地模型：

代码片段

# local_model_test.py

from litellm import completion

response = completion(
    model="local/localhost:8000",   # LiteLLM支持连接到本地服务器运行的模型
    messages=[{"role": "user", "content": "你好！请介绍一下你自己"}],
    api_base="http://localhost:8000"   # HuggingFace TGI服务器地址或其他本地推理服务器地址

)

print(response)

3. 启动本地推理服务器（以HuggingFace TGI为例）

首先安装Text Generation Inference服务：

代码片段

docker pull ghcr.io/huggingface/text-generation-inference:latest 
docker run --gpus all --shm-size 1g -p 8000:80 \
           -v ~/models/llama2-7b-chat-hf:/data \
           ghcr.io/huggingface/text-generation-inference:latest \
           --model-id /data \
           --quantize bitsandbytes-nf4 \
           --max-input-length=2048 \
           --max-total-tokens=4096

注意：这需要你的Mac安装了Docker并且有足够的资源来运行模型。

常见问题解决

Q1: pip install时出现权限错误？

解决方案：
1. 确保使用了虚拟环境（已激活）
2. 或者尝试添加--user参数：

代码片段

pip install --user litellm[all]<br>

Q2: Intel Mac性能不足？

建议：
1. 尝试更小的量化版本模型（如4-bit量化）
2. 减少max_tokens参数值以限制生成长度
3. 考虑使用云服务API替代本地运行

Q3: Docker容器无法启动？

检查：
1. Docker是否已正确安装在你的Mac上
2. Mac是否有足够的内存分配给Docker（建议至少8GB）
3. Docker Desktop的资源设置是否足够

GPU加速选项（适用于带AMD GPU的Intel Mac）

如果你的Intel Mac配备了AMD显卡（如某些iMac Pro或Mac Pro），可以尝试通过ROCm获得GPU加速：

启用ROCm支持：

代码片段

export PYTORCH_ROCM_ARCH="gfx900 gfx906 gfx908 gfx90a"
pip uninstall torch torchvision torchaudio -y 
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.4.2

验证PyTorch是否识别到GPU：

代码片段

import torch 
print(torch.cuda.is_available())  
print(torch.backends.mps.is_available())

注意：macOS上的GPU支持有限，性能可能不如预期。

总结

通过本教程，你已经学会了在Intel Mac上：
1. ✅ 准备Python开发环境
2. ✅ 通过pip正确安装LiteLLM
3. ✅ 验证基本功能
4. ✅ （可选）配置本地开源大语言模型

虽然Intel Mac的性能可能不如Apple Silicon芯片或专业GPU服务器强大，但通过合理的配置和量化技术，你仍然可以在本地体验各种大语言模型的强大功能。