在Ubuntu 22.04上使用Ollama部署Llama 2大模型的完整指南（2024最新）

引言

Llama 2是Meta推出的开源大语言模型，性能优异且完全免费。Ollama是一个简化大模型本地部署的工具，让开发者可以轻松在个人电脑或服务器上运行这些模型。本教程将详细介绍如何在Ubuntu 22.04系统上使用Ollama部署Llama 2模型。

准备工作

系统要求

Ubuntu 22.04 LTS（推荐全新安装）
至少16GB RAM（运行7B模型最低要求）
20GB可用磁盘空间
NVIDIA GPU（可选，但强烈推荐）

GPU准备（可选但推荐）

如果你有NVIDIA显卡，建议先安装CUDA驱动：

代码片段

sudo apt update
sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

安装完成后重启系统，然后验证驱动是否正常：

代码片段

nvidia-smi

步骤1：安装Ollama

通过官方脚本安装

Ollama提供了便捷的安装脚本：

代码片段

curl -fsSL https://ollama.com/install.sh | sh

这个命令会：
1. 添加Ollama的APT源
2. 安装ollama软件包
3. 创建ollama系统用户和组
4. 设置systemd服务

验证安装

检查服务状态：

代码片段

systemctl status ollama

如果显示”active (running)”表示安装成功。

（可选）添加到用户组

为了避免每次使用sudo，可以将当前用户加入ollama组：

代码片段

sudo usermod -aG ollama $USER
newgrp ollama

步骤2：下载Llama 2模型

Ollama支持多个版本的Llama模型，我们以7B参数版本为例：

代码片段

ollama pull llama2:7b

这个命令会：
1. 从Ollama服务器下载Llama2-7B模型文件（约3.8GB）
2. 自动验证文件完整性

其他可用版本：
– llama2:13b – 13B参数版本（需要24GB以上内存）
– llama2:70b – 70B参数版本（需要64GB以上内存）

注意：首次下载可能需要较长时间，取决于你的网络速度。如果中断可以重新运行命令继续下载。

步骤3：运行Llama模型

基本交互模式

启动与模型的对话：

代码片段

ollama run llama2:7b

输入你的问题或提示词后按回车，例如：”请用中文解释量子计算的基本原理”

按Ctrl+D退出对话。

API模式（适合开发者）

启动API服务：

代码片段

ollama serve &

然后可以用curl测试API：

代码片段

curl http://localhost:11434/api/generate -d '{
 "model": "llama2:7b",
 "prompt": "为什么天空是蓝色的？",
 "stream": false,
 "options": {
   "temperature": 0.7,
   "num_ctx": 2048,
   "seed":42 
 }
}'

步骤4：优化配置（高级）

GPU加速配置（如果有NVIDIA显卡）

编辑配置文件：

代码片段

sudo nano /etc/systemd/system/ollama.service

在[Service]部分添加环境变量：

代码片段

Environment="OLLAMA_NO_CUDA=0"
Environment="CUDA_VISIBLE_DEVICES=0"

然后重新加载并重启服务：

代码片段

sudo systemctl daemon-reload
sudo systemctl restart ollama

RAM不足时的解决方案（交换空间）

如果你只有16GB内存但想运行13B模型，可以增加交换空间：

代码片段

# 创建8GB交换文件（根据你的磁盘空间调整大小） 
sudo fallocate -l 8G /swapfile 
sudo chmod 600 /swapfile 
sudo mkswap /swapfile 
sudo swapon /swapfile 

# 永久生效 
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Llama模型使用示例

Python集成示例代码

以下是一个简单的Python脚本，展示如何通过API与Llama交互：

代码片段

import requests

def ask_llama(question, model="llama2:7b"):
    url = "http://localhost:11434/api/generate"
    data = {
        "model": model,
        "prompt": question,
        "stream": False,
        "options": {"temperature":0.7}
    }

    response = requests.post(url, json=data)
    if response.status_code ==200:
        return response.json()["response"]
    else:
        return f"Error: {response.text}"

# Example usage:
print(ask_llama("用中文解释神经网络的基本原理"))

Troubleshooting常见问题

CUDA错误：如果出现CUDA相关错误，尝试设置环境变量export OLLAMA_NO_CUDA=1临时禁用GPU加速
内存不足：小内存机器建议使用量化版模型如llava:7b-q4
下载中断：删除不完整的下载并重试：rm -rf ~/.ollam/models/manifests/registry.ollam.ai/*
端口冲突：修改默认端口号export OLLAMA_HOST=0.0.0.0:11435

Llava多模态扩展（视觉+语言）

除了纯文本的Llma外，还可以尝试多模态的LlaVA：

代码片段

ollam pull llava:7b 
ollam run llava:7b --image /path/to/image.jpg --prompt "描述这张图片的内容"

Docker方式运行（可选）

如果你更喜欢容器化部署：

代码片段

docker run -d --gpus=all -v ollam:/root/.ollam -p11434:11434 --name ollam ollam/ollam 

docker exec ollam ollam pull llama2:7b 
docker exec -it ollam ollam run llama2:7b

CPU性能优化技巧

如果没有GPU，可以通过以下设置提高CPU推理速度：

代码片段

export OMP_NUM_THREADS=$(nproc) 
export GOMP_CPU_AFFINITY="0-$(($(nproc)-1))" 
taskset -c $(seq -s,0 $(($(nproc)-1))) ollam run llama2:7b

Web UI界面访问

可以使用开源Web界面增强体验：

代码片段

docker run -d --network host --name open-webui \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://localhost:11434 \  
ghcr.io/open-webui/open-webui:mian 

#访问 http://localhost8080注册账号即可使用图形界面

CLI常用命令速查表

命令	说明
`ollam list`\|查看已下载的模型
`ollam show <model>`\|显示模型详情
`ollam rm <model>`\|删除指定模型
`ollam cp <src> <dst>`\|复制模型副本

Llma提示词工程技巧

为了获得更好的回答质量：

明确指令：”你是一位资深的AI研究员，请用通俗易懂的语言解释Transformer架构”
分步思考：”让我们一步步思考解决这个问题…”
示例引导：”以下是几个正确回答的例子…”
格式控制：”请用Markdown格式回答，包含标题和列表”
角色扮演：”假设你是Linux系统管理员…”
长度限制：”请用100字以内总结…”

通过本教程，你应该已经成功在Ubuntu上部署了Llma大语言模型。现在你可以开始探索AI对话、内容生成、代码辅助等各种应用场景了！

命令	说明
`ollam list`\|查看已下载的模型
`ollam show <model>`\|显示模型详情
`ollam rm <model>`\|删除指定模型
`ollam cp <src> <dst>`\|复制模型副本