在Ubuntu 22.04上使用Ollama部署大模型的完整指南(2024最新版)

引言

Ollama是一个强大的开源工具，可以让你在本地轻松运行和管理大型语言模型(LLM)。本文将详细介绍如何在Ubuntu 22.04系统上安装和配置Ollama，并部署流行的大语言模型如Llama 2、Mistral等。无论你是开发者还是AI爱好者，本指南都能帮助你快速上手。

准备工作

在开始之前，请确保你的系统满足以下要求：

Ubuntu 22.04 LTS (其他Linux发行版可能略有不同)
至少16GB RAM (运行7B模型的最低要求)
50GB以上可用磁盘空间
NVIDIA GPU (推荐)或仅使用CPU模式
curl工具已安装

步骤1：安装Ollama

方法一：使用官方安装脚本(推荐)

代码片段

# 下载并运行安装脚本
curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动完成以下操作：
1. 添加Ollama的APT仓库
2. 安装必要的依赖项
3. 设置Ollama系统服务

方法二：手动安装

如果你更喜欢手动控制安装过程：

代码片段

# 首先添加Ollama的GPG密钥
curl -fsSL https://ollama.com/install.sh | sudo gpg --dearmor -o /usr/share/keyrings/ollama-archive-keyring.gpg

# 添加Ollama的APT源
echo "deb [signed-by=/usr/share/keyrings/ollama-archive-keyring.gpg] https://ollama.com/linux/deb ./" | sudo tee /etc/apt/sources.list.d/ollama.list

# 更新包列表并安装Ollama
sudo apt update && sudo apt install ollama -y

步骤2：启动Ollama服务

安装完成后，启动Ollama服务：

代码片段

# 启动服务
sudo systemctl start ollama

# 设置开机自启
sudo systemctl enable ollama

# 检查服务状态
sudo systemctl status ollama

如果一切正常，你应该看到”active (running)”的状态。

步骤3：下载和运行大模型

现在我们可以开始下载和运行各种大语言模型了。以下是几个流行模型的示例：

Llama 2 (7B参数版本)

代码片段

ollama pull llama2:7b   # 下载7B参数的Llama2模型
ollama run llama2:7b    # 运行模型并与它交互

Mistral (7B参数版本)

代码片段

ollama pull mistral     # Mistral默认就是7B版本
ollama run mistral      # 运行Mistral模型

Code Llama (编程专用模型)

代码片段

ollama pull codellama:7b   # Code Llama的7B版本特别适合代码生成和理解任务
ollama run codellama:7b    #

注意事项：
1. 网络连接：首次下载模型需要良好的网络连接，7B模型的下载大小约为3-5GB。
2. 存储空间：确保有足够的磁盘空间，更大的模型需要更多空间。
3. 内存要求：7B模型至少需要16GB RAM才能流畅运行。

步骤4：优化性能(可选)

如果你的系统有NVIDIA GPU，可以启用CUDA加速：

确认CUDA已安装：

代码片段

nvidia-smi   # 查看GPU状态和CUDA版本信息

确保安装了NVIDIA驱动和CUDA工具包：

代码片段

sudo apt install nvidia-driver-535 nvidia-cuda-toolkit -y   # Ubuntu官方仓库中的版本可能较旧，建议从NVIDIA官网获取最新驱动和CUDA工具包。

重启Ollam服务以应用GPU加速：
代码片段
```
sudo systemctl restart ollamad.service 
```
验证GPU是否被使用：
运行一个模型后，在新的终端中执行：
代码片段
```
nvidia-smi 
```
你应该能看到一个ollamad进程正在使用GPU资源。

步骤5：常用命令和技巧

Ollam基本命令

代码片段

ollam list          #列出所有已下载的模型  
ollam show <model> #显示特定模型的详细信息  
ollam rm <model>    #删除不再需要的模型

Python API集成

你可以在Python中使用requests库与本地运行的Ollam实例交互：

代码片段

import requests 

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "mistral",
        "prompt": "为什么天空是蓝色的？用中文回答",
        "stream": False,
    },
) 

print(response.json()["response"])

保存为test_ollam.py后直接运行即可与本地Mistral模型交互。

常见问题解决

1.”CUDA out of memory”错误

这表明你的GPU显存不足。解决方案包括:
-尝试更小的模型(如3B而不是7B)
-降低批处理大小(如果有相关设置)
-改用CPU模式

2.”Connection refused”错误

确保Ollam服务正在运行:

代码片段

sudo systemctl restart ollamad.service

然后检查11434端口是否监听:

代码片段

ss -tulnp | grep :11434

3.下载速度慢

可以考虑:
1.更换网络环境
2.手动下载模型文件后导入(高级用户)

总结

通过本指南,你已经学会了:
✅在Ubuntu22.04上安装配置Ollam
✅下载并运行Llma、Mistr等流行大语言模
✅启用GPU加速提升性能
✅使用Python与本地模交互

现在你可以开始探索这些强大AI模型的潜力了!尝试不同的提示词,或者将模集成到你的应用程序中。随着经验的积累,你还可以尝试微调这些模以获得更好的特定任务表现。