在Ubuntu 22.04上使用Ollama部署大模型的完整指南(2024最新版)

云信安装大师
90
AI 质量分
11 5 月, 2025
2 分钟阅读
0 阅读

在Ubuntu 22.04上使用Ollama部署大模型的完整指南(2024最新版)

引言

Ollama是一个强大的开源工具,可以让你在本地轻松运行和管理大型语言模型(LLM)。本文将详细介绍如何在Ubuntu 22.04系统上安装和配置Ollama,并部署流行的大语言模型如Llama 2、Mistral等。无论你是开发者还是AI爱好者,本指南都能帮助你快速上手。

准备工作

在开始之前,请确保你的系统满足以下要求:

  • Ubuntu 22.04 LTS (其他Linux发行版可能略有不同)
  • 至少16GB RAM (运行7B模型的最低要求)
  • 50GB以上可用磁盘空间
  • NVIDIA GPU (推荐)或仅使用CPU模式
  • curl工具已安装

步骤1:安装Ollama

方法一:使用官方安装脚本(推荐)

代码片段
# 下载并运行安装脚本
curl -fsSL https://ollama.com/install.sh | sh

这个脚本会自动完成以下操作:
1. 添加Ollama的APT仓库
2. 安装必要的依赖项
3. 设置Ollama系统服务

方法二:手动安装

如果你更喜欢手动控制安装过程:

代码片段
# 首先添加Ollama的GPG密钥
curl -fsSL https://ollama.com/install.sh | sudo gpg --dearmor -o /usr/share/keyrings/ollama-archive-keyring.gpg

# 添加Ollama的APT源
echo "deb [signed-by=/usr/share/keyrings/ollama-archive-keyring.gpg] https://ollama.com/linux/deb ./" | sudo tee /etc/apt/sources.list.d/ollama.list

# 更新包列表并安装Ollama
sudo apt update && sudo apt install ollama -y

步骤2:启动Ollama服务

安装完成后,启动Ollama服务:

代码片段
# 启动服务
sudo systemctl start ollama

# 设置开机自启
sudo systemctl enable ollama

# 检查服务状态
sudo systemctl status ollama

如果一切正常,你应该看到”active (running)”的状态。

步骤3:下载和运行大模型

现在我们可以开始下载和运行各种大语言模型了。以下是几个流行模型的示例:

Llama 2 (7B参数版本)

代码片段
ollama pull llama2:7b   # 下载7B参数的Llama2模型
ollama run llama2:7b    # 运行模型并与它交互

Mistral (7B参数版本)

代码片段
ollama pull mistral     # Mistral默认就是7B版本
ollama run mistral      # 运行Mistral模型

Code Llama (编程专用模型)

代码片段
ollama pull codellama:7b   # Code Llama的7B版本特别适合代码生成和理解任务
ollama run codellama:7b    # 

注意事项
1. 网络连接:首次下载模型需要良好的网络连接,7B模型的下载大小约为3-5GB。
2. 存储空间:确保有足够的磁盘空间,更大的模型需要更多空间。
3. 内存要求:7B模型至少需要16GB RAM才能流畅运行。

步骤4:优化性能(可选)

如果你的系统有NVIDIA GPU,可以启用CUDA加速:

  1. 确认CUDA已安装

    代码片段
    nvidia-smi   # 查看GPU状态和CUDA版本信息
    
  2. 确保安装了NVIDIA驱动和CUDA工具包

    代码片段
    sudo apt install nvidia-driver-535 nvidia-cuda-toolkit -y   # Ubuntu官方仓库中的版本可能较旧,建议从NVIDIA官网获取最新驱动和CUDA工具包。
    
  3. 重启Ollam服务以应用GPU加速

    代码片段
    sudo systemctl restart ollamad.service 
    
  4. 验证GPU是否被使用
    运行一个模型后,在新的终端中执行:

    代码片段
    nvidia-smi 
    

    你应该能看到一个ollamad进程正在使用GPU资源。

步骤5:常用命令和技巧

Ollam基本命令

代码片段
ollam list          #列出所有已下载的模型  
ollam show <model> #显示特定模型的详细信息  
ollam rm <model>    #删除不再需要的模型  

Python API集成

你可以在Python中使用requests库与本地运行的Ollam实例交互:

代码片段
import requests 

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "mistral",
        "prompt": "为什么天空是蓝色的?用中文回答",
        "stream": False,
    },
) 

print(response.json()["response"])

保存为test_ollam.py后直接运行即可与本地Mistral模型交互。

常见问题解决

1.”CUDA out of memory”错误

这表明你的GPU显存不足。解决方案包括:
-尝试更小的模型(如3B而不是7B)
-降低批处理大小(如果有相关设置)
-改用CPU模式

2.”Connection refused”错误

确保Ollam服务正在运行:

代码片段
sudo systemctl restart ollamad.service  

然后检查11434端口是否监听:

代码片段
ss -tulnp | grep :11434  

3.下载速度慢

可以考虑:
1.更换网络环境
2.手动下载模型文件后导入(高级用户)

总结

通过本指南,你已经学会了:
✅在Ubuntu22.04上安装配置Ollam
✅下载并运行Llma、Mistr等流行大语言模
✅启用GPU加速提升性能
✅使用Python与本地模交互

现在你可以开始探索这些强大AI模型的潜力了!尝试不同的提示词,或者将模集成到你的应用程序中。随着经验的积累,你还可以尝试微调这些模以获得更好的特定任务表现。

原创 高质量