树莓派Ollama安装配置一条龙教程 (含疑难解答)

引言

Ollama是一个强大的本地大语言模型运行框架，可以让你在树莓派上轻松运行各种开源AI模型。本教程将带你从零开始，在树莓派上完成Ollama的安装、配置和使用全过程，并包含常见问题的解决方案。

准备工作

硬件要求

推荐型号：树莓派4B/5 (8GB内存版本最佳)
存储空间：至少32GB SD卡(建议64GB以上)
操作系统：Raspberry Pi OS (64位)

系统准备

代码片段

# 更新系统
sudo apt update && sudo apt upgrade -y

# 安装基础依赖
sudo apt install -y curl wget git python3-pip

第一部分：Ollama安装

1. 下载Ollama

代码片段

# 下载最新版Ollama
curl -fsSL https://ollama.com/install.sh | sh

原理说明：这个命令会从Ollama官网下载安装脚本并自动执行，完成以下工作：
1. 检测系统架构(自动识别ARM64)
2. 下载预编译的二进制文件
3. 设置系统服务

2. 验证安装

代码片段

# 检查服务状态
systemctl status ollama

# 测试运行(首次运行会自动下载基础模型)
ollama run llama2

第二部分：模型管理

1. 查看可用模型

代码片段

ollama list

2. 下载适合树莓派的轻量模型

代码片段

# TinyLlama (适合4GB内存设备)
ollama pull tinyllama

# Phi-2 (微软轻量模型)
ollama pull phi

# Gemma (Google轻量模型)
ollama pull gemma:2b-instruct-fp16

注意事项：
– :2b-instruct-fp16表示使用2B参数的FP16量化版本
– tinyllama约1.1GB，phi约1.8GB，请确保有足够存储空间

3. 运行模型示例

代码片段

# Phi-2对话示例(输入后按两次回车开始对话)
ollama run phi "请用中文解释量子计算的基本概念"

第三部分：性能优化配置

1. GPU加速设置(仅限Pi5)

代码片段

sudo nano /etc/systemd/system/ollama.service

在[Service]部分添加：

代码片段

Environment="OLLAMA_GPU_LAYERS=10"
Environment="OLLAMA_KEEP_ALIVE=5m"

然后重启服务：

代码片段

sudo systemctl daemon-reload
sudo systemctl restart ollama

2. SWAP交换空间扩展(推荐4GB以下设备)

代码片段

# 查看当前swap大小(通常100MB)
free -h

# 创建4GB交换文件(根据SD卡容量调整)
sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# 永久生效配置(重启后保留)
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

第四部分：疑难解答

Q1: OOM错误(内存不足)

现象：

代码片段

error: failed to load model: context deadline exceeded

解决方案：
1. 换更小模型：使用tinyllama或phi
2. 增加SWAP(见第三部分步骤2)
3. 限制线程数：

代码片段

export OLLAMA_NUM_PARALLEL=1 # CPU核心较少时设置1或2 <br>

Q2: API端口冲突

默认端口11434被占用时：

代码片段

# A)查找占用进程并处理:
sudo lsof -i :11434 

# B)或者修改Ollama端口:
export OLLAMA_HOST=0.0.0.0:11435 #改为11435端口 
systemctl restart ollama

Q3: ARM64兼容性问题

如果遇到架构错误：

代码片段

uname -m #确认是否为aarch64 

#手动下载ARM版本:
wget https://ollama.com/download/ollama-linux-arm64 
chmod +x ollama-linux-arm64 
./ollama-linux-arm64 serve #手动启动

Python集成示例

安装Python客户端：

python3 -m pip install ollama --upgrade

示例代码(chat.py)：

代码片段

import ollama

response = ollama.chat(
    model='tinyllama',
    messages=[{
        'role': 'user',
        'content': '用中文解释什么是RESTful API?'
    }]
)

print(response['message']['content'])

运行方式：

代码片段

python3 chat.py

WebUI访问(可选)

使用开源Web界面：

代码片段

docker run -d -p3000:3000 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main 

访问 http://树莓派IP:3000

总结与建议

关键点回顾：
1. 硬件选择：8GB内存版体验最佳，4GB需使用轻量模型+SWAP扩展
2. 模型选择：优先考虑tinyllama/phi/gemma:2b等小模型
3. 性能优化：
– Pi5可开启GPU加速层
– CPU受限设备设置OLLAMA_NUM_PARALLEL=1
4. 长期运行建议：

代码片段

#后台持续运行命令:
nohup ollama serve > /dev/null &  <br>

进阶建议：
– 结合LangChain开发复杂应用
– 定时任务清理缓存: crontab -e添加每日清理任务

通过本教程，你应该已经成功在树莓派上部署了Ollama环境。虽然性能有限，但足以体验本地大模型的魅力！