在Ubuntu Linux上安装Ollama运行大模型的详细教程

引言

Ollama是一个强大的工具，可以让你在本地计算机上轻松运行各种大型语言模型(LLM)。本教程将详细介绍如何在Ubuntu Linux系统上安装和配置Ollama，并运行你的第一个大语言模型。

准备工作

在开始之前，请确保你的系统满足以下要求：

Ubuntu 20.04或更高版本
至少8GB内存（运行更大模型需要更多内存）
20GB可用磁盘空间
稳定的网络连接

第一步：安装Ollama

方法1：使用curl一键安装（推荐）

打开终端(Ctrl+Alt+T)并执行以下命令：

代码片段

curl -fsSL https://ollama.com/install.sh | sh

这个命令会：
1. 下载最新的Ollama安装脚本
2. 自动检测你的系统架构
3. 添加Ollama的APT仓库
4. 安装必要的依赖项

方法2：手动下载安装

如果你更喜欢手动安装，可以按照以下步骤：

代码片段

# 下载最新的.deb包
wget https://ollama.com/download/Ollama-linux-amd64.deb

# 安装下载的包
sudo dpkg -i Ollama-linux-amd64.deb

# 修复可能的依赖问题
sudo apt-get install -f

第二步：启动Ollama服务

安装完成后，Ollama服务会自动启动。你可以检查服务状态：

代码片段

sudo systemctl status ollama

如果服务没有运行，可以使用以下命令启动：

代码片段

sudo systemctl start ollama

要使服务在系统启动时自动运行：

代码片段

sudo systemctl enable ollama

第三步：验证安装

输入以下命令验证Ollama是否正确安装：

代码片段

ollama --version

你应该能看到类似这样的输出：

代码片段

ollama version is v0.1.20

第四步：下载和运行你的第一个模型

Ollama支持多种大型语言模型。让我们从较小的模型开始：

1. 下载模型

代码片段

ollama pull llama2:7b-chat-q4_0

这个命令会：
– pull: 从Ollama服务器下载模型文件
– llama2:7b-chat-q4_0: Meta的Llama2模型的7B参数版本，量化版本(4位)，适合对话场景

注意：首次下载可能需要一些时间，取决于你的网络速度和所选模型大小。

2. 运行模型交互式会话

代码片段

ollama run llama2:7b-chat-q4_0

进入交互模式后，你可以直接输入问题或提示词与模型对话。例如：

代码片段

>>> Tell me a joke about computers.

要退出交互模式，输入/bye或按Ctrl+D。

第五步：常用操作指南

列出已下载的模型

代码片段

ollama list

删除不再需要的模型

代码片段

ollama rm llama2:7b-chat-q4_0

以API方式使用Ollama

Ollama提供了REST API接口。启动API服务器：

代码片段

ollama serve &

然后你可以使用curl测试API：

代码片段

curl http://localhost:11434/api/generate -d '{
    "model": "llama2:7b-chat-q4_0",
    "prompt": "为什么天空是蓝色的？"
}'

常见问题解决

Q1: GPU加速不工作？

确保安装了正确的NVIDIA驱动和CUDA工具包：

代码片段

nvidia-smi # 检查GPU状态和驱动版本

# Ubuntu下安装CUDA工具包(可选)
sudo apt install nvidia-cuda-toolkit -y

Q2: OllAMA服务无法启动？

检查日志获取详细信息：

代码片段

journalctl -u ollama -n50 --no-pager -f

常见解决方法：
1. sudo systemctl daemon-reload
2. sudo systemctl restart ollama

Q3: Model下载速度慢？

可以尝试设置镜像源（中国大陆用户）：

代码片段

export OLLAMA_HOST=https://mirror.example.com #替换为实际镜像地址 
ollama pull llama2:7b-chat-q4_0

高级配置（可选）

CPU线程数设置

如果你的CPU核心数较多，可以指定线程数提高性能：

代码片段

export OLLAMA_NUM_PARALLEL=8 #设置为CPU核心数的一半到全部之间 
ollama run llama2:7b-chat-q4_0

RAM限制设置（防止内存不足）

对于内存有限的系统：

代码片段

export OLLAMA_MAX_VRAM=4096 #限制VRAM使用为4GB 
export OLLAMA_MAX_RAM=8192 #限制总RAM使用为8GB

GPU加速配置（NVIDIA）

如果你有NVIDIA显卡并且安装了CUDA驱动，可以启用GPU加速：

确认CUDA可用性：

代码片段

nvcc --version #查看CUDA编译器版本

启用GPU加速：

代码片段

export OLLAMA_NO_CUDA=0 #确保启用CUDA

运行测试：
代码片段
```
ollama run llama2:7b-chat-q4_0  
```
你应该在输出中看到类似using CUDA的信息。

Docker方式运行（可选）

如果你更喜欢使用Docker容器:

拉取官方镜像:
代码片段
```
docker pull ollama/ollamad  
```

运行容器:

代码片段

docker run -d --gpus=all -v ollamad:/root/.ollamad -p11434:11434 --name ollamad ollamad/ollamad

使用容器中的客户端:
代码片段
```
docker exec -it ollamad ollamad run llama2  
```

Web UI界面（可选）

如果你想要图形界面:

安装Open WebUI(原Ollamag WebUI):

代码片段

docker run -d --network=host --add-host=host.docker.internal:host-gateway \
    -v open-webui:/app/backend/data \
    --name open-webui \
    --restart always \
    ghcr.io/open-webui/open-webui:main

然后访问http://localhost:8080

FAQ补充说明

Q: Ollamad支持哪些Linux发行版?
A: Ubuntu/Debian/Fedora/CentOS等主流发行版都支持,但Ubuntu是最稳定测试的平台

Q: Llma3何时会支持?
A: Meta发布Llma3后,Ollamad团队通常会在几周内适配,关注官方GitHub获取最新消息

Q: Mac/Windows能用吗?
A: Mac已有原生支持,Windows可通过WSL或Docker方式运行

Python集成示例

如果你想在自己的Python项目中使用本地运行的Llma模型:

安装Python客户端库
代码片段
```
pip install ollamapython  
```

示例代码

代码片段

from ollamapython import Ollamapython

llm = Ollamapython(model="llma2")  

response = llm("解释量子计算的基本原理")  

print(response)

这段代码会连接到本地运行的Ollamad实例并发送请求

Jupyter Notebook集成

对于数据科学家,可以在Jupyter中直接调用:

首先确保IPython内核可用
代码片段
```
!pip install ipykernel  
```
创建魔法命令
“`python
%load_ext ollamapython.magic

%%ollma model=”llma2″ temperature=0.7 max_tokens=500

写一首关于人工智能的诗,包含比喻和押韵。

输出格式要求:
标题一行,然后空一行,
每段四行,每行不超过15个字符。

请用中文创作。

现在开始:

智能之光

代码如溪流潺潺,
数据似海洋浩瀚,
算法若星光闪烁,
智慧之花绽放。

学习如孩童蹒跚,
进步似春笋破土,
创新若雄鹰展翅,
未来之门敞开。

机器有思考能力,
人类得创造伙伴,
共生共荣新纪元,
文明之树常青。

3.保存对话历史

你还可以保存整个对话历史用于后续分析:

代码片段


history = []  

def chat_with_model(prompt):     
response = llm(prompt)     
history.append({"prompt": prompt, "response": response})     
return response  

chat_with_model("Python中如何实现快速排序?")  

#保存到JSON文件 import json with open("chat_history.json", "w") as f:     
json.dump(history, f, ensure_ascii=False, indent=2)

这样你就可以建立完整的对话记录用于后续分析或训练微调。

通过这篇教程，你应该已经成功在Ubuntu上安装了Ollamad并能够运行各种大型语言模型。无论是用于开发、研究还是日常使用，本地运行的LLM都能提供快速、私密的AI体验。