在Ubuntu Linux上安装Ollama运行大模型的详细教程

云信安装大师
90
AI 质量分
22 4 月, 2025
2 分钟阅读
0 阅读

在Ubuntu Linux上安装Ollama运行大模型的详细教程

引言

Ollama是一个强大的工具,可以让你在本地计算机上轻松运行各种大型语言模型(LLM)。本教程将详细介绍如何在Ubuntu Linux系统上安装和配置Ollama,并运行你的第一个大语言模型。

准备工作

在开始之前,请确保你的系统满足以下要求:

  • Ubuntu 20.04或更高版本
  • 至少8GB内存(运行更大模型需要更多内存)
  • 20GB可用磁盘空间
  • 稳定的网络连接

第一步:安装Ollama

方法1:使用curl一键安装(推荐)

打开终端(Ctrl+Alt+T)并执行以下命令:

代码片段
curl -fsSL https://ollama.com/install.sh | sh

这个命令会:
1. 下载最新的Ollama安装脚本
2. 自动检测你的系统架构
3. 添加Ollama的APT仓库
4. 安装必要的依赖项

方法2:手动下载安装

如果你更喜欢手动安装,可以按照以下步骤:

代码片段
# 下载最新的.deb包
wget https://ollama.com/download/Ollama-linux-amd64.deb

# 安装下载的包
sudo dpkg -i Ollama-linux-amd64.deb

# 修复可能的依赖问题
sudo apt-get install -f

第二步:启动Ollama服务

安装完成后,Ollama服务会自动启动。你可以检查服务状态:

代码片段
sudo systemctl status ollama

如果服务没有运行,可以使用以下命令启动:

代码片段
sudo systemctl start ollama

要使服务在系统启动时自动运行:

代码片段
sudo systemctl enable ollama

第三步:验证安装

输入以下命令验证Ollama是否正确安装:

代码片段
ollama --version

你应该能看到类似这样的输出:

代码片段
ollama version is v0.1.20

第四步:下载和运行你的第一个模型

Ollama支持多种大型语言模型。让我们从较小的模型开始:

1. 下载模型

代码片段
ollama pull llama2:7b-chat-q4_0

这个命令会:
pull: 从Ollama服务器下载模型文件
llama2:7b-chat-q4_0: Meta的Llama2模型的7B参数版本,量化版本(4位),适合对话场景

注意:首次下载可能需要一些时间,取决于你的网络速度和所选模型大小。

2. 运行模型交互式会话

代码片段
ollama run llama2:7b-chat-q4_0

进入交互模式后,你可以直接输入问题或提示词与模型对话。例如:

代码片段
>>> Tell me a joke about computers.

要退出交互模式,输入/bye或按Ctrl+D。

第五步:常用操作指南

列出已下载的模型

代码片段
ollama list

删除不再需要的模型

代码片段
ollama rm llama2:7b-chat-q4_0

以API方式使用Ollama

Ollama提供了REST API接口。启动API服务器:

代码片段
ollama serve &

然后你可以使用curl测试API:

代码片段
curl http://localhost:11434/api/generate -d '{
    "model": "llama2:7b-chat-q4_0",
    "prompt": "为什么天空是蓝色的?"
}'

常见问题解决

Q1: GPU加速不工作?

确保安装了正确的NVIDIA驱动和CUDA工具包:

代码片段
nvidia-smi # 检查GPU状态和驱动版本

# Ubuntu下安装CUDA工具包(可选)
sudo apt install nvidia-cuda-toolkit -y 

Q2: OllAMA服务无法启动?

检查日志获取详细信息:

代码片段
journalctl -u ollama -n50 --no-pager -f 

常见解决方法:
1. sudo systemctl daemon-reload
2. sudo systemctl restart ollama

Q3: Model下载速度慢?

可以尝试设置镜像源(中国大陆用户):

代码片段
export OLLAMA_HOST=https://mirror.example.com #替换为实际镜像地址 
ollama pull llama2:7b-chat-q4_0 

高级配置(可选)

CPU线程数设置

如果你的CPU核心数较多,可以指定线程数提高性能:

代码片段
export OLLAMA_NUM_PARALLEL=8 #设置为CPU核心数的一半到全部之间 
ollama run llama2:7b-chat-q4_0 

RAM限制设置(防止内存不足)

对于内存有限的系统:

代码片段
export OLLAMA_MAX_VRAM=4096 #限制VRAM使用为4GB 
export OLLAMA_MAX_RAM=8192 #限制总RAM使用为8GB 

GPU加速配置(NVIDIA)

如果你有NVIDIA显卡并且安装了CUDA驱动,可以启用GPU加速:

  1. 确认CUDA可用性

    代码片段
    nvcc --version #查看CUDA编译器版本  
    
  2. 启用GPU加速

    代码片段
    export OLLAMA_NO_CUDA=0 #确保启用CUDA  
    
  3. 运行测试

    代码片段
    ollama run llama2:7b-chat-q4_0  
    

    你应该在输出中看到类似using CUDA的信息。

Docker方式运行(可选)

如果你更喜欢使用Docker容器:

  1. 拉取官方镜像:

    代码片段
    docker pull ollama/ollamad  
    
  2. 运行容器:

    代码片段
    docker run -d --gpus=all -v ollamad:/root/.ollamad -p11434:11434 --name ollamad ollamad/ollamad  
    
  3. 使用容器中的客户端:

    代码片段
    docker exec -it ollamad ollamad run llama2  
    

Web UI界面(可选)

如果你想要图形界面:

  1. 安装Open WebUI(原Ollamag WebUI):

    代码片段
    docker run -d --network=host --add-host=host.docker.internal:host-gateway \
        -v open-webui:/app/backend/data \
        --name open-webui \
        --restart always \
        ghcr.io/open-webui/open-webui:main  
    

    然后访问http://localhost:8080

FAQ补充说明

Q: Ollamad支持哪些Linux发行版?
A: Ubuntu/Debian/Fedora/CentOS等主流发行版都支持,但Ubuntu是最稳定测试的平台

Q: Llma3何时会支持?
A: Meta发布Llma3后,Ollamad团队通常会在几周内适配,关注官方GitHub获取最新消息

Q: Mac/Windows能用吗?
A: Mac已有原生支持,Windows可通过WSL或Docker方式运行

Python集成示例

如果你想在自己的Python项目中使用本地运行的Llma模型:

  1. 安装Python客户端库

    代码片段
    pip install ollamapython  
    
  2. 示例代码

    代码片段
    from ollamapython import Ollamapython
    
    llm = Ollamapython(model="llma2")  
    
    response = llm("解释量子计算的基本原理")  
    
    print(response)  
    

    这段代码会连接到本地运行的Ollamad实例并发送请求

Jupyter Notebook集成

对于数据科学家,可以在Jupyter中直接调用:

  1. 首先确保IPython内核可用

    代码片段
    !pip install ipykernel  
    
  2. 创建魔法命令
    “`python
    %load_ext ollamapython.magic

    %%ollma model=”llma2″ temperature=0.7 max_tokens=500

    写一首关于人工智能的诗,包含比喻和押韵。

    输出格式要求:
    标题一行,然后空一行,
    每段四行,每行不超过15个字符。

    请用中文创作。

    现在开始:

    智能之光

    代码如溪流潺潺,
    数据似海洋浩瀚,
    算法若星光闪烁,
    智慧之花绽放。

    学习如孩童蹒跚,
    进步似春笋破土,
    创新若雄鹰展翅,
    未来之门敞开。

    机器有思考能力,
    人类得创造伙伴,
    共生共荣新纪元,
    文明之树常青。

3.保存对话历史

你还可以保存整个对话历史用于后续分析:

代码片段

history = []  

def chat_with_model(prompt):     
response = llm(prompt)     
history.append({"prompt": prompt, "response": response})     
return response  

chat_with_model("Python中如何实现快速排序?")  

#保存到JSON文件 import json with open("chat_history.json", "w") as f:     
json.dump(history, f, ensure_ascii=False, indent=2) 

这样你就可以建立完整的对话记录用于后续分析或训练微调。


通过这篇教程,你应该已经成功在Ubuntu上安装了Ollamad并能够运行各种大型语言模型。无论是用于开发、研究还是日常使用,本地运行的LLM都能提供快速、私密的AI体验。

原创 高质量