Arch Linux下Llama 3从安装到运行的全流程图解

云信安装大师
90
AI 质量分
10 5 月, 2025
2 分钟阅读
0 阅读

Arch Linux下Llama 3从安装到运行的全流程图解

引言

Llama 3是Meta推出的新一代开源大语言模型,相比前代有显著的性能提升。本文将详细介绍在Arch Linux系统上从零开始安装和运行Llama 3的完整流程,包括环境准备、依赖安装、模型下载和运行推理的全过程。

准备工作

系统要求

  • Arch Linux (已更新至最新版本)
  • Python 3.10+
  • NVIDIA显卡 (推荐) 或 CPU
  • 至少16GB内存 (32GB以上更佳)
  • 30GB以上磁盘空间 (用于存放模型)

前置知识

  • 基本的Linux命令行操作
  • Python环境管理基础
  • Git基础用法

详细步骤

1. 系统环境准备

首先更新系统并安装必要的依赖:

代码片段
# 更新系统
sudo pacman -Syu

# 安装基本依赖
sudo pacman -S --needed base-devel git python python-pip cmake wget

对于NVIDIA显卡用户,需要安装CUDA工具包:

代码片段
# 安装CUDA和cuDNN
sudo pacman -S cuda cudnn

# 验证CUDA安装
nvidia-smi

2. Python环境配置

推荐使用conda或venv创建隔离的Python环境:

代码片段
# 创建虚拟环境(二选一)
python -m venv llama-env       # venv方式
source llama-env/bin/activate   # 激活环境

# 或者使用conda(如果已安装)
conda create -n llama-env python=3.10
conda activate llama-env

3. Llama.cpp安装与配置

Llama.cpp是一个高效的C++实现,可以本地运行Llama模型:

代码片段
# 克隆仓库并编译
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

# CPU版本编译(默认)
make

# GPU版本编译(CUDA支持)
make LLAMA_CUBLAS=1

# Python绑定安装(可选)
pip install numpy sentencepiece torch 

4. Llama 3模型下载与转换

由于Llama模型需要从Meta官网申请访问权限,这里提供两种方式:

A. Hugging Face下载(需授权)

代码片段
pip install huggingface-hub>=0.19.4

# CLI登录(需token)
huggingface-cli login

# 下载8B参数模型(GGUF格式)
huggingface-cli download TheBloke/Llama-3-8B-Instruct-GGUF --local-dir models --local-dir-use-symlinks False --include "*.gguf"

B. Meta官方下载(需申请)

  1. 访问Meta AI官网申请权限
  2. 获得批准后下载原始权重(.pth文件)
  3. 转换为GGUF格式:
代码片段
python convert.py models/llama-3-8b/

# CPU量化(推荐Q4_K_M)
./quantize models/llama-3-8b/f16.bin models/llama-3-8b/q4_0.bin q4_0

5. Llama.cpp模型运行测试

代码片段
# CPU运行示例(8线程) - Q4量化模型
./main -m ./models/Llama-3-8B-Instruct-Q4_K_M.gguf \
       -p "你好,请介绍一下你自己" \
       -n 128 \
       --color \
       --threads $(nproc) \
       --temp 0.7 \
       --repeat_penalty 1.1 \
       --ctx-size=2048 \
       --keep -1 \
       --mlock 

# GPU加速运行(CUDA) 
./main -m ./models/Llama-3-8B-Instruct-Q4_K_M.gguf \
       -p "你好,请介绍一下你自己" \ 
       -ngl-layers=40 \   # GPU层数(根据显存调整) 
       --color \
       --temp=0.7 

(可选)6. Web UI界面部署

如需图形界面,可部署text-generation-webui:

代码片段
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui

pip install -r requirements.txt 

# Llama.cpp后端启动参数示例:
python server.py --model TheBloke_Llama-3-8B-Instruct-GGUF \ 
                 --model_type llama \ 
                 --n-gpu-layers=40 \ 
                 --threads=$(nproc) \ 
                 --listen-port=7860 \ 
                 --chat-mode=llama3 

# Web访问地址: http://localhost:7860/

Llama.cpp常用参数详解

参数 说明
-m <路径> GGUF格式的模型文件路径
-p <提示词> Prompt提示词
`
原创 高质量