手把手教你在Azure VM上安装LlamaFile，新手必看教程 (2025年05月)

引言

LlamaFile是一个强大的开源大语言模型工具包，它让开发者能够轻松地在本地运行LLM模型。本教程将带你从零开始在Azure虚拟机上部署LlamaFile，即使你是云计算新手也能轻松上手。

准备工作

在开始之前，你需要：
1. 一个有效的Azure账号（可注册免费试用账号）
2. Azure订阅中至少有20GB的可用存储空间
3. 基础命令行操作知识

💡 提示：Azure新用户通常有200美元的免费额度，足够完成本教程

第一步：创建Azure虚拟机

1.1 登录Azure门户

打开浏览器访问 https://portal.azure.com 并登录你的账号。

1.2 创建虚拟机

按照以下步骤操作：

代码片段

# 使用Azure CLI创建VM的等效命令（供参考）
az vm create \
    --resource-group MyResourceGroup \
    --name LlamaFileVM \
    --image Ubuntu2204 \
    --size Standard_NC6s_v3 \  # GPU加速型实例
    --admin-username azureuser \
    --generate-ssh-keys \
    --data-disk-sizes-gb 100   # Llama模型需要额外空间

参数说明：
– --size Standard_NC6s_v3：选择带NVIDIA GPU的实例类型（运行LLM需要）
– --data-disk-sizes-gb 100：为模型文件分配100GB空间

注意事项：
– GPU实例成本较高，测试完成后建议停止或删除VM
– 如果只是学习使用，可以选择Standard_B4ms等非GPU实例（性能会降低）

第二步：连接到虚拟机

2.1 SSH连接

创建完成后，使用SSH连接到你的虚拟机：

代码片段

ssh -i ~/.ssh/id_rsa azureuser@<你的VM公网IP>

2.2 系统更新

连接成功后首先更新系统：

代码片段

sudo apt update && sudo apt upgrade -y
sudo reboot  # 更新后重启

第三步：安装必要组件

3.1 安装基础工具

代码片段

sudo apt install -y wget git python3 python3-pip python3-venv \
    build-essential cmake libopenblas-dev libomp-dev

3.2 NVIDIA驱动安装（GPU实例需要）

代码片段

# 添加GPU驱动仓库
sudo ubuntu-drivers autoinstall

# 验证安装
nvidia-smi  
# 应该能看到类似如下的输出：
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI ...                              |
# |-------------------------------+----------------------+----------------------+

第四步：安装LlamaFile

4.1 Clone仓库

代码片段

git clone https://github.com/Mozilla-Ocho/llamafile.git
cd llamafile

4.2 Python环境设置

代码片段

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

4.3 Build LlamaFile

代码片段

make -j$(nproc)   # -j参数使用所有CPU核心加速编译

# build完成后验证：
./llamafile --version  
# Should output: llamafile version x.x.x (date)

第五步：下载模型文件

LlamaFile本身不包含模型，需要单独下载：

代码片段

mkdir models && cd models

# Example:下载7B参数的Llama2模型(需要先接受Meta的许可)
wget https://huggingface.co/TheBloke/Llama-2-7B-GGUF/resolve/main/llama-2-7b.Q4_K_M.gguf

# For other models, check:
# https://huggingface.co/TheBloke?search_models=gguf

⚠️ 重要：确保下载的模型与你的硬件配置匹配。7B参数模型至少需要8GB RAM，13B需要16GB等。

第六步：运行LlamaFile

6.1 CPU模式运行（基本测试）

代码片段

./llamafile -m ./models/llama-2-7b.Q4_K_M.gguf -p "你好，世界"

你应该能看到模型的文本生成输出。

6.2 GPU加速模式（如果可用）

代码片段

./llamafile -m ./models/llama-2-7b.Q4_K_M.gguf --ngl-layers=20 -p "介绍一下量子计算"

参数说明：
– --ngl-layers=20：将20层神经网络放到GPU上运行（可调整数值优化性能）

Web界面访问（可选）

让LlamaFile启动Web界面：

代码片段

./llamafile -m ./models/llama-2-7b.Q4_K_M.gguf --host :8080

然后在本地浏览器访问：

代码片段

http://<你的VM公网IP>:8080

🔒 安全提示：记得在Azure网络安全组中开放8080端口！

VM优化配置（长期使用）

如果你计划长期使用这个VM：

自动启动脚本：

代码片段

sudo nano /etc/systemd/system/llamafile.service

# [Unit]
# Description=LlamaFile Service

# [Service]
# ExecStart=/home/azureuser/llamafile/llamafile -m /home/azureuser/models/llama-2-7b.Q4_K_M.gguf --host :8080

# [Install]
# WantedBy=multi-user.target

sudo systemctl enable llamafile.service

设置交换空间（防止OOM）：

代码片段

sudo fallocate -l16G /swapfile 
sudo chmod600 /swapfile 
sudo mkswap /swapfile 
sudo swapon /swapfile

FAQ常见问题解决

Q1: SSH连接失败
A:
1) Azure门户 -> VM -> Networking -> Allow inbound SSH (TCP22)
2) ssh-keygen重新生成密钥再试

Q2: ‘make’命令报错
A:

代码片段

sudo apt install build-essential  
make clean && make

Q3: GPU未识别
A:

代码片段

nvidia-smi      #验证驱动状态  
sudo ubuntu-drivers install  
sudo reboot

Azure成本控制技巧

1️⃣ 停止不使用的VM：

代码片段

az vm stop --resource-group MyResourceGroup --name LlamaFileVM

(数据会保留)

2️⃣ 设置预算提醒：
Azure门户 -> Cost Management -> Budgets

3️⃣ 考虑Spot实例(可节省60%成本):

代码片段

az vm create ... --priority Spot

🎉总结🎉

通过本教程你学会了：
✅ Azure VM创建与配置
✅ LlamaFile编译安装全流程
✅ LLM模型下载与加载方法
✅ CPU/GPU不同模式运行技巧

下一步建议：
•尝试不同参数的LLM模型(如13B,70B)
•集成到你的应用项目中

💬 互动:遇到问题或有其他需求？欢迎在评论区留言！