手把手教你在Azure VM上安装LlamaFile,新手必看教程 (2025年05月)

云信安装大师
90
AI 质量分
10 5 月, 2025
2 分钟阅读
0 阅读

手把手教你在Azure VM上安装LlamaFile,新手必看教程 (2025年05月)

引言

LlamaFile是一个强大的开源大语言模型工具包,它让开发者能够轻松地在本地运行LLM模型。本教程将带你从零开始在Azure虚拟机上部署LlamaFile,即使你是云计算新手也能轻松上手。

准备工作

在开始之前,你需要:
1. 一个有效的Azure账号(可注册免费试用账号)
2. Azure订阅中至少有20GB的可用存储空间
3. 基础命令行操作知识

💡 提示:Azure新用户通常有200美元的免费额度,足够完成本教程

第一步:创建Azure虚拟机

1.1 登录Azure门户

打开浏览器访问 https://portal.azure.com 并登录你的账号。

1.2 创建虚拟机

按照以下步骤操作:

代码片段
# 使用Azure CLI创建VM的等效命令(供参考)
az vm create \
    --resource-group MyResourceGroup \
    --name LlamaFileVM \
    --image Ubuntu2204 \
    --size Standard_NC6s_v3 \  # GPU加速型实例
    --admin-username azureuser \
    --generate-ssh-keys \
    --data-disk-sizes-gb 100   # Llama模型需要额外空间

参数说明:
--size Standard_NC6s_v3:选择带NVIDIA GPU的实例类型(运行LLM需要)
--data-disk-sizes-gb 100:为模型文件分配100GB空间

注意事项:
– GPU实例成本较高,测试完成后建议停止或删除VM
– 如果只是学习使用,可以选择Standard_B4ms等非GPU实例(性能会降低)

第二步:连接到虚拟机

2.1 SSH连接

创建完成后,使用SSH连接到你的虚拟机:

代码片段
ssh -i ~/.ssh/id_rsa azureuser@<你的VM公网IP>

2.2 系统更新

连接成功后首先更新系统:

代码片段
sudo apt update && sudo apt upgrade -y
sudo reboot  # 更新后重启

第三步:安装必要组件

3.1 安装基础工具

代码片段
sudo apt install -y wget git python3 python3-pip python3-venv \
    build-essential cmake libopenblas-dev libomp-dev

3.2 NVIDIA驱动安装(GPU实例需要)

代码片段
# 添加GPU驱动仓库
sudo ubuntu-drivers autoinstall

# 验证安装
nvidia-smi  
# 应该能看到类似如下的输出:
# +-----------------------------------------------------------------------------+
# | NVIDIA-SMI ...                              |
# |-------------------------------+----------------------+----------------------+

第四步:安装LlamaFile

4.1 Clone仓库

代码片段
git clone https://github.com/Mozilla-Ocho/llamafile.git
cd llamafile

4.2 Python环境设置

代码片段
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

4.3 Build LlamaFile

代码片段
make -j$(nproc)   # -j参数使用所有CPU核心加速编译

# build完成后验证:
./llamafile --version  
# Should output: llamafile version x.x.x (date)

第五步:下载模型文件

LlamaFile本身不包含模型,需要单独下载:

代码片段
mkdir models && cd models

# Example:下载7B参数的Llama2模型(需要先接受Meta的许可)
wget https://huggingface.co/TheBloke/Llama-2-7B-GGUF/resolve/main/llama-2-7b.Q4_K_M.gguf

# For other models, check:
# https://huggingface.co/TheBloke?search_models=gguf 

⚠️ 重要:确保下载的模型与你的硬件配置匹配。7B参数模型至少需要8GB RAM,13B需要16GB等。

第六步:运行LlamaFile

6.1 CPU模式运行(基本测试)

代码片段
./llamafile -m ./models/llama-2-7b.Q4_K_M.gguf -p "你好,世界"

你应该能看到模型的文本生成输出。

6.2 GPU加速模式(如果可用)

代码片段
./llamafile -m ./models/llama-2-7b.Q4_K_M.gguf --ngl-layers=20 -p "介绍一下量子计算"

参数说明:
--ngl-layers=20:将20层神经网络放到GPU上运行(可调整数值优化性能)

Web界面访问(可选)

让LlamaFile启动Web界面:

代码片段
./llamafile -m ./models/llama-2-7b.Q4_K_M.gguf --host :8080 

然后在本地浏览器访问:

代码片段
http://<你的VM公网IP>:8080 

🔒 安全提示:记得在Azure网络安全组中开放8080端口!

VM优化配置(长期使用)

如果你计划长期使用这个VM:

  1. 自动启动脚本

    代码片段
    sudo nano /etc/systemd/system/llamafile.service
    
    # [Unit]
    # Description=LlamaFile Service
    
    # [Service]
    # ExecStart=/home/azureuser/llamafile/llamafile -m /home/azureuser/models/llama-2-7b.Q4_K_M.gguf --host :8080
    
    # [Install]
    # WantedBy=multi-user.target
    
    sudo systemctl enable llamafile.service 
    
  2. 设置交换空间(防止OOM):

    代码片段
    sudo fallocate -l16G /swapfile 
    sudo chmod600 /swapfile 
    sudo mkswap /swapfile 
    sudo swapon /swapfile 
    

FAQ常见问题解决

Q1: SSH连接失败
A:
1) Azure门户 -> VM -> Networking -> Allow inbound SSH (TCP22)
2) ssh-keygen重新生成密钥再试

Q2: ‘make’命令报错
A:

代码片段
sudo apt install build-essential  
make clean && make  

Q3: GPU未识别
A:

代码片段
nvidia-smi      #验证驱动状态  
sudo ubuntu-drivers install  
sudo reboot  

Azure成本控制技巧

1️⃣ 停止不使用的VM

代码片段
az vm stop --resource-group MyResourceGroup --name LlamaFileVM  

(数据会保留)

2️⃣ 设置预算提醒
Azure门户 -> Cost Management -> Budgets

3️⃣ 考虑Spot实例(可节省60%成本):

代码片段
az vm create ... --priority Spot  

🎉总结🎉

通过本教程你学会了:
✅ Azure VM创建与配置
✅ LlamaFile编译安装全流程
✅ LLM模型下载与加载方法
✅ CPU/GPU不同模式运行技巧

下一步建议:
•尝试不同参数的LLM模型(如13B,70B)
•集成到你的应用项目中

💬 互动:遇到问题或有其他需求?欢迎在评论区留言!

原创 高质量