树莓派Whisper安装配置一条龙教程 (含疑难解答)

引言

Whisper是OpenAI开源的语音识别系统，能够将语音转换为文字。本教程将指导你在树莓派上完整安装配置Whisper，并解决可能遇到的常见问题。

准备工作

硬件要求

树莓派4B/5 (推荐4GB内存及以上版本)
16GB以上存储空间的SD卡
稳定的网络连接

软件要求

Raspberry Pi OS (64位版本)
Python 3.9或更高版本

📝 注意：32位系统可能无法运行某些依赖库，强烈建议使用64位系统

第一步：系统更新与基础环境配置

代码片段

# 更新系统软件包
sudo apt update && sudo apt upgrade -y

# 安装基础依赖
sudo apt install -y python3-pip python3-dev ffmpeg libatlas-base-dev

原理说明：
– ffmpeg：用于音频文件处理
– libatlas-base-dev：提供优化的数学运算库

第二步：Python环境准备

代码片段

# 创建虚拟环境（推荐）
python3 -m venv whisper-env
source whisper-env/bin/activate

# 安装最新版pip
pip install --upgrade pip

💡 经验分享：使用虚拟环境可以避免系统Python环境的污染，方便管理不同项目的依赖

第三步：安装Whisper核心组件

代码片段

# 安装whisper和依赖项
pip install git+https://github.com/openai/whisper.git 

# 安装加速库（可选但推荐）
pip install setuptools-rust

参数解释：
– git+https://...：直接从GitHub仓库安装最新版
– setuptools-rust：加速某些组件的编译过程

第四步：模型下载与配置

Whisper提供了多种大小的模型：

模型名称	所需显存	相对速度
tiny	~1GB	~32x
base	~1GB	~16x
small	~2GB	~6x
medium	~5GB	~2x
large	~10GB	1x

代码片段

# 下载base模型（推荐树莓派使用）
whisper --model base --language en --task transcribe --output_dir /tmp/ test_audio.wav

⚠️ 注意事项：
– 首次运行会自动下载模型，文件会保存在~/.cache/whisper
– 树莓派建议使用tiny或base模型，更大的模型可能导致内存不足

第五步：测试语音转文字功能

创建一个测试音频文件：

代码片段

# 录制10秒测试音频（按Ctrl+C停止）
arecord -d 10 -f S16_LE -r 16000 -c1 test.wav

然后运行识别：

代码片段

import whisper

model = whisper.load_model("base")
result = model.transcribe("test.wav")
print(result["text"])

代码解释：
1. load_model加载指定大小的模型
2. transcribe方法执行语音识别
3. result字典包含识别结果和其他信息

疑难解答专区

Q1: 运行时出现”非法指令”错误

解决方案：
这是因为某些指令集不被旧版树莓派支持。重新编译依赖：

代码片段

pip uninstall numpy && pip install numpy --no-binary numpy

Q2: “Out of memory”内存不足错误

解决方案：
1. 使用更小的模型（如tiny）
2. 增加交换空间：

代码片段

sudo nano /etc/dphys-swapfile # CONF_SWAPSIZE=1024 -> CONF_SWAPSIZE=2048 
sudo systemctl restart dphys-swapfile.service

Q3: FFmpeg相关错误

解决方案：
确保正确安装了FFmpeg：

代码片段

sudo apt install ffmpeg -y 
ffmpeg -version #验证安装

GPU加速配置（高级）

如果你的树莓派有兼容的GPU，可以尝试以下优化：

代码片段

# Install ROCm for AMD GPUs (Raspberry Pi GPU not supported)
# For NVIDIA Jetson: follow JetPack installation guide 

pip install onnxruntime-gpu # Alternative acceleration

🔍 注意：标准树莓派的VideoCore GPU目前不支持Whisper加速，此步骤主要针对其他SBC设备参考

Python完整示例脚本

以下是一个完整的录音+识别的Python脚本：

代码片段

#!/usr/bin/env python3 
import whisper 
import subprocess 
import os 

def record_audio(filename="output.wav", duration=5): 
    """录制音频"""
    cmd = f"arecord -d {duration} -f S16_LE -r16000 -c1 {filename}"
    subprocess.run(cmd, shell=True, check=True) 

def transcribe_audio(model_name="base", audio_file="output.wav"):
    """语音转文字"""
    model = whisper.load_model(model_name) 
    result = model.transcribe(audio_file) 
    return result["text"] 

if __name__ == "__main__":
    print("=== Whisper语音识别测试 ===") 

    # Step1:录音 
    audio_file = "test_recording.wav" 
    record_audio(audio_file, duration=8) 

    # Step2:识别(使用base模型)  
    print("\n识别中...")  
    text = transcribe_audio("base", audio_file)  

    print("\n识别结果:")  
    print(text)  

    # Step3:清理(可选)
    os.remove(audio_file)

CPU优化技巧

提高树莓派上的运行效率：

超频CPU（有风险）：

代码片段

sudo nano /boot/config.txt 
#添加:
over_voltage=2  
arm_freq=2000

使用量化模型：

代码片段

model = whisper.load_model("base.en").to("cpu")

关闭实时预览：

代码片段

result = model.transcribe(audio_path, verbose=False)

总结

通过本教程你已完成了：
✅ Whisper在树莓派的完整安装
✅ Base模型的下载与测试
✅ Python脚本的编写与优化

关键要点回顾：
1. 模型选择很重要 – tiny/base适合树莓派，更大的模型可能导致OOM
2. 虚拟环境是好习惯 -保持系统整洁
3. 首次运行自动下载模型 -确保网络畅通

扩展建议：
• 官方文档了解高级功能
• 优化指南探索C++实现版本