2025年05月最新！Apple Silicon M1系统Whisper安装详解

引言

Whisper是OpenAI开源的语音识别系统，以其高准确率和多语言支持著称。对于使用Apple Silicon M1/M2系列芯片的Mac用户来说，原生ARM架构支持能带来显著的性能提升。本文将详细介绍在2025年最新macOS系统上安装和配置Whisper的完整流程。

准备工作

环境要求

Apple Silicon Mac (M1/M2/M3系列)
macOS Sonoma 14.4或更新版本
Python 3.9或更高版本
Homebrew包管理器

前置知识

基本终端命令行操作
Python环境管理基础

详细安装步骤

1. 安装Homebrew（如未安装）

代码片段

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

将Homebrew添加到PATH环境变量：

代码片段

echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> ~/.zshrc
source ~/.zshrc

原理说明：Homebrew是macOS上最流行的包管理器，可以简化后续依赖项的安装过程。

2. 安装Python和必要工具

代码片段

brew install python cmake ffmpeg

验证Python安装：

代码片段

python3 --version
# 应显示Python 3.9或更高版本

注意事项：虽然系统自带Python，但建议使用Homebrew管理的Python以避免权限问题。

3. 创建虚拟环境（推荐）

代码片段

python3 -m venv whisper-env
source whisper-env/bin/activate

实践经验：使用虚拟环境可以隔离项目依赖，避免与其他Python项目冲突。

4. 安装PyTorch for Apple Silicon

代码片段

pip install torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

原理说明：PyTorch是Whisper的核心依赖之一，Apple Silicon版本经过特别优化。

5. 安装Whisper主程序

代码片段

pip install openai-whisper

验证安装：

代码片段

whisper --help

6. （可选）安装GPU加速支持

代码片段

pip install tensorflow-metal tensorflow-macos --upgrade --force-reinstall --no-deps --no-cache-dir

注意事项：GPU加速可显著提升处理速度，但会占用更多显存资源。

Whisper使用示例

基础语音转文字

准备一个测试音频文件test.mp3：

代码片段

whisper test.mp3 --model small --language zh --output_format txt --output_dir ./output/

参数说明：
– --model small: 使用small模型（平衡速度和准确率）
– --language zh: 指定中文识别（可省略自动检测）
– --output_format txt: 输出纯文本格式

API调用示例

创建test_whisper.py文件：

代码片段

import whisper

def transcribe_audio(file_path):
    # tiny, base, small, medium, large可选 
    model = whisper.load_model("small")

    # CPU/GPU自动选择最佳后端运行方式(MPS)
    result = model.transcribe(file_path, language="zh")

    print("识别结果:")
    print(result["text"])

    # 保存为SRT字幕文件（带时间戳）
    with open("output.srt", "w", encoding="utf-8") as srt:
        for segment in result["segments"]:
            srt.write(f"{segment['id']+1}\n")
            srt.write(f"{segment['start']} --> {segment['end']}\n")
            srt.write(f"{segment['text']}\n\n")

if __name__ == "__main__":
    transcribe_audio("test.mp3")

运行脚本：

代码片段

python test_whisper.py

常见问题解决

报错”Failed to load model”

解决方案：手动下载模型到缓存目录：

代码片段

mkdir -p ~/.cache/whisper && cd ~/.cache/whisper && \
wget https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/small.pt -O small.pt <br>

处理长音频内存不足

解决方案：使用分块处理：

代码片段

whisper long_audio.mp3 --model small --task transcribe --fp16 False --chunk_length_s 30 <br>

Metal GPU加速未生效
- 检查方法：
  代码片段
```
import torch; print(torch.backends.mps.is_available()) <br>
```
- 解决方法：更新PyTorch到最新nightly版本并重启终端

性能优化建议

模型选择指南

Model	RAM占用	Relative Speed	Best For
tiny	~1GB	~32x	English-only快速转录
base	~1GB	~16x	English-only平衡方案
small	~2GB	~6x	Multilingual通用场景
medium	~5GB	~2x	High accuracy需求
large	~10GB	~1x	Highest accuracy

启用硬件加速

代码片段

import torch 

device = "mps" if torch.backends.mps.is_available() else "cpu"
model = whisper.load_model("small").to(device)

总结

本文详细介绍了在Apple Silicon M系列Mac上安装Whisper语音识别系统的完整流程，关键步骤包括：
1. Homebrew基础环境配置 ✅
2. Python虚拟环境创建 ✅
3. PyTorch Apple Silicon版本安装 ✅
4. Whisper核心程序安装 ✅
5. GPU加速选项配置 ✅

通过原生ARM架构支持，M系列芯片运行Whisper的效率比Intel Mac提升约40%。建议日常使用选择small模型获得最佳平衡，对中文识别可添加--language zh参数提高准确率。