AWS Lambda环境下RAG的完整安装指南 (2025年05月版)

引言

RAG(Retrieval-Augmented Generation)是一种结合检索和生成能力的AI技术，在AWS Lambda上部署RAG可以构建高效的问答系统。本文将详细介绍如何在Lambda上完整安装和配置RAG系统。

准备工作

环境要求

AWS账户(已配置IAM权限)
AWS CLI v2.x
Python 3.9+
Docker(本地测试用)

前置知识

基本了解AWS Lambda服务
Python基础语法
熟悉命令行操作

详细步骤

1. 创建Lambda函数

代码片段

# 创建Lambda执行角色
aws iam create-role --role-name lambda-rag-execution \
    --assume-role-policy-document '{
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Principal": {
                    "Service": "lambda.amazonaws.com"
                },
                "Action": "sts:AssumeRole"
            }
        ]
    }'

# 附加必要策略
aws iam attach-role-policy --role-name lambda-rag-execution \
    --policy-arn arn:aws:iam::aws:policy/service-role/AWSLambdaBasicExecutionRole

原理说明：Lambda需要IAM角色来获取执行权限，这里创建了基础执行角色。

2. 准备RAG依赖包

由于Lambda有大小限制，我们需要创建精简的依赖层：

代码片段

mkdir python && cd python
pip install torch==2.1.0 -t .
pip install transformers==4.35.0 -t .
pip install faiss-cpu==1.7.4 -t .
pip install sentence-transformers==2.2.2 -t .

# 压缩为层包
zip -r ../rag-layer.zip .

注意事项：
– Lambda解压后总大小不能超过250MB(未压缩层限制50MB)
– torch和transformers版本需要兼容

3. 上传依赖层到Lambda

代码片段

aws lambda publish-layer-version \
    --layer-name rag-dependencies \
    --description "RAG required packages" \
    --zip-file fileb://rag-layer.zip \
    --compatible-runtimes python3.9 python3.10 \
    --compatible-architectures x86_64 arm64

# 记下返回的LayerVersionArn，后续会用到

4. 编写RAG核心代码

创建lambda_function.py:

代码片段

import json
import faiss
from sentence_transformers import SentenceTransformer
from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration

# 初始化模型 (冷启动时运行)
model = None
tokenizer = None
retriever = None

def load_models():
    global model, tokenizer, retriever

    # SBERT用于文档编码
    encoder = SentenceTransformer('all-MiniLM-L6-v2')

    # FAISS索引 (实际应用中应该预建好并加载)
    dimension = encoder.get_sentence_embedding_dimension()
    index = faiss.IndexFlatL2(dimension)

    # RAG组件初始化
    tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq")
    retriever = RagRetriever.from_pretrained(
        "facebook/rag-sequence-nq",
        index=index,
        init_retriever=True,
        indexed_dataset=None,
        encoder=encoder.encode
    )

    model = RagSequenceForGeneration.from_pretrained(
        "facebook/rag-sequence-nq",
        retriever=retriever,
        config=None,
        generator_name_or_path="facebook/rag-sequence-nq"
    )

def lambda_handler(event, context):
    # Lazy loading模型 (减少冷启动时间)
    if model is None:
        load_models()

    # 处理输入问题
    question = event.get('question', '')

    if not question:
        return {
            'statusCode': 400,
            'body': json.dumps({'error': 'No question provided'})
        }

    # RAG处理流程
    inputs = tokenizer(question, return_tensors="pt")

    with torch.no_grad():
        outputs = model.generate(
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"]
        )

    answer = tokenizer.decode(outputs[0], skip_special_tokens=True)

    return {
        'statusCode': 200,
        'body': json.dumps({'answer': answer})
    }

代码说明：
1. load_models()函数负责初始化所有需要的模型组件
2. lambda_handler是Lambda的入口函数，处理请求并返回答案
3. Lazy loading模式优化了冷启动性能

5. 部署Lambda函数

代码片段

# 压缩代码文件 (不包括依赖)
zip lambda_function.zip lambda_function.py

# 创建Lambda函数 (替换YOUR_LAYER_ARN为之前记录的ARN)
aws lambda create-function \
    --function-name rag-service \
    --runtime python3.9 \
    --role arn:aws:iam::YOUR_ACCOUNT_ID:role/lambda-rag-execution \
    --handler lambda_function.lambda_handler \ 
    --zip-file fileb://lambda_function.zip \
    --layers YOUR_LAYER_ARN \ 
    --memory-size 1024 \ 
    --timeout 30

# 更新配置 (如果需要)   
aws lambda update-function-configuration \ 
    --function-name rag-service \ 
    --memory-size 2048 \ 
    --timeout 60

实践经验：
– RAG需要较大内存，建议至少2048MB
– timeout设置要考虑冷启动时间(首次调用较慢)

6. API Gateway集成(可选)

如果需要HTTP访问:

代码片段

# 创建API Gateway 
aws apigateway create-rest-api --name RAG-Service

# ... (此处省略API Gateway详细配置步骤)

RAG数据准备实战

实际应用中需要预建知识库索引:

代码片段

import pickle   

documents = ["AWS Lambda是无服务器计算服务...", "..."]   

encoder = SentenceTransformer('all-MiniLM-L6-v2')   
embeddings = encoder.encode(documents)  

index = faiss.IndexFlatL2(embeddings.shape[1])  
index.add(embeddings)   

# S3上传索引文件  
with open("faiss_index.pkl", "wb") as f:    
    pickle.dump(index, f)   

# Lambda初始化时从S3加载索引

Lambda优化技巧

预热方案: CloudWatch定时触发保持实例活跃
内存调优: RAG建议2048MB~3008MB内存区间
复用连接: S3/数据库连接放在handler外部

FAQ常见问题

Q: Lambda报错”ModuleNotFoundError”怎么办？
A: •检查层是否正确附加 •确保层内路径是/python目录结构

Q: RAG响应慢怎么优化？
A: •使用更小的SBERT模型 •预加载FAISS索引 •增加内存配置

Q: GPU加速是否可行？
A: Lambda目前不支持GPU，考虑SageMaker端点替代方案

总结

本文详细介绍了在AWS Lambda上部署RAG系统的完整流程：

1️⃣ IAM角色和权限配置
2️⃣ Python依赖层的构建
3️⃣ RAG核心代码实现
4️⃣ Lambda部署与优化

2025年最新实践表明，通过合理优化可以在Lambda上运行轻量级RAG应用，成本仅为传统EC2方案的1/5。