基于Python和LangChain的医疗数据增强技术

引言

在医疗AI领域，高质量的数据是模型训练的关键。然而，医疗数据往往面临样本量不足、隐私保护严格等问题。本文将介绍如何使用Python和LangChain框架实现医疗数据的智能增强，通过生成式AI技术在不泄露真实数据的前提下扩充数据集。

准备工作

环境要求

Python 3.8+
pip包管理器
OpenAI API密钥（或其他LLM服务）

安装依赖

代码片段

pip install langchain openai pandas numpy tqdm

核心概念

什么是数据增强？

数据增强是指通过现有数据生成新的训练样本的技术，在保持数据分布的前提下增加数据多样性。

LangChain的作用

LangChain提供了与大型语言模型(LLM)交互的高级接口，可以：
1. 结构化调用LLM
2. 维护对话上下文
3. 处理输入输出格式化

实现步骤

1. 基础数据准备

假设我们有一组糖尿病患者的简单临床记录：

代码片段

import pandas as pd

# 示例原始数据
data = {
    'age': [45, 60, 32, 58],
    'gender': ['M', 'F', 'M', 'F'],
    'bmi': [28.1, 31.5, 22.3, 29.8],
    'hbA1c': [6.8, 7.2, 5.9, 8.1],
    'diagnosis': ['Type2', 'Type2', 'Normal', 'Type1']
}

df = pd.DataFrame(data)
print(df.head())

2. LangChain初始化

代码片段

from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage
from langchain.prompts import PromptTemplate

# 初始化LLM (请替换为你的API密钥)
llm = ChatOpenAI(
    model_name="gpt-3.5-turbo",
    temperature=0.7,  # 控制生成多样性
    openai_api_key="your-api-key"
)

# 系统提示词模板
system_prompt = """
你是一位专业的医疗数据分析师。请基于以下患者特征生成一条新的、合理的临床记录。
要求：
1.保持医学准确性
2.数值在合理范围内波动(±10%)
3.诊断结果与指标相符

原始记录特征:
{features}
"""

3. 数据增强实现

代码片段

import numpy as np
from tqdm import tqdm

def augment_medical_data(df, num_augmentations=5):
    """
    医疗数据增强函数

    参数:
        df: DataFrame原始数据
        num_augmentations:每条记录生成的增强数量

    返回:
        增强后的DataFrame
    """
    augmented_data = []

    for _, row in tqdm(df.iterrows(), total=len(df)):
        features = "\n".join([f"{col}: {val}" for col, val in row.items()])

        # LangChain调用生成新记录
        for _ in range(num_augmentations):
            response = llm([
                SystemMessage(content=system_prompt.format(features=features)),
                HumanMessage(content="请生成新记录")
            ])

            # 解析生成的文本为字典格式
            try:
                new_record = {}
                lines = response.content.split('\n')
                for line in lines:
                    if ': ' in line:
                        key, val = line.split(': ',1)
                        new_record[key.strip().lower()] = val.strip()

                augmented_data.append(new_record)
            except Exception as e:
                print(f"解析失败: {e}")

    return pd.concat([df, pd.DataFrame(augmented_data)], ignore_index=True)

# 执行增强 (示例只处理前2条以节省时间)
augmented_df = augment_medical_data(df.iloc[:2], num_augmentations=2)
print(augmented_df)

4. 后处理与验证

代码片段

def validate_augmented_data(augmented_df):
    """验证增强数据的合理性"""

    # BMI范围检查 (假设合理范围15-40)
    bmi_valid = augmented_df['bmi'].between(15,40)

    # HbA1c范围检查 (假设合理范围4-12)
    hba1c_valid = augmented_df['hbA1c'].between(4,12)

    # Type2糖尿病患者的HbA1c应>6.5的逻辑检查
    diagnosis_check = ~(
        (augmented_df['diagnosis'] == 'Type2') & 
        (augmented_df['hbA1c'].astype(float) <=6.5) 
    )

    valid_mask = bmi_valid & hba1c_valid & diagnosis_check

    print(f"无效记录数量: {len(augmented_df) - sum(valid_mask)}")

    return augmented_df[valid_mask]

clean_df = validate_augmented_data(augmented_df)

实践经验与注意事项

隐私保护：
- LLM可能会记忆训练数据，避免输入真实患者ID等敏感信息
- OpenAPI等商业API会记录请求内容，敏感领域建议使用本地模型如Llama2
质量验证：
- “垃圾进垃圾出”原则适用，确保原始数据质量高才能得到好的增强结果
- LLM可能产生幻觉(hallucination)，必须添加验证步骤

性能优化：

代码片段

#批量处理提高效率（注意OpenAI API的速率限制）
from langchain.chains import LLMChain

prompt_template = PromptTemplate.from_template(system_prompt) 
batch_chain = LLMChain(llm=llm,prompt=prompt_template)

def batch_augment(batch_features):
    responses = batch_chain.generate(batch_features)
    #...后续处理...

替代方案：对于不需要语义理解的结构化数据增强，传统方法可能更高效：

代码片段

# SMOTE过采样技术示例（适用于数值型特征）
from imblearn.over_sampling import SMOTE 

smote = SMOTE()
X_resampled,y_resampled=smote.fit_resample(X,y)

完整示例代码整合

代码片段

# medical_data_augmentation.py完整代码示例 

import pandas as pd 
from langchain.chat_models import ChatOpenAI 
from langchain.schema import HumanMessage,SystemMessage  
from tqdm import tqdm  
import numpy as np  

class MedicalDataAugmentor:  

    def __init__(self, api_key):  
        self.model_name="gpt-3.5-turbo"  
        self.temperature=0.7  
        self.api_key=api_key  

        self.system_prompt="""
        作为医学专家，请基于以下真实患者特征生成新的合成记录。
        要求：
        1.{'age'}±5岁内波动  
        2.{'gender'}保持不变  
        3.{'bmi'}±10%内变化  
        4.{'hbA1c'}根据诊断类型合理变化  
        5.{'diagnosis'}与指标逻辑一致  

        原始特征：{features}"""  

        self._init_model()  

    def _init_model(self):  
        self.model=ChatOpenAI(
            model_name=self.model_name,
            temperature=self.temperature,
            openai_api_key=self.api_key 
        )  

    def augment(self,input_path,num_per_sample=3):  

        df=pd.read_csv(input_path) if isinstance(input_path,str) else input_path

        results=[]

        for _,row in tqdm(df.iterrows(),total=len(df)):            
            features_str="\n".join([f"{k}:{v}"for k,v in row.items()])            

            messages=[
                SystemMessage(content=self.system_prompt.format(features=features_str)),
                HumanMessage(content="请生成JSON格式的新记录")
            ]

            for _ in range(num_per_sample):                
                try:                    
                    resp=self.model(messages).content                    
                    results.append(eval(resp))                    
                except Exception as e:                    
                    print(f"生成失败:{str(e)}")                     

        return pd.concat([df,pd.DataFrame(results)]).reset_index(drop=True)  

if __name__=="__main__":      

    #使用示例      
    augmentor=MedicalDataAugmentor("your-api-key")      

    sample_data={
       "age":[50],      
       "gender":["F"],      
       "bmi":[28],      
       "hbA1c":[7],      
       "diagnosis":["Type2"]}      

    augmented_df=augmentor.augment(pd.DataFrame(sample_data))      

print(augmented_df.to_markdown())

总结

本文介绍了使用Python和LangChain进行医疗数据增强的关键技术：

1️⃣ 核心优势：通过LLM理解医学上下文关系，比传统随机扰动方法更智能

2️⃣ 关键步骤：初始化模型→构造专业提示词→解析生成结果→验证合理性

3️⃣ 注意事项：隐私保护、质量验证、性能优化缺一不可

4️⃣ 扩展方向：可结合医学知识图谱进一步约束生成逻辑

这种技术特别适合罕见病研究、临床试验模拟等小样本场景。随着医疗大模型的发展，合成数据的质量将进一步提升。