AI/LLMPrompt EngineeringHealthcare百度

文心一言 · 医疗健康问答优化

端到端 Prompt 优化将模型准确率从 72.5% 提升至 90%

2025-06

模型准确率

from 72.5%

满意度

from 73.3%

评测集规模

3-tier dataset

vs ChatGPT-4o

accuracy lead

挑战

文心大模型在医疗健康问答场景中准确率仅 72.5%，用户对可信度、医疗知识门槛、安全警示和情绪安抚等需求难以满足。

设计用户真实需求到端到端 Prompt 设计到评估到优化的闭环机制。构建五维 Prompt 优化策略，通过人工评估结合 AI 自动化评估进行大规模迭代。

需求调研

2 周

提炼 7 类高频健康问答内容，聚焦患者与家属群体

评测体系构建

3 周

医疗专家访谈，制定五维度评估标准，构建 2 分制评分体系

数据建构

2 周

梯度构建 3000+ 条评测集，涵盖用户日志、医疗机构及公开数据集

Prompt 优化

4 周

构建五维 Prompt 优化策略，结合人工与 AI 自动化评估迭代

效果验证

2 周

准确率 90%，满意度 92.4%；领先 DeepSeek V3.1 4.2%，领先 GPT-4o 10.6%

模型准确率从 72.5% 提升至 90%，满意度从 73.3% 提升至 92.4%。闭环机制可迁移至其他垂类场景，后续聚焦对抗性与风险类问答稳健性。