全部项目
AI/LLMPrompt EngineeringHealthcare百度

文心一言 · 医疗健康问答优化

端到端 Prompt 优化将模型准确率从 72.5% 提升至 90%

2025-06

0
模型准确率
from 72.5%
0
满意度
from 73.3%
0
评测集规模
3-tier dataset
0
vs ChatGPT-4o
accuracy lead

挑战

文心大模型在医疗健康问答场景中准确率仅 72.5%,用户对可信度、医疗知识门槛、安全警示和情绪安抚等需求难以满足。

我的方案

设计用户真实需求到端到端 Prompt 设计到评估到优化的闭环机制。构建五维 Prompt 优化策略,通过人工评估结合 AI 自动化评估进行大规模迭代。

过程

1

需求调研

2 周

提炼 7 类高频健康问答内容,聚焦患者与家属群体

2

评测体系构建

3 周

医疗专家访谈,制定五维度评估标准,构建 2 分制评分体系

3

数据建构

2 周

梯度构建 3000+ 条评测集,涵盖用户日志、医疗机构及公开数据集

4

Prompt 优化

4 周

构建五维 Prompt 优化策略,结合人工与 AI 自动化评估迭代

5

效果验证

2 周

准确率 90%,满意度 92.4%;领先 DeepSeek V3.1 4.2%,领先 GPT-4o 10.6%

成果

模型准确率从 72.5% 提升至 90%,满意度从 73.3% 提升至 92.4%。闭环机制可迁移至其他垂类场景,后续聚焦对抗性与风险类问答稳健性。

问点问题?