0
模型准确率
from 72.5%
0
满意度
from 73.3%
0
评测集规模
3-tier dataset
0
vs ChatGPT-4o
accuracy lead
挑战
文心大模型在医疗健康问答场景中准确率仅 72.5%,用户对可信度、医疗知识门槛、安全警示和情绪安抚等需求难以满足。
我的方案
设计用户真实需求到端到端 Prompt 设计到评估到优化的闭环机制。构建五维 Prompt 优化策略,通过人工评估结合 AI 自动化评估进行大规模迭代。
过程
1
需求调研
2 周提炼 7 类高频健康问答内容,聚焦患者与家属群体
2
评测体系构建
3 周医疗专家访谈,制定五维度评估标准,构建 2 分制评分体系
3
数据建构
2 周梯度构建 3000+ 条评测集,涵盖用户日志、医疗机构及公开数据集
4
Prompt 优化
4 周构建五维 Prompt 优化策略,结合人工与 AI 自动化评估迭代
5
效果验证
2 周准确率 90%,满意度 92.4%;领先 DeepSeek V3.1 4.2%,领先 GPT-4o 10.6%
成果
模型准确率从 72.5% 提升至 90%,满意度从 73.3% 提升至 92.4%。闭环机制可迁移至其他垂类场景,后续聚焦对抗性与风险类问答稳健性。