
出品 | 搜狐健康
作者 | 袁月
编辑 | 吴施楠
AI横扫千行百业,文案、影视、办公赛道早已实现模型通吃、效率翻倍,但占国民经济超10%的大健康赛道,始终处于“概念满天飞、落地一地鸡毛”的尴尬局面。
行业普遍迷信“通用大模型万能论”,认为参数足够大、对话足够流畅,就能切入医疗市场。
5月22日,在清华大学百川楼举办的「AI医疗新范式」学术论坛上,百川智能创始人、CEO王小川直接推翻全行业通用模型叙事,抛出颠覆性结论:医疗有三条生死级刚性底线,市面上所有通用大模型,没有一条达标。看似火热的AI问诊、AI科普、AI答疑,本质是把模型幻觉包装成专业确定性,正在悄悄制造新一轮医疗风险、撕裂医患信任、阻碍行业真正升级。也正因通用模型先天短板难补齐,百川智能正式推出医疗专属大模型Baichuan-M4与AI家庭医生“百小医”,试图打破通用模型横行、医疗AI空转的行业僵局。
通用大模型集体“水土不服”,医疗AI陷入双重天花板
在业内追捧通用大模型万能化的当下,王小川泼出一盆冷水:医疗不是简单问答、不是文案生成,它是人命关天的循证决策、严谨问诊与长期健康管理,有专业循证、主动问诊、低幻觉强可靠三条刚性要求,而市面通用模型,从底层逻辑上就全部缺位。
更尖锐的现实是,传统医疗AI早已撞上两道无法突破的天花板,通用模型不仅解不了局,反而制造出新的行业矛盾。
医生端AI提效早已摸到天花板,陷入“越帮越忙”的悖论。国内专科医生接诊负荷拉满,单日接诊数十人,单人问诊仅4至5分钟。即便通用AI能帮医生写病历、查文献,工作效率看似提升28%,落到现实中也只能把5分钟问诊压缩到4分钟,杯水车薪。对比欧美医生日均仅接诊10—20人的宽松节奏,国内医疗高压之下,通用模型的辅助价值被无限稀释,看似赋能,实则难破效率困局。
基层医疗场景更是通用大模型的“翻车重灾区”。通用模型极度依赖完整、标准化的病历输入,资料完备时诊断准确率能做到90%,看似光鲜;可落到基层真实问诊中,患者表述碎片化、症状说不清、病史讲不全,通用模型准确率直接断崖式暴跌至34.5%,初级病症鉴别漏诊误诊率更是高达80%。基层医生专业能力有限,根本无力修正模型的逻辑偏差,通用大模型非但不能帮基层提质,反而容易给出误导性结论,沦为临床“隐患”。
比技术失灵更可怕的是,通用AI健康咨询泛滥,正在撕裂本就脆弱的医患信任。如今更多大众已养成“先搜AI、再看医生”的习惯,拿着通用模型的碎片化答案,到医院和医生“对线抬杠”。医生不再是绝对专业权威,反而被迫陷入无休止的“自证清白”,沟通成本暴涨、医患猜忌加剧。通用大模型不懂临床逻辑、没有医学循证背书,却轻易搅动医疗舆论生态,给现有医疗体系埋下隐形风险。
放眼三医联动全局,优质医疗资源稀缺是长期痛点,而通用大模型只能做表层问答,无法深入药物研发、精准用药、医保控费、慢病全周期管理,既补不了资源短板,也带不动产业升级,只能停留在“凑热闹”的浅层阶段。
硬刚行业通病:通用模型三大短板,精准踩碎医疗刚需
王小川在发布会上直指行业痛点:医疗的三条刚性门槛,恰恰是通用大模型的三大致命短板,天然基因不合,再大的参数规模也无法抹平鸿沟。
其一,低幻觉。 医疗需要极致低幻觉、全循证,通用模型幻觉问题根深蒂固。医疗一句话失误就是诊疗事故,必须每条建议都有医学指南、学术文献背书;但国内通用大模型普遍幻觉偏高,随意推演、乱给诊疗建议、编造医学结论,放到健康领域就是高危隐患。这也是为什么通用模型可以做娱乐、做文案,却始终不敢真正深度落地临床。
《BMJ Open》2026 年的研究系统评估了主流通用模型的医疗回答,约 50% 被评为“有问题”,近 20% 属于“高度有问题”。通用模型当前的幻觉率在严肃医疗场景下不可接受。
其二,强循证。 临床诊断有严格的循证路径,不是“根据症状猜一个最可能的病”。医疗需要长周期健康记忆,通用模型天生碎片化。人体健康是连续的过程,既往病史、用药记录、复查指标、过敏史都要连贯研判,而通用模型单次对话割裂、无长期专属记忆,无法沉淀个人健康档案,做不了慢病管理、全病程随访,只能解决临时碎碎念,根本适配不了家庭健康管护需求。
通用模型缺乏系统性的循证推理能力。《JAMA Network Open》2026 年评测了 21 款主流大模型在 29 个标准化临床案例中的表现,鉴别诊断阶段的错误率普遍超过 80%——不按指南逻辑层层排除,而是过早锁定一个答案。
其三,会提问。 任何受过训练的医生都不会在患者说完第一句话时就下结论。医疗需要主动多轮问诊,通用模型只会被动应答。看病不是一问一答,是层层追问、排查诱因、关联病史、鉴别并发症,而通用大模型只会用户问什么答什么,不会主动溯源、不会系统排查,缺失临床最核心的问诊逻辑。实测印证,医疗模型问诊能力每提升2%,诊断精准度就能提升1%,这恰恰是所有通用模型都不具备的核心能力。
牛津大学 2026 年发表于《Nature Medicine》的研究揭示了一个关键差距:AI 读标准化病历时准确率可达 94.9%,但真实患者自助使用时骤降至 34.5%。原因在于患者描述往往不完整,而通用模型不会像医生一样追问。
三条刚需,通用模型一条都不达标。当行业还在迷信“通用模型通吃一切”时,王小川明确划清界限、拉开差距。
1. 极致低幻觉、全循证
全新亮相的 Baichuan-M4,在 HealthBench、HealthBench Hard、HealthBench Professional 三大权威医疗榜单中同时位列世界第一,全面超越 GPT-5.5、Opus 4.7、DeepSeek-V4-Pro 等顶尖模型。
依托原创的事实性感知强化学习算法,Baichuan-M4 将裸模型的事实性幻觉率降至 3.3%,再创全球新低。
2. 严格循证推理
在循证路径上,M4 将权威医学指南拆解为 1000 余条原子化临床路径(SKILL),每一条由顶尖临床专家定义与校验。循证不是模型背诵的知识,而是每一步推理的执行骨架。
3. 主动问诊、动态溯源
深度问诊能力大幅领先通用大模型,不仅能像临床医生一样步步追问,更拥有超长记忆,足以托起患者长周期的健康管理。
叠加 Harness 调度、记忆与自进化能力后,M4 更将从“医疗大脑”,升级为“医疗智能体”。
在此之前,百川M3于2026年1月发布时即刷新 HealthBench 最高纪录。全球最大稳定币公司 Tether 进军AI医疗时,从OpenAI、量化巨头Ubiquant AI与百川三个候选中选定M3作为唯一教师模型。M3在几乎所有核心评测指标上都展现出明显优势,尤其在高复杂度医学问题上拉开了显著差距。
百小医破局:跳出通用模型陷阱,重构四级诊疗新生态
既然通用大模型先天不合规、不达标、不落地,行业该怎么走?王小川给出答案:“M4是大脑,百小医是身体。”用医疗专属大模型打造AI家庭医生“百小医”,跳出简单问答的浅层模式,构建诊前、诊中、诊后、全家管护的全病程闭环,补上通用模型留下的巨大缺口,独创行业唯一的双医协同模式。
诊前,告别通用模型的笼统瞎答,多轮20项精细化筛查,精准判别病症、锁定就诊科室,生成标准化病情卡片,解决患者不会描述病情、挂错科室的痛点;诊中,弥补医生短时问诊的信息缺口,通俗拆解病因、药理与治疗逻辑,消解就医焦虑;诊后,依托长记忆能力建立专属健康档案,主动推送吃药、复查、康复提醒,搞定通用模型做不了的长期慢病管理。更打破单人服务局限,搭建家庭健康群组,全龄守护、代际联动,纠正老人轻信网红保健品、讳疾忌医等误区。
在王小川看来,AI家庭医生的价值,远不止一款工具,更是对传统医疗体系的颠覆性重构。过往三级诊疗陷入“三甲挤爆、基层空置”的倒三角畸形格局,通用模型无力改变;而以百小医为代表的医疗专属AI,把健康关口前置到家庭,实现轻症居家筛查、常见病精准分流、重症直达三甲,催生AI家庭前置—基层首诊—二级常规诊疗—三甲疑难攻坚的四级诊疗新范式。
真人医生聚焦确诊、手术、开方等高风险核心工作,AI家庭医生承接科普、解读、随访、健康管理等基础服务,形成“医生+AI”双医协同。既给医生减负,又放大优质医疗资源覆盖范围,更全面赋能医药、器械、体检、医保全产业链,激活大健康产业增量。
当下行业仍有不少玩家沉迷通用大模型跨界医疗、蹭热点、做概念,但王小川用直白态度戳破真相:医疗有自身刚性规则,通用模型一条底线都达不到,硬跨界只会制造风险、浪费资源。
未来,医疗AI的竞争,从来不是参数规模的比拼,而是临床问诊、低幻觉循证、全周期健康管理的专业较量。抛弃通用模型的路径依赖,深耕医疗专属大模型、落地AI家庭医生,才是医疗AI真正能扎根、能普惠、能助力医改的正确赛道。
北儿、东肿、瑞金:百川AI 家庭医生在最严苛的临床场景跑通
医疗AI最大争议,从来不是参数,而是医生信不信、患者敢不敢用、临床有没有共识,王小川在本次发布会讨论中多次提到,这些才是 AI 进入医疗最难跨过的门槛。三家国家顶尖医院负责人介绍了与百川联合开展临床研究的成果。研究全部严格遵循临床研究流程,经过严苛的立项、伦理评审和严格的数据采集标准。
“专家会诊符合率达 95%”。“国内儿科医生相对不足,这是北京儿童医院和百川合作的起点——我们要一起造出 100 万个儿科医生。”北京儿童医院院长倪鑫分享道,联合百川打造的“AI 儿科医生”整合 300 余位权威儿科专家临床经验、覆盖 4 万余份临床指南与 3800 万余篇医学文献,已具备通过儿科执业医师考试的能力。
目前,「福棠·百川」AI 儿科医生已形成“一大四小”产品矩阵。专家版已在倪鑫院长的多学科联合门诊(MDT)正式上岗,经过 40 余场会诊、大查房,百余病例验证,与北京儿童医院专家的符合率达到 95%;家庭版已在北京儿童医院线上小程序试运行,使用用户超 20 万,下一步将依托儿科医联体全面落地。
“患者把 AI 当活生生的人,AI回答错误需医护干预比例仅占 0.25%”。中国医学科学院肿瘤医院副院长李宁教授分享了与百川联合开展的肿瘤患者“陪伴AI -百小爱”临床研究。研究灵感来自美国MSKCC的一项经典研究发现:通过给患者定期发Email提醒肿瘤患者复查、报告自身状况,就能通过提高诊疗依从度来改善肿瘤患者生存时间。“关怀本身就是治疗。”但医生和患者沟通有顾虑、时间太紧、专业语言有差异,许多关键信息在两者之间根本无法有效传递。
百川的“陪伴AI”开发研究,按严格临床试验流程完成科学审查、伦理审查和国际注册。由患者、家属、陪伴AI、主管医生、护士共建五方医患微信群,对患者肿瘤治疗期间的问题进行回答和交流。截至目前入组103例患者、观察16周,7126个连续对话中,AI 回答偏差错误需要医护介入占比仅0.25%,用户平均周留存率达79.8%,远高于行业的常规水平。
李宁教授的观察:肿瘤患者把陪伴AI当成了“活生生的人”来交流。“不会跟医生说的话,他会跟陪伴AI说”。陪伴AI在副作用教育、情绪支持、复诊依从这些临床长期忽略的环节,正在快速弥补医患沟通的缺口。
一部手机 +3分钟咳嗽音筛查,30城5万人次基层跑通。上海交通大学医学院附属瑞金医院学术委员会主任、呼吸与危重症医学科主任医师瞿介明教授分享了与百川联合开展的慢阻肺全病程管理研究。慢阻肺已是全球第三大致死病因,中国 40 岁以上人群患病率 13.7%,但肺功能检查率低,确诊后患者对疾病管理的知晓率不到 20%。发现难、确诊慢、管不好,是基层慢阻肺管理长期未被满足的核心痛点。
在最关键的早筛环节,百小医在微信端主动向用户推送 AI 筛查工具「咳搜」(已获国家三类医疗器械创新注册证绿色通道认定)。患者只需一部手机,录制 3 分钟咳嗽音,即可完成高精度的慢阻肺初筛。
咳搜接入百小医之后,扫码、筛查、确诊、管理、复访五步,真正在基层与上级医院之间闭环跑通。3 个月内,已在 30 座城市 186 个社区落地,累计高危人群筛查 50,472 人次,筛出慢阻肺高风险患者比例达25.3%。
中国 14 亿人的健康管理方式,可能正站在一个转折点上。王小川总结,当大模型的能力跨过医疗的门槛,当产品找到了对的切入方式,当临床数据开始说话,医疗行业正在发生一些不可逆的变化。AI 不再是诊室外的旁观者,而是开始成为医疗体系的一部分。
医院的院后患者管理、药企的全生命周期患者服务、保险机构的人群健康干预、智能硬件的家庭健康场景——这些过去各自为战的需求,都将基于医疗增强大模型与 AI 家庭医生的底座生长出来。值得期待。