DOI:10.20047/j.issn1673-7210.2025.35.04
中图分类号:R730.5
赵滢蓉, 张莹瑄, 董舒, 徐立涛
| 【作者机构】 | 复旦大学附属肿瘤医院厦门医院中西医结合科; 复旦大学附属肿瘤医院中西医结合科 |
| 【分 类 号】 | R730.5 |
| 【基 金】 |
肿瘤治疗决策需要在分期、分子分型、既往治疗史、合并症与器官功能、药物敏感性与耐受性等多维信息之上进行综合评估。近年来,DeepSeek等大语言模型被用于快速检索与整合证据、生成临床参考路径和提示入组机会,在信息负荷巨大的临床环境中具有一定价值。但医学活动强调可问责性与可复核性,若模型的证据链、推理过程与版本信息不透明,或数据来源、指标口径与本地可及性未得到严格约束,其输出内容即使表面合理,也可能在关键节点导致判断失真。围绕这一实际问题,本文以“数据与证据-个体化-合规与伦理”为主线,讨论DeepSeek在肿瘤方案制定中的局限与改进方向。
DeepSeek依赖历史医学数据进行分析,但这些数据可能存在选择偏差,导致临床实际应用中存在局限性。比如农村地区医疗资源配置不足,导致模型训练样本在地域分布上严重失衡,从而造成人工智能(artifical intelligence,AI)系统对医疗资源匮乏地区的特殊临床情境理解不足,可能生成不符合当地实际情况的治疗建议[1]。人群覆盖偏差也不可避免,现有的临床数据主要来自大型三甲医院的就诊人群,在年龄、性别、种族和经济状况等方面存在系统性偏差。同时不同医疗机构的数据采集标准和记录规范存在差异,导致数据质量参差不齐[2]。如某些医院的电子病历记录不完整或结构化程度低,而另一些则可能过度依赖影像学检查。临床数据的差异性会影响AI对患者整体状况的评估,从而导致整体治疗方案的系统性偏差。
DeepSeek的生成式输出通常缺少结构化证据标注与关键假设说明,临床医师难以迅速判断其所依据研究的设计类型、主要终点、证据等级及统计学方法[3]。若缺乏以上关键要素,任何看似严整的结论都难以被及时核实与复现。实践中已出现由模型虚构引用支撑结论的情况,例如用户在使用DeepSeek搜寻“晚期肝细胞癌合并门静脉或下腔静脉癌栓时,肝动脉灌注化疗是否优于经肝动脉化疗栓塞术”的讨论中,出现了所谓“FOCUS-L研究”的虚假条目及背后虚假数据得出的“优效”结论。此类“真假文献混排”已非体验层面的问题,而是直接触及患者安全与医学可信性的底线,使用时必须通过权威数据库逐条核验。
肿瘤领域的指南、药械标签与医保目录均处在持续滚动之中,如果模型输出不附带版本信息与更新时间,临床端无法判断建议的时效性[4]。例如某年美国国家综合癌症网络已将特定免疫联合方案上调至肝癌一线,而模型仍基于旧版路径给出建议,或对于近年获批并已写入指南的新药(如面向特定生物标志物人群的治疗)未能提示,均可能导致患者错过最佳治疗的窗口期。此类滞后相关信息可直接影响临床路径选择与入组资格判定,属于实质性安全风险。
解决此类数据问题需要AI开发者、临床专家、监管机构和社会各方的共同努力。
对模型开发者而言,需要数据透明化与多元化,比如披露训练数据源,主动纳入多样化数据等,同时优化算法层面的技术。比如每条AI建议附带“证据卡片”,包括:支持该建议的研究来源、研究类型(如随机对照试验、回顾性分析)、适用人群(如“晚期胃癌患者,CLDN18.2阳性”)、主要结果(如“延长生存期X个月”)、证据等级(如“高质量指南推荐”或“小样本研究”)、最后更新时间(避免使用过时数据)、动态更新证据(如果某篇论文被撤稿或修正,AI应自动降低其权重或剔除)。指南、医保政策需标注版本和日期,避免因政策变化导致错误建议[5]。同时明确告诉医师“本条建议的可靠程度”,AI应标注“置信度”(如“高/中/低可信度”),并说明误差范围。涉及剂量、用药组合、器官功能等关键信息,必须经过:规则库自动检查(如避免超剂量)、人工审核确认(医师签字后才可准许)、如果证据不足或情况复杂,AI应主动提示:“此建议不确定性较高,建议多学科会诊讨论。”
对临床医师而言,需要时刻保持批判性思维,对医学建议需进一步专业验证,将AI视为一个强大的辅助工具,而非权威决策者,以医学专业知识和临床判断为核心;对监管机构和学术组织而言,需制订针对医疗AI的专门评估框架,强制要求进行偏倚审计和数据分析,并将此作为审批的前提条件。
DeepSeek在肿瘤不同亚型与罕见肿瘤类型的治疗分析策略中,由于既往文献报道较少及临床大数据的缺乏,DeepSeek模型倾向推荐通用路径,从而遗漏临床潜在获益更高的个体化方案或临床试验的机会[6]。以肝癌成纤维细胞生长因子受体2基因融合为例,若未能结合分子层面的证据与耐受性评估,DeepSeek模型可能忽视更为贴合的靶向治疗选项。
DeepSeek在进行对肿瘤患者生物标志物分析时存在诸多缺陷,影响临床方案制订[7]。①例如依赖单一标志物,忽略多组学数据。程序性死亡因子-配体1表达≠免疫治疗全部,AI判读系统仅依赖程序性死亡因子-配体1表达水平推荐免疫治疗,但忽略肿瘤突变负荷、微卫星不稳定性、人类白细胞抗原分型等其他关键因素。例如,某些肿瘤突变负荷-高但程序性死亡因子-配体1阴性的患者仍可能受益于免疫治疗,但AI可能错误排除该方案。②未整合新兴生物标志物:如同源重组缺陷对聚腺苷二磷酸核糖聚合酶抑制剂的影响、神经营养因子受体酪氨酸激酶融合对拉罗替尼的敏感性等,可能未被充分纳入模型。③未考虑生物标志物的动态变化:肿瘤分子谱具有显著的时间动态性,治疗前后分子特征可能改变(如EGFR T790M耐药突变出现),但AI系统通常基于基线数据做静态推荐,无法实时调整。
DeepSeek本体不直接处理影像数据,通常依赖外部视觉模型。目前临床应用中AI主要用于影像描述生成、辅助诊断建议、研究文献支持,但依旧存在诸多不足,例如当前主要缺陷为多模态数据融合不足,存在影像+临床数据割裂,例如,计算机断层成像(computed tomography,CT)发现肝肿块,但无法直接关联患者的甲胎蛋白肿瘤标志物水平,需依赖人工输入结构化数据,易丢失关键信息[8]。同时DeepSeek在处理影像学关键特征识别方面存在局限,例如对“毛刺征”“空泡征”等恶性征象的灵敏度仅70%(低于放射科医师85%+),无法量化肿瘤异质性(如纹理分析)。目前DeepSeek在医学影像分析中更适合作为“第二意见生成器”而非独立诊断工具,临床应用中还需专业的影像科医师进行阅片及审核。
个体化治疗能力的不足主要源于其本质是一个基于历史数据的模式识别系统,而非能够感知现实世界复杂情境的临床专家,因此面对此类问题需要先对其标准,完善数据,及时串联,形成闭环,具体解决方案如下:
首先应让不同检查结果“对齐”,避免数据混乱。比如输入患者的基本资料,AI可按时间轴整理相关数据(如CT、基因检测、血检等),确保所有信息时间匹配。其次是统一疗效评估标准(如RECIST用于肿瘤大小测量);面对关键指标(如程序性死亡因子-配体1、肿瘤突变负荷)需明确检测方法和标准,避免“同一指标,不同医院结果不同”。最后如果数据有矛盾(如影像显示肿瘤缩小,但血检恶化,或核磁运动伪影),AI应明确标注矛盾点,并建议进一步检查,而不是模糊处理[6]。
同时还需要嵌入真实诊疗流程,让AI建议“落到实处”。AI输出直接对接多学科会诊,按科室(外科、内科、放疗等)分类信息,快速形成治疗方案。建立“建议→医师采纳→实际结果→反馈AI”的闭环:记录哪些建议被采用,效果如何。失败案例和不良反应及时反馈给AI,避免重复错误。AI需实时对接医院资源(如药品库存、医保报销规则),如果某方案不可行(如缺药或医保不覆盖),AI应自动推荐替代方案。
DeepSeek在肿瘤治疗决策中的应用虽然提高了效率,但也伴随诸多法律风险。例如责任归属模糊,比如当AI推荐错误方案(如遗漏禁忌证或推荐超适应证用药)导致不良后果时,责任划分不明确。同时目前法律框架(如《医疗事故处理条例》)未明确AI辅助决策的法律责任[9-11]。案例:2023年美国某AI系统因错误推荐化疗剂量被起诉,最终医院承担赔偿责任。因此一旦AI模型输出被纳入临床处置链且与不良结局相关,开发方、研究机构与临床医师之间的责权边界在多数法域尚未清晰界定。只要证据链、版本号与更新时间不透明,临床端的尽职审查就难以落实,事后举证也无从展开。DeepSeek同样还存在监管合规风险,例如多数AI系统未通过美国食品药品监督管理局/国家药品监督管理局三类医疗器械认证,数据隐私保护不足。患者的影像/基因数据上传云端可能违反《个人信息保护法》,如典型案例:IBM Watson Oncology因使用未授权训练数据被多国停用。因此数据隐私与数据合规同样重要,影像与基因等敏感信息在云端和跨境处理必须坚持去标化与用途限制。DeepSeek等AI系统的法律缺陷本质是技术超前性与制度滞后性的冲突,这进一步提示审计轨迹与人工复核的不可替代性[12]。
DeepSeek广泛应用于实际临床工作中,但伴随的伦理风险不可小觑。例如患者的知情同意了解不充分,案例:推荐晚期胃癌患者参加临床试验,但未被告知该推荐基于AI预测的“30%响应概率”算法,而非医师评估。与此同时存在算法偏见,比如训练数据中低收入群体占比<15%,DeepSeek在推荐治疗方案时并未结合患者经济水平。同样关于终末期决策,DeepSeek缺乏一定的人文关怀。例如AI基于患者生存期预测推荐“放弃治疗”,但未考虑患者及家属的情感因素,忽略姑息治疗的质量改善价值。在实际临床应用中,对于“激进治疗”或“放弃治疗”这类临床敏感决策,AI模型容易忽视患者宗教信仰、取向偏好与生活质量目标,导致医患关系紧张[13-14];医师应结合患者实际情况,考虑人文关怀,切不可“一刀切”。
改进DeepSeek在临床建议中的法律、监管和伦理不足,绝非简单的技术修补,而是需要构建一个完整的治理生态系统。例如法律与监管方面需明确责任,合规合法,并定位为辅助工具、寻求医疗器械认证、建立责任追溯机制;还需优化相关技术,做到安全可控,透明可信,构建安全护栏、提供推理链和置信度、量化不确定性;伦理方面,将“以人为本,公平无害”为基本原则,成立伦理委员会、制订伦理章程、进行偏见审计;流程方面,需全程监控,持续改进,建立全周期监控审计体系、进行定期第三方评估;同时在用户方面也需要做到培训及风险告知。
DeepSeek以相关性学习为主,缺乏反事实与因果推断框架,难以回答比如“此时间点患者若改用另一方案,结局将如何变化”等这类核心临床问题。AI在缺乏足够证据时仍会根据推理给出看似确定的回答,但此类回答未必符合实际临床出现的各种复杂情况,从而引发误导。相同病例在不同提示词、上下文或语言切换下生成的结论可能并不一致,影响可重复性和稳定性。肿瘤治疗非常讲究用药剂量、治疗周期、用药时机和患者器官功能等细节问题,一旦在剂量换算或药物搭配上出错,则可能造成严重后果。DeepSeek应定位为一个强大的“自然语言前端”,解决模型与算法的内在局限性,主要取决于后端经过严谨设计的因果推理引擎、医学知识图谱及人类专家的监督深度融合,集成因果推断库,完善相关临床数据库,才能更适用于现实世界。
在中英文并行的学术与临床环境中,生物标志物、靶点与药物命名存在翻译歧义与同名异物的问题。以“CLDN18.2”靶向治疗为例,像抗体药、细胞疗法和小分子药这些不同类型的治疗方式,经常被混为一谈。如果AI系统对概念的定义和适用条件模糊,可能出现“概念混淆”,进而导致用药建议的错误。
要解决这类问题,需要规范专业术语:在AI系统中建立标准化的中英文对照词表,确保名称和分类一致。明确适用范围:定义每种疗法的适用条件(如检测方法、标准阈值、适应证范围),并与医保报销规则匹配,避免信息错位,尽可能减少AI因概念模糊而给出不准确的建议[15]。
当前如DeepSeek等AI模型在肿瘤治疗中的应用仍存在核心短板,主要体现在证据链不完整、个体化方案适配不足、不确定性评估缺失及法律伦理边界模糊等关键问题上。为确保患者安全和医疗可问责性,现阶段AI应明确定位为“信息整合与备选方案生成的辅助工具”,而非独立决策系统。只有当AI系统实现完整的证据分级管理、动态撤稿更新、不确定性量化标注、多学科协同决策和本地化资源适配等核心机制后,才能逐步从辅助工具发展为可靠的临床决策支持系统。在这一不断完善的过程中,医师的专业判断始终是不可替代的关键环节,AI的价值在于通过结构化信息处理和备选方案生成来提升诊疗效率,而非取代临床决策的主体责任。
利益冲突声明:本文所有作者均声明不存在利益冲突。
[1]黄妮.农村基层医疗资源配置与服务利用耦合协调的时空特征及驱动机制[J].浙江大学学报(人文社会科学版),2025,55(2):22-40.
[2]TASCI E,ZHUGE Y,CAMPHAUSEN K,et al.Bias and Class Imbalance in Oncologic Data-Towards Inclusive and Transferrable AI in Large Scale Oncology Data Sets [J].Cancers,2022,14(12):2897.
[3]WADDEN J J.Defining the undefinable:the black box problem in healthcare artificial intelligence [J].J Med Ethics,2022,48(4):290-295.
[4]ARAUJO A R C,OKEY O D,Saadi M,et al.Quantum-assisted federated intelligent diagnosis algorithm with variational training supported by 5G networks[J].Sci Rep,2024,14:26333.
[5]ZHANG G,JIN Q,MCINERNEY J D,et al.Leveraging generative AI for clinical evidence synthesis needs to ensure trustworthiness[J].J Biomed Inform,2024,153:104640.
[6]DAI F,YAO S,WANG M,et al.Improving AI models for rare thyroid cancer subtype by text guided diffusion models [J].Nat Commun,2025,16:4449.
[7]DOTOLO S,ESPOSITO ABATE R,ROMA C,et al.Bioinformatics:From NGS Data to Biological Complexity in Variant Detection and Oncological Clinical Practice [J].Biomedicines,2022,10(9):2074.
[8]SIEPMANN R,HUPPERTZ M,RASTKHIZ A,et al.The virtual reference radiologist:comprehensive AI assistance for clinicalimagereading and interpretation[J].Eur Radiol,2024,34(10):6652-6666.
[9]TOBIA K,NIELSEN A,STREMITZER A.When Does Physician Use of AI Increase Liability?[J].J Nucl Med,2021,62(1):17-21.
[10]VIRK A,ALASMARI S,PATEL D,et al.Digital Health Policy and Cybersecurity Regulations Regarding Artificial Intelligence(AI)Implementation in Healthcare[J].Cureus,2025,17(3):80676.
[11]MEZRICH J L.Is Artificial Intelligence(AI)a Pipe Dream?Why Legal Issues Present Significant Hurdles to AI Autonomy[J].AJR Am J Roentgenol,2022,219(1):152-156.
[12]黄锫.人工智能大模型训练数据的风险类型与法律规制[J].政法论丛,2025(1):23-37.
[13]王绍源,李梦.从ChatGPT4.0到DeepSeek-R1:人工智能在医疗卫生领域应用的革新场景和伦理治理范式转变[J/OL].中国医学伦理学,1-9[2025-11-28].https://link.cnki.net/urlid/61.1203.R.20250 704.1632.014.
[14]ZHANG J,ZHANG Z M.Ethics and governance of trustworthy medical artificial intelligence[J].BMC Med Inform Decis Mak,2023,23(1):7.
[15]李冬梅,朱朝阳,李丽,等.基于BERT实现基础医学专业术语智能提取系统[J].基础医学教育,2024,26(11):1002-1007.
DeepSeek’s analysis of challenges in malignant tumor treatment strategies and proposed solutions
X