基于德尔菲法构建三甲公立医院学科科研绩效评价指标体系

覃国强，李婉仪，许梦瑶，冯靖韵，郭睿，梁家菲

【作者机构】	南方医科大学第十附属医院东莞市人民医院科教科；四川省泸州市疾病预防控制中心办公室；广州医科大学附属肿瘤医院人事培训科；广东医科大学网络与信息中心
【分类号】	R192
【基金】	广东省医学科学技术研究基金项目（B2023360）广东省卫生经济学会科研项目（2024-WJMF-113）东莞市社会发展科技项目（20231800905262）。

全文文内图表参考文献出版信息

文内图表

: 表1 专家咨询结果汇总

: 表2 指标组间差异的统计分析结果

: 表3 指标体系一致性指标及权重一览表

基于德尔菲法构建三甲公立医院学科科研绩效评价指标体系

覃国强1 李婉仪1 许梦瑶2 冯靖韵3 郭睿4 梁家菲1

1.南方医科大学第十附属医院东莞市人民医院科教科，广东东莞 523059；2.四川省泸州市疾病预防控制中心办公室，四川泸州 646000；3.广州医科大学附属肿瘤医院人事培训科，广东广州 510000；4.广东医科大学网络与信息中心，广东东莞 523808

[摘要] 目的构建三甲公立医院学科科研绩效评价指标体系，为学科科研绩效评价提供科学的工具。方法检索中国知网、万方数据知识服务平台、维普网、Web of Science核心合集数据库、PubMed，检索时限为建库至2025年6月。通过文献研究和专题小组讨论拟定指标体系初稿，遴选广东省内18位临床专家经两轮德尔菲法专家咨询确定指标体系，采用层次分析法确定各级指标权重，并进行信度和效度分析。统计分析专家的积极系数、权威系数、肯德尔相关系数和意见集中程度等指标。采用t检验、U检验、贝叶斯因子分析和Cohen’s d效应量综合评估咨询结果的可靠性。结果指标体系包含8个一级指标和33个二级指标，其中一级指标包括科研项目（0.187 0）、科研平台（0.254 3）、专利（0.042 8）、论文（0.098 0）、专著（0.098 0）、科技奖（0.156 4）、标准规范（0.103 2）、科研差错（0.060 3）。一致性信度Cronbach’s α 系数为0.878，分半信度Spearman-Brown和Guttman系数分别为0.924和0.791，结构效度KMO为0.709，Bartlett’s检验为2 216.392（P＜0.001）。第2轮专家积极系数、权威系数和肯德尔相关系数分别为0.88、0.927和0.259（P＜0.001），两级指标重要性、变异系数和保留率分别为4.52、0.14和94.6%。18位临床专家和6位科研专家对35个指标评分无显著差异，91%的指标有证据支持评分无差异。结论构建的指标体系具有较好的科学性和可行性，可用于三甲公立医院学科科研绩效评价，为学科建设和资源配置提供决策支持。

[关键词] 科研评价；科研绩效；德尔菲法；评价指标体系

我国三甲公立医院不仅是提供医疗服务的核心机构，也是医学研究的重要基地，肩负着推动医学科学发展的使命。2021年6月，国务院办公厅发布《关于推动公立医院高质量发展的意见》，明确指出推进医学科技创新和科技成果转化是实现公立医院高质量发展的重要举措[1]。同年9月，国家卫生健康委员会发布《公立医院高质量发展促进行动（2021—2025年）》方案，要求建立临床需求导向的科研机制，不断完善医学创新激励机制和以应用为导向的成果评价机制[2]。随着公立医院向研究型医院转型发展，学科科研队伍逐渐扩大。因此，建立科学、全面的学科科研绩效评价指标体系势在必行。本研究在梳理国内外研究和医疗卫生政策的基础上，采用德尔菲法和层次分析法，构建符合三甲公立医院需求的学科科研绩效评价指标体系，为资源配置和激励机制优化提供决策支持。

1 资料与方法

1.1 成立研究小组

研究小组共6名成员，由1名副研究员、1名副主任医师、2名助理研究员、2名研究实习员组成，其中4人从事医院科研管理、1人从事医院人力资源管理、1人从事高校信息管理，均为硕士学位，人均工作约10年，主要负责拟定研究主题、开展文献研究、收集政策文件、设计调查问卷、组织专家调查、汇总咨询结果、录入数据和统计分析等。本研究经南方医科大学第十附属医院（东莞市人民医院）伦理委员会审批（LW2025-006）。

1.2 初步拟定指标体系

1.2.1 文献检索法通过检索中国知网、万方数据知识服务平台、维普网、Web of Science核心合集数据库、PubMed，以“医院” AND “学科” AND “科研绩效” AND “指标”为中文关键词，“hospital” AND “discipline” AND “scientific research performance” AND “indicator”为英文关键词，查阅建库至2025年6月国内外相关文献。纳入标准：①已构建指标体系的医院学科科研绩效评价研究；②文献类型包括综述、研究论文、会议论文和学位论文。排除标准：①构建方法不明或过程不清；②无法获取全文；③重复发表。

1.2.2 筛选评价指标依据国家和广东省三甲医院评审标准、临床重点专科建设标准及高水平医院建设实施方案等政策文件和文献研究结果，筛选出相关高频指标条目[3-6]。结合上级主管部门及医院科研管理人员的访谈意见，参照《中国医院科技评价专家共识》体系框架，初步形成8个一级指标和35个二级指标的指标体系初稿[7]。

1.3 编制咨询问卷

根据指标体系初稿编制咨询问卷，问卷内容包括①问卷说明：介绍研究背景、目的、意义、回收期限及注意事项等。②学科科研绩效评价指标专家咨询表：包括指标名称、定义、算法等，收集专家对指标的重要性评分、抉择态度（修改、保留或删除）及修改意见。重要性评分采用Likert 5级评分法，从“很不重要”到“很重要”依次评为1～5分。③专家基本情况调查表：由专家年龄、职称、学历等基本情况，对咨询内容的熟悉程度和判断依据自评两部分组成。通过微信或电子邮件发放，根据第1轮咨询结果和修改意见，对条目进行增删或调整。第2轮专家问卷增加第1轮咨询结果作为参考，请专家对整理后的条目再次评分，直至专家意见趋于集中并达到预设标准。

1.4 专家遴选方法

本研究在广东省范围内共遴选18位临床专家和6位科研专家。科研专家不参与专家咨询确定指标体系的建立，仅与临床专家评分结果进行比较分析。临床专家选取标准：①三甲公立医院市级及以上临床重点专科学科带头人或临床科主任；②从事相关工作和科研经历≥5年；③大学本科及以上学历；④副高级及以上职称；⑤自愿参与并能完成咨询。科研专家选取标准：①三甲公立医院全职从事科研工作；②科研经历≥5年；③博士学位；④正高级职称；⑤自愿参与并能完成咨询。

1.5 问卷评价方法

1.5.1 专家积极系数统计调查问卷的应答率，应答率≥70%认为有效[8]。

1.5.2 专家权威系数（coefficient of reliability，Cr）通过计算专家对咨询内容的判断依据和熟悉程度的平均值，当Cr≥0.7表示专家权威程度较高。判断依据按大、中、小3个影响程度分别对理论推导（0.3、0.2、0.1）、实践经验（0.5、0.4、0.3）、同行了解（0.1、0.1、0.1）和直观推断（0.1、0.1、0.1）4个维度赋值。熟悉程度为很熟悉、熟悉、一般、不太熟悉和不熟悉，分值依次为1.0、0.8、0.6、0.4、0.2[9]。

1.5.3 专家意见集中程度采用指标的重要性均值、变异系数（coefficient of variation，CV）、保留率三者结合的筛选标准[10]。保留率计算公式：

其中，均值越大，该指标相对同组其他指标越重要；CV越低，专家意见越集中；保留率越高，专家对指标认可度越高。

1.5.4 专家意见协调程度采用肯德尔相关系数（Kendall’s W）反映专家对咨询指标的协调程度，取值范围为0～1（P＜0.001），其值越大说明专家意见协调程度越高，通常认为Kendall’s W＞0.1表明专家意见存在一致性[11]。

1.5.5 咨询结果可靠性为分析咨询结果的可靠性，采用独立样本t检验（含Welch t检验）、Mann-Whitney U检验、贝叶斯因子分析（Bayes factor，BF）和Cohen’s d效应量4种方法，检验咨询专家组与科研专家组在指标重要性评分上的差异。假设检验均设定（双侧）显著性水平为α=0.05。t检验和U检验用于分析两组评分是否存在显著差异，BF依据Jeffreys[12]标准评估存在差异的证据强度，Cohen’s d效应量用于衡量差异的大小。

1.6 信度和效度分析

信度分析采用Cronbach’sα 系数评价一致性信度，Spearman-Brown和Guttman系数评价分半信度，各系数均＞0.70为信度较好。结构效度通过KMO值与Bartlett球形检验判断，KMO＞0.60且P＜0.001说明数据适合进行因子分析[13]。缺失值采用中位数或均值进行插补[14]。

1.7 统计学方法

采用Excel录入数据和SPSS 27.0统计分析，连续变量和偏态分布变量缺失值分别采用均值和中位数填补。计量资料采用均数±标准差（）表示，计数资料采用例数和百分比表示。当指标重要性均值＞3.5、保留率＞75%和CV＜0.25其中两项及以上不达标予以剔除[10,15-16]。采用层次分析法计算指标权重，以一致性指标（consistency index，CI）和一致性比率（consistency ratio，CR）判断矩阵可靠性。正向指标采用极差标准化处理，公式为：

其中X为原始数值；负向指标采用反向极差标准化处理，公式为：

2 结果

2.1 咨询专家基本情况

第1轮发放问卷18份，回收有效问卷16份，应答率为89%，积极系数为0.89；第2轮发放问卷16份，回收有效问卷14份，积极系数为0.88。两轮咨询专家中，平均年龄分别为（47.06±4.85）岁和（48.00±4.04）岁，博士学位分别有12人和10人，正高职称分别有13人和11人，工作年限分别为（19.88±6.39）年和（20.46±5.61）年，科研年限分别为（17.44±5.28）年和（17.46±4.16）年。

2.2 专家权威系数

第1轮专家Cr为0.836。其中，3位专家0.9＜Cr≤1.0，7位专家0.8＜Cr≤0.9，6位专家0.7＜Cr≤0.8。第2轮Cr为0.927，权威系数较上一轮有所提高。其中，11位专家0.9＜Cr≤1.0，2位专家0.8＜Cr≤0.9，1位专家0.7＜Cr≤0.8。两轮Cr＞0.7，结果符合要求。

2.3 指标评分结果

第1轮两级指标重要性均值为4.21，CV为0.19，保留率为87.0%。二级指标中，3个指标均值＜3.5，其余指标≥3.5；5个CV＞0.25，总体为0.10～0.42；5个保留率＜75%，总体为56.3%～100.0%。第2轮两级指标重要性均值为4.52，CV为0.14，保留率为94.6%。二级指标中，1个指标均值＜3.5，其余指标≥3.5；1个指标CV＞0.25，总体为0.05～0.30；2个指标保留率＜75%，总体为64.3%～100.0%。见表1。

表1 专家咨询结果汇总

注PCT：《专利合作条约》；CV：变异系数。

2.4 肯德尔相关系数

第1轮两级指标Kendall’s W为0.238，P＜0.001。第2轮两级指标Kendall’s W为0.259，其中一级指标Kendall’s W为0.137，二级指标Kendall’s W为0.282。因此，两轮专家评分均存在一致性。

2.5 咨询结果可靠性

为分析咨询结果的可靠性，本研究对16位咨询专家与6位科研专家的评分结果进行差异性检验。科研专家组Kendall’s W为0.405（P＜0.001），评分一致性高于临床专家组。t检验和U检验结果显示，两组专家35个指标评分比较，差异无统计学意义（P＞0.05）。BF结果显示，35项指标中，69%的指标提供微弱证据支持专家评分无显著差异（1＜BF01≤3），23%的指标提供中等证据支持无差异（3＜BF01≤10），总体证据不足以证明两组专家在多数指标上存在差异。但有3个指标提供弱证据支持有差异（1/3＜BF01＜1），其Cohen’s d效应量显示，“省部级项目”（0.433）为小效应，“发明专利”（0.560）和“项目验收不合格”（0.793）为中效应。综上，两组专家对35个指标的重要性评分无显著差异，91%的指标有证据支持评分无差异。见表2。

表2 指标组间差异的统计分析结果

注 a 表示服从正态分布（P＞0.05）；b 表示服从方差齐性（P＞0.05）。*P＜0.05。

2.6 评价指标筛选

按指标筛选标准，“外观设计专利”和“中科院4区SCI论文”因指标保留率、重要性或CV未达标予以剔除，“科技核心论文”虽不达标，但因其为政策高频指标且纳入三甲评审统计，予以保留。至此，两轮专家意见趋于集中，积极系数、权威系数、变异系数和肯德尔相关系数均达到预设目标，不再进行更多轮次咨询。

2.7 权重计算

根据第二轮专家对一级、二级指标的重要性评分，采用层次分析法计算两级指标权重，即最终权重。结果显示，一级指标CI＜0.1和CR＜0.1，提示判断矩阵无逻辑混乱且一致性良好，并以此特征向量确定指标权重。“科研差错”为负向指标，数值越大结果越差，将在问卷实践总分统计中，采用反向极差标准化处理。

2.8 研究结果解析

经过两轮专家咨询，最终构建了包含8个一级指标、33个二级指标的学科科研绩效评价体系。见表3。一级指标按权重从高到低依次为科研平台、科研项目、科技奖、标准规范、论文、专著、科研差错和专利。相较首轮咨询，重要性均值、变异系数、保留率均明显优化，专家意见趋于集中。两轮Kendall’s W一致性较好且具有统计学相关性。4种统计分析结果显示，临床专家与科研专家评分无显著差异，91%的指标有证据支持评分无差异，提示咨询结果的可靠性。

表3 指标体系一致性指标及权重一览表

注CI：一致性指标；CR：一致性比率。

2.9 信度和效度检验

数据来源于南方医科大学第十附属医院（东莞市人民医院）和广州医科大学附属肿瘤医院，通过管理系统导出去标识化学科数据及问卷调查结果，共提取100条有效数据。信度分析结果显示，一致性信度Cronbach’s α 系数为0.878，分半信度Spearman-Brown等长系数和Guttman系数分别为0.924和0.791，提示具有较高的内部一致性和稳定性。结构效度结果显示，KMO值为0.709，Bartlett’s球形检验为2 216.392（P＜0.001），提示数据适合进行因子分析。

3 讨论

3.1 研究的借鉴、创新及应用

相较既往研究，本研究新增负向指标“科研差错”，建立预警和扣分机制，在国内同类研究中较为少见[17-24]。指标来源于相关文献和政策文件，统计口径与政策标准衔接，按行政级别或行业标准分类，降低数据采集和转换成本。咨询专家均为省市临床重点专科学科带头人或临床科主任，不仅科学地解决了学科科研绩效评价问题，也为同类医院提供了参考范式，具有较高的应用价值。

3.2 研究的不足及展望

首先，本研究构建的评价指标体系经过科学论证，现阶段是合理可行的，但随着形势不断变化，指标仍需动态调整。其次，专家咨询范围有限，可能存在地域偏差，在专科医院、基层医院等不同类型医院的适用性有待验证。下一步将开展实证研究，检验量表信效度并优化结构。

综上所述，随着人工智能和大数据技术的发展，该体系有望进一步优化。例如，利用机器学习算法分析科研绩效数据，优化指标权重并改进评价模型；采用自然语言处理技术分析文本和提取特征，动态更新指标，提高评价体系的精准度和适应性。随着指标体系的不断完善及新技术的融合应用，评价结果将更贴合实际，为公立医院高质量发展提供持续动力。

利益冲突声明：本文所有作者均声明不存在利益冲突。

[参考文献]

[1] 国务院办公厅.国务院办公厅关于推动公立医院高质量发展的意见[EB/OL].（2021-05-14）[2025-06-23].https：//www.gov.cn/gongbao/content/2021/content_5618942.htm.

[2] 国家卫生健康委员会，国家中医药管理局.关于印发公立医院高质量发展促进行动（2021-2025年）的通知[EB/OL].（2021-09-14）[2025-06-23].https：//www.gov.cn/zhengce/zhengceku/2021-10/14/content_5642620.htm.

[3] 广东省卫生健康委员会.广东省卫生健康委关于印发《三级医院评审标准（2022年版）广东省综合和专科医院实施细则》的通知[EB/OL].（2024-01-12）[2025-06-28].https：//wsjkw.gd.gov.cn/gkmlpt/content/4/4338/post_4338032.html#4196.

[4] 国家卫生健康委员会.国家卫生健康委关于印发《三级医院评审标准（2025年版）》的通知[EB/OL].（2025-06-10）[2025-06-28].https：//www.nhc.gov.cn/yzygj/c100068/202506/25229edc80d34694b7debf54ddef9f9f.shtml.

[5] 广东省人民政府.进一步推动高水平医院建设发展的实施方案[EB/OL].（2021-03-16）[2025-06-28].https：//wsjkw.gd.gov.cn/zwgk_bmwj/content/post_3261018.html.

[6] 广东省卫生健康委员会.广东省卫生计生委办公室关于印发《广东省高水平医院建设项目实施方案》等三个文件的通知[EB/OL].（2017-05-11）[2025-06-28].https：//wsjkw.gd.gov.cn/gkmlpt/content/2/2131/mpost_2131027.html#2531.

[7] 中国医院科技评价深化改革研究协作组，中华医学会医学科研管理学分会临床研究管理学组.中国医院科技评价专家共识（2025版）[J].中华医学杂志，2025，105（24）：1961-1967.

[8] AKINS R B，TOLSON H，COLE B R.Stability of response characteristics of a Delphi panel：application of bootstrap data expansion[J].BMC Med Res Methodol，2005，5（1）：37.

[9] 叶平枝，丘苑，周苑妤.托育机构教师核心素养评价指标体系的构建[J].教育发展研究，2022，42（2）：36-46.

[10] LU Y，LIU C，YU D，et al.Conditions required to ensure successful detection and management of mild cognitive impairment in primary care：A Delphi consultation study in China[J].Front.Public Health，2022，10：943964.

[11] 陈平雁.IBM SPSS统计软件应用[M].北京：人民卫生出版社，2020.

[12] WAGENMAKERS E J，LOVE J，MARSMAN M，et al.Bayesian inference for psychology.Part Ⅱ：Example applications with JASP[J].Psychon Bull Rev，2018，25（1）：58-76.

[13] 许梦瑶，许军，薛允莲，等.四川省城镇居民亚健康状况调查评定量表的信效度研究[J].中国健康教育，2020（6）：515-520.

[14] KA pagenumber_ebook=91,pagenumber_book=87 AK T，KıLA F.The Effects of Missing Data Handling Methods on Reliability Coefficients：A Monte Carlo Simulation Study[J].Eitimde ve psikolojide ölçme ve deerlendirme dergisi，2024，15（2）：166-182.

[15] BAI X，GAN X，YANG R，et al.Construction of a competency evaluation index system for front-line nurses during the outbreak of major infectious diseases：A Delphi study [J].PLoS One，2022，17（7）：e0270902.

[16] VOGEL C，ZWOLINSKY S，GRIFFITHS C，et al.A Delphi study to build consensus on the definition and use of big data in obesity research [J].Int J Obes（Lond），2019，43（12）：2573-2586.

[17] 耿华，杨林，周丽.基于DEA模型的医院学科科研绩效评价探析[J].中国医院，2025，29（3）：55-59.

[18] 何一宁，舒之群，聂鑫，等.医疗机构研究型学科发展评价指标体系的构建[J].中华医学科研管理杂志，2022，35（6）：421-427.

[19] 陶庆梅，于新颖.研究型医院学科科技创新评价指标体系的初步构建[J].中国研究型医院，2022，9（6）：31-36.

[20] 刘晴，陈正荣，郎晶晶，等.研究型医院专科科研绩效考核评价指标体系构建[J].中国医院，2024，28（10）：20-22.

[21] 陈卓，张玥，岳文涛，等.建立医院科室科研绩效考核指标体系[J].中华医学科研管理杂志，2020，33（4）：255-259.

[22] 张迪，柳芳超，郑晓静，等.以学科发展为导向的专科医院科研绩效评价指标体系构建研究[J].中华医学科研管理杂志，2020，33（4）：293-298.

[23] 安亚男，侯莎莎，李靖，等.山西省医疗机构医学重点学科建设评价指标体系构建[J].中华医学科研管理杂志，2023，36（6）：455-460.

[24] 闫雪冬，王丹，贾淑芹.基于德尔菲法的肿瘤医院临床医学学科评估指标体系的构建与应用[J].中华医学科研管理杂志，2020，33（2）：96-101.

Constructing an evaluation indicator system for discipline scientific research performance in tertiary public hospitals based on the Delphi method

QIN Guoqiang1 LI Wanyi1 XU Mengyao2 FENG Jingyun3 GUO Rui4 LIANG Jiafei1
1.Department of Science and Education, the Tenth Affiliated Hospital, Southern Medical University Dongguan People’s Hospital, Guangdong Province, Dongguan 523059, China; 2.Office of Luzhou Center for Disease Control and Prevention,Sichuan Province, Luzhou 646000, China; 3.Department of Personnel and Training, Affiliated Cancer Hospital and Institute of Guangzhou Medical University, Guangdong Province, Guangzhou 510000, China; 4.Network and Information Center,Guangdong Medical University,Guangdong Province,Dongguan 523808,China

[Abstract] Objective To develop an evaluation indicator system for the scientific research performance of disciplines in tertiary public hospital,and to provide a scientific tool for the performance evaluation of scientific research in disciplines.Methods The academic databases of CNKI,Wanfang Data,VIP,Web of Science Core Collection Database,and PubMed were retrieved.The retrieval period was from the inception to June 2025.The initial draft of the indicator system was formulated through literature research and expert panel discussions.Eighteen clinical experts in Guangdong Province were selected to determine the indicator system through two rounds of Delphi expert consultation.The weights of each level of indicators were determined by the analytic hierarchy process,and reliability and validity analysis were analyzed.Statistical analysis was performed on indicators such as expert positivity coefficient,authority coefficient,Kendall’s coefficient of concordance,degree of opinion concentration.The reliability of the consultation results was comprehensively evaluated by t-tests,U-tests,Bayesian factor analysis,and Cohen’s d effect size.Results The indicator system comprises 8 primary and 33 secondary indicators,including research projects(0.187 0),research platforms(0.254 3),patents(0.042 8),publications(0.098 0),monographs(0.098 0),science and technology awards (0.156 4),standards and guidelines (0.103 2),and research errors(0.060 3).The consistency reliability Cronbach’s α coefficient was 0.878,the split-half reliability Spearman-Brown and Guttman coefficients were 0.924 and 0.791,respectively.The structural validity KMO was 0.709,and the Bartlett’s test was 2 216.392 (P ＜0.001).In the second round of consultation,the expert positivity coefficient,authority coefficient,and Kendall’s coefficient of concordance were 0.88,0.927,and 0.259 (P＜0.001),respectively.The importance,coefficient of variation,and retention rate of the two-level indicators were 4.52,0.14,and 94.6%,respectively.There was no significant difference in the scores of 18 clinical experts and 6 scientific research experts on the 35 indicators,and there was evidence to support no difference in the scores for 91%of the indicators.Conclusion The constructed indicator system demonstrates strong scientificity and feasibility,which can be used to evaluate the scientific research performance of tertiary public hospital disciplines,and provide decision support for the allocation of discipline resources and the optimization of incentive mechanism.

[Key words] Research assessment;Research performance;Delphi method;Evaluation indicator system

[中图分类号] R192

[文献标识码] A

[文章编号] 1673-7210（2025）09（b）-0081-07

DOI：10.20047/j.issn1673-7210.2025.26.15

[基金项目] 广东省医学科学技术研究基金项目（B2023360）；广东省卫生经济学会科研项目（2024-WJMF-113）；东莞市社会发展科技项目（20231800905262）。

[作者简介] 覃国强（1987.9-），男，硕士，副研究员；研究方向：卫生管理。

[通讯作者] 梁家菲（1996.2-），女，硕士；研究方向：科教管理。

（收稿日期：2025-05-12）

（修回日期：2025-07-11）