点击蓝字 关注我们STAGER 清单: 生成式人工智能可靠性的标准化测试和评估推荐研究论文● 期刊iMetaOmics● 文章被引Dimensions截至2026年4月26日30● 原文链接DOI: https://doi.org/10.1002/imo2.7● 2024年7月2日南方医科大学罗鹏团队等在iMetaOmics在线发表了题为“STAGER checklist: Standardized testing and assessment guidelines for evaluating generative artificial intelligence reliability”的文章。● 本研究发表的STAGER 清单是评估生成式人工智能AI可靠性的标准化测试和评估指南有助于生成式人工智能在医学和生命科学领域的发展。如需简明清单请参阅附表或访问 GenAIMed.org。● 第一作者陈镜虹、朱凌煊、牟伟明、林安琪● 通讯作者程全(chengquancsu.edu.cn)、苗凯(kaimiaoum.edu.mo)、袁硕峰(yuansfhku.hk)、罗鹏(luopengsmu.edu.cn)● 合作作者曾东强、齐畅、刘灶渠、江爱民、汤步富、史文杰、Ulf D Kahlert、周建国、郭世鹏、陆晓凡、Xu Sun、Trunghieu Ngo、蒲中机、贾保磊、Che Ok Jeon、何勇槟、吴海洋、古书琴、Wisit Cheungpasitporn、黄浩杰、毛卫浦、王诗翔、陈新、Loïc Cabannes、Gerald Sng、Gui Ren、Iain S Whitaker、Stephen Ali● 主要单位南方医科大学珠江医院肿瘤科上海交通大学医学院附属第一人民医院泌尿外科南方医科大学南方医院肿瘤科奥地利维也纳理工大学逻辑与计算研究所蛋白质组学国家重点实验室北京蛋白质组研究中心国家蛋白质科学中心北京北京生命科学研究院中国医学科学院基础医学研究所医学分子生物学国家重点实验室、中国协和医科大学病理生理学系海军军医大学第二军医大学长海医院泌尿外科复旦大学附属中山医院放射肿瘤科德国奥托-冯-盖里克大学医学院马格德堡大学医院普通外科、内脏外科、血管外科和移植外科分子与实验外科诊所遵义医学院第二附属医院肿瘤科德国埃尔兰根大学放射肿瘤系放射生物学研究室德国埃尔朗根癌症综合研究中心GZD实验室斯特拉斯堡大学遗传、分子和细胞生物学研究所巴黎西岱大学语言学系中国杭州湘湖实验室韩国中央大学生命科学系北京体育大学运动医学与康复学院北卡罗来纳大学教堂山分校医学院微生物与免疫学系Lineberger综合癌症中心天津医科大学研究生院天津医科大学临床学院神经内科、神经外科和神经康复系美国杜克大学人类疫苗研究所杜克大学医学中心梅奥诊所东南大学附属中大医院泌尿外科美国波士顿贝斯以色列女执事医疗中心和哈佛医学院医学系华南肿瘤学国家重点实验室实验研究部生物信息平台、广东省鼻咽癌诊治重点实验室、广东省肿瘤临床研究中心、中山大学肿瘤防治中心南方医科大学珠江医院呼吸与危重症医学科新加坡中央医院内分泌科新加坡中央医院数据科学与人工智能实验室英国斯旺西大学医学院生命科学研究所重建外科和再生医学研究中心英国莫里斯顿医院威尔士烧伤和整形外科中心中南大学湘雅医院神经外科中南大学湘雅医院国家老年医学临床研究中心澳门大学健康科学学院癌症中心及转化医学研究所澳门大学MoE肿瘤前沿科学中心香港大学深圳医院传染病及微生物学系香港大学李嘉诚医学院临床医学院余嘉露感染中心微生物学系亮 点● STAGER清单是评估生成式人工智能AI可靠性的标准化测试和评估指南这是一个有着32个项目的框架为评估医学和生命科学背景下的生成式人工智能系统提供了量身定制的标准化评估指南● STAGER清单由问题收集、查询方法和评估技术等关键方面组成● STAGER清单提高了研究质量促进了这一新兴领域的发展。摘 要生成式人工智能AI在医疗应用方面拥有巨大的潜力。已有大量研究探讨了各种生成式人工智能模型在医疗保健领域的功效但目前还缺乏一个全面系统的评估框架。鉴于一些评估生成式人工智能在医疗应用中的能力的研究在方法设计上存在缺陷目前也缺乏对其进行评估的标准化指南。为此我们的目标是为评估生成式人工智能系统在医疗领域的表现量身定制标准化评估指南。为此我们利用 Web of Sciences、Cochrane Library、PubMed 和 Google Scholar 数据库进行了全面的文献综述重点关注测试医学中生成式人工智能能力的研究。我们的多学科团队由生命科学、临床医学、医学工程方面的专家和生成式人工智能用户组成他们进行了多次讨论并制定了一份包含 32 个项目的核对表。该清单旨在全面涵盖生成式人工智能在医疗应用中的关键评估方面。该清单及其所依托的更广泛的评估框架涉及几个关键方面包括问题收集、查询方法和评估技术。我们的目标是对人工智能系统进行整体评估。检查表勾勒出了从问题收集到结果评估的清晰路径为研究人员应对潜在挑战和陷阱提供了指导。我们的框架为涉及生成式人工智能在医学中的适用性测试的研究提供了标准化和系统化的方法。它提高了研究报告的质量有助于生成式人工智能在医学和生命科学领域的发展。如需简明清单请参阅附表或访问 GenAIMed.org。视频解读Bilibilihttps://www.bilibili.com/video/BV1z4421D7dA/Youtubehttps://youtu.be/q0VJIc4CVIg中文翻译、PPT、中/英文视频解读等扩展资料下载请访问期刊官网http://www.imeta.science/imetaomics/全文解读引 言生成式人工智能AI是人工智能中一个日益突出的子领域具有生成文本、图像、音频、视频和代码等各种格式数据的卓越能力。这种多功能性还包括通过直接的文本提示实时适应新任务要求的能力。以在 PubMed 上搜索 Chat Generative Pre-trained TransformerChatGPT为例相关研究的数量呈增长趋势图 1A。在医学领域生成式人工智能在快速处理医学文本和图像等多模态信息方面表现突出在涉及 ChatGPT 的研究数量最多的前十五个领域中医学相关领域占了很大比例图 1B。生成式人工智能可以用自然语言回复医学咨询为医学专业人员的诊断决策和科学研究提供重要支持。ChatGPT 、Google Bard 和 New Bing 等大型语言模型也许是当今医疗领域探索得最多的生成式人工智能工具。图1. 使用“ChatGPT”作为关键字的PubMed搜索的发布记录A它揭示了以生成式人工智能为重点的出版物数量的快速增长表明人们对这一领域的兴趣和研究正在显著激增。(B) 涉及 ChatGPT 研究数量最多的前二十个领域。ChatGPT聊天生成预训练变换器。目前关于生成式人工智能在医疗领域应用的研究范围很广从评估其对医学知识的掌握程度和通过医学检查的能力到协助提供初步医疗咨询以及迅速提供相关医疗信息和建议。这些研究强调了生成式人工智能在医疗保健领域应用的巨大潜力。然而一个值得关注的问题是一些已发表的研究在评估方法上可能存在方法论缺陷和局限性。这会给研究结果带来不同程度的偏差。例如Fijačko 等人调查了 ChatGPT 在美国心脏协会AHA基础生命支持BLS和高级心血管生命支持ACLS考试中的表现并强调 ChatGPT 无法通过这些考试。然而这一结论忽略了一个事实即生成式人工智能模型通常会对相同的询问做出不同的回应。经过修改的方法包括重复相同的问题发现 ChatGPT 确实可以通过这两项考试并取得了显著的成功。另一个关键差距在于缺乏既定框架来系统评估生成式人工智能解决医学相关问题的能力。在评估涉及人工智能干预的临床试验方面有一些被广泛采用的报告指南如《人工智能试验报告综合标准》CONSORT-AI和《标准协议项目干预试验建议-人工智能》SPIRIT-AI指南。此外还有一些针对特定医学领域的新型医学多模态大语言模型如针对未来流行病的医学多模态大语言模型。然而与一般人工智能干预措施相比生成式人工智能干预措施可以同时提供更加细致和复杂的输出。利用生成式人工智能的早期试验通常侧重于狭义的问题解答用例。然而随着其他生成式人工智能工具如视觉语言模型的快速发展生成式人工智能的潜在用例在未来几年可能会呈指数级增长。因此仍有必要为生成式人工智能干预制定全面而具体的报告指南。这样一个框架不仅能使评估标准化还能极大地推动生成式人工智能在医学领域的应用研究。我们提出了一个标准化方法框架用于报告生成式人工智能系统在医疗相关领域的产出。该框架可作为评估生成式人工智能技术的综合指南包括收集问题、合理设置问题、进行全面的结果评估等。考虑到生成式人工智能在选择题和开放式问题之间的表现差异我们的指南对处理这两种问题类型的方法进行了周到的区分。这种区分确保了评估过程更加细致有效。我们的指南涵盖了研究过程中的关键环节旨在帮助研究人员、医学专业人员和技术开发人员对生成式人工智能在医学能力评估中的能力进行全面而精确的评估包括对准确性、完整性和可读性等方面进行仔细检查。结 果如表 1 所示我们制作了一份由 32 个不同项目组成的核对表。该核对表代表了一个广泛而复杂的框架专门用于评估生成式人工智能在医学领域的应用能力图 2。我们的框架全面涵盖了各种关键维度如问题收集方法、先进的提问技巧和各种评估方法。这些方法不仅能评估人工智能系统的准确性和完整性还能评估其清晰易懂地呈现信息的能力。图2. 用于评估生成式人工智能系统的 STAGER 检查表关键组成部分示意图这项工作制定了 STAGER 检查表这是一个 32 个项目的框架为评估医学和生命科学背景下的生成式人工智能系统提供量身定制的标准化评估指南涉及问题收集、查询方法和评估技术等关键方面。它提高了研究质量促进了这一新兴领域的进步。STAGER用于评估生成式人工智能可靠性的标准化测试和评估指南AI人工智能。这份清单的全面性确保了对生成式人工智能在管理和解释医疗数据和场景方面的能力进行详细而深入的评估。通过探索这些不同的维度我们对人工智能在处理和解释复杂医疗信息方面的优势和潜在局限性有了宝贵的认识。这种理解对于优化人工智能在医疗环境中的应用至关重要。此外我们还对清单中列出的每个项目进行了详尽的解释详见表 1。这些解释旨在阐明评估过程中每个步骤的基本原理和重要性。我们的目标是为研究人员提供明确的指导帮助他们有效地应对在医学人工智能领域进行研究时可能遇到的多方面挑战。该指南有助于确保研究人员进行全面而有意义的评估最终有助于提高生成式人工智能在医学研究和实践中应用的可靠性。方 法相关文献综述为了制定一个详细而强大的框架来评估生成式人工智能在医学能力测试中的效率我们开始了详尽的研究工作。我们深入研究了多个知名数据库包括 Web of Sciences、Cochrane Library、PubMed 和 Google Scholar彻底调查了生成式人工智能在医疗环境中应用的相关研究。我们的目标是收集当代研究中流行的各种观点和方法。这种策略性方法对于确保我们提出的清单的针对性和全面性至关重要。研究筛选标准从这些数据库中提取信息的过程遵循严格的标准重点关注那些对生成式人工智能在医学能力测试中的评估和应用有重要见解的研究。我们的搜索参数包括一系列关键词和短语专门用于捕捉这一快速发展领域中最相关的最新研究。这一广泛的文献综述不仅为我们提供了大量潜在的检查表项目还让我们深入了解了生成式人工智能在医疗应用评估方面的现有挑战和差距。组建跨学科专家团队在文献综述之后我们组建了一个跨学科专家团队每个人都带来了独特而重要的观点。该团队由生命科学、临床医学和医学工程方面的专家组成他们都是生成式人工智能技术的积极使用者。他们在医疗环境中使用人工智能工具方面的不同背景和实践经验有助于为检查表的开发提供全面的方法。讨论核对表中的项目团队按照《健康研究报告指南制定者指南》中概述的规程进行了一系列有条理的深入讨论。这些讨论不仅旨在验证和完善最初提取的核对表项目还旨在整合团队成员的不同见解和经验。每次会议都经过精心策划以确保讨论重点突出、富有成效并指定了具体的议程项目和核对表组成部分供审查和辩论。审查和完善项目在这些讨论中团队严格审查了每个潜在的核对表项目考虑其相关性、适用性以及在评估生成式人工智能在医学能力测试中的熟练程度方面的重要性。重点是确保每个核对表项目清晰、可衡量并符合医学研究和人工智能应用的最高标准。团队还重点关注了每个项目在应对生成式人工智能在医疗环境中的具体挑战和细微差别方面的潜力。这包括对每个项目的能力进行批判性分析不仅要评估人工智能系统的技术熟练程度还要评估其实际效用、伦理考虑以及对临床结果的影响。通过这种严谨的合作方法并遵循《研究与评估准则评估》AGREE我们制定了一套全面的准则用于评估生成式人工智能在医学能力测试中的熟练程度。这一框架不仅能满足当前领域的需求还能适应未来人工智能在医学应用方面的进步和挑战。讨 论在制定这些指南的过程中我们集中精力编制了一份包含 32 个项目的综合清单该清单经过精心设计旨在评估生成式人工智能在医学和生命科学领域的适用性。本指南的创新之处在于其广泛的评估维度其中包括问题收集、提问方式和各种评估方法等重要方面。这种全面的方法有助于深入理解和评估生成式人工智能在医学环境中的表现从而推动该领域的进步。在构思清单时我们敏锐地意识到目前在医疗领域应用生成式人工智能所面临的挑战。其中一个重大挑战是生成式人工智能的数据处理和信息生成不透明。这种不透明性往往导致难以解读和解释结果从而有可能损害人工智能在医疗应用中的可信度和可用性。我们的核对表通过提供一个标准化框架来严格评估这些关键方面从而提高研究的质量和可靠性。另一个主要挑战是问题收集、框架制定和综合结果评估过程中的差异。这些差异源于不同研究人员采用的不同方法引入了一定程度的主观性可能会使评估结果出现偏差。我们的核对表通过提供一个详细而实用的框架来解决这一问题。它强调问题的收集、人工智能代理的选择以及提出问题的方法等关键因素所有这些因素都会对结果产生重大影响。这种详细的方法有效地消除了人们对主观性的担忧确保评估更加客观可靠。此外我们还为人工智能模型开发人员提出以下建议在强调数据质量和多样性的同时我们鼓励开发人员探索可能偏离传统模型的创新方法。这种灵活性可为人工智能应用带来突破。此外在医学伦理学中整合生成式人工智能虽然大有可为但需要仔细考虑其认识论局限性。因此我们建议采用灵活的方法来考虑伦理问题在适应不同环境的同时坚决遵守患者隐私和数据安全等核心原则。在一个伦理挑战与技术发展同样迅速的领域这种平衡至关重要。我们的核对表旨在保持方法论的严谨性和灵活性之间的平衡这对于快速发展的医学人工智能领域至关重要。我们没有提供评分规则旨在激发研究人员的创造力。例如有一项研究探索了大型语言模型作为打击医疗虚假信息工具的潜力。这种方法鼓励对人工智能技术进行创新性应用和解释从而实现突破性发展而僵化的评分系统可能无法完全捕捉到这些发展。通过采用这种开放式方法我们的框架营造了一个环境让非传统的想法可以在此得到测试和完善从而加快人工智能在医疗保健领域的发展。这种灵活性还允许整合新技术和新发现确保我们的指南在该领域不断发展和变化的过程中保持相关性和有效性。此外我们的指南中对每个核对表项目的详细解释不仅仅是为了帮助理解。它在减少主观解释差异和提高评估的可重复性方面也发挥了重要作用。该指南使研究人员能够识别并解决研究中的潜在挑战这对提高研究质量至关重要。通过提供全面的框架和指南我们旨在为在医学研究中更细致、更有效、更可靠地使用生成式人工智能铺平道路。这种方法对于确保人工智能技术不仅在能力上有所进步而且符合医学科学固有的严格要求和伦理考虑至关重要。结 论本指南中的评估框架引入了一种标准化和系统化的方法用于评估医疗应用中的生成式人工智能研究重点在于提高研究报告的质量。该框架对于促进医疗领域生成式人工智能的发展至关重要可确保人工智能系统不仅具有创新性而且在实际应用中有效可靠。通过提供一套明确的评估标准该框架满足了对人工智能研究透明度和严谨性的需求这在准确性和可靠性至关重要的领域是至关重要的。此外该框架有望促进学术合作和知识交流为跨学科合作创造沃土。这种合作对于生成式人工智能技术在医学应用领域的持续发展至关重要可确保其保持前沿性、相关性并与不断变化的医学科学领域保持一致。通过这一框架我们的目标是为人工智能技术在医学应用领域的持续进步做出重大贡献增强其在医学研究和实践中的革命性作用。引文格式Jinghong Chen, Lingxuan Zhu, Weiming Mou, Anqi Lin, Dongqiang Zeng, Chang Qi, Zaoqu Liu, Aimin Jiang, Bufu Tang, Wenjie Shi, Ulf D. Kahlert, Jianguo Zhou, Shipeng Guo, Xiaofan Lu, Xu Sun, Trunghieu Ngo, Zhongji Pu, Baolei Jia, Che Ok Jeon, Yongbin He, Haiyang Wu, Shuqin Gu, Wisit Cheungpasitporn, Haojie Huang, Weipu Mao, Shixiang Wang, Xin Chen, Loïc Cabannes, Gerald Sng Gui Ren, Iain S. Whitaker, Stephen Ali, Quan Cheng, Kai Miao, Shuofeng Yuan, Peng Luo. 2024. STAGER checklist: Standardized testing and assessment guidelines for evaluating generative artificial intelligence reliability.iMetaOmics1: e7. https://doi.org/10.1002/imo2.7作者简介陈镜虹第一作者● 南方医科大学2022级临床医学本科生。牟伟明第一作者● 南方医科大学2018级临床医学本科生上海交通大学医学院上海市第一人民医院泌尿外科2023级硕士生。● 主要研究方向为大语言模型在医学诊疗中的应用、肿瘤免疫微环境。程全通讯作者● 中南大学湘雅医院神经外科副主任医师博士研究生导师博士后合作导师。● 主要研究方向为胶质瘤微环境、药物敏感性及大数据分析等以一作或通讯作者在Molecular Cancer、Journal of Hematology Oncology、Signal Transduction and Targeted Therapy、iMeta、Theranostics、Journal of Experimental Clinical Cancer Research、Eclinicalmedicine、Clinical Immunology、Computational and Structural Biotechnology Journal、Cancer Immunology Immunotherapy和Cell Proliferation等期刊发表论文H指数32ESI高被引7篇热点论文2篇。苗凯通讯作者● 博士澳门大学助理教授。● 主要研究方向为功能基因组学研究包括1CRISPR技术介导的基因治疗2基于单细胞barcode标记的CRISPR文库的高通量功能基因的筛选鉴定工作3肿瘤转移的谱系示踪分析。主持或参加多项科研项目包括国家自然科学基金重点项目澳门科学技术发展基金重点研发专项澳门大学研究计划基金等。近年来在Nature Communication, Nature Cell Research, Advanced Science, PNAS, Oncogene等国际杂志发表SCI论文50余篇授权专利2项。袁硕峰通讯作者● 香港大学李嘉诚医学院微生物学系助理教授、博士生导师。● 以新冠病毒、中东呼吸综合征病毒等冠状病毒为主要研究对象研究方向包括1抗病毒药物的高通量、快速筛选及创新抗病毒靶点的挖掘2构建动物模型开展抗病毒活性评价及病原特性研究。发表SCI收录论文100余篇H因子32总引用11700次基于Web of Science数据。近5年来以第一及通讯作者含共同身份在NatureScienceLancet等国际学术期刊发表SCI论文38篇。2021年和2022年连续被科睿唯安评为世界被引用数排名前 1% 的学者之一并获年度全球高被引科学家。罗鹏通讯作者● 南方医科大学珠江医院肿瘤科研究助理在香港大学微生物系学习。● 主要研究方向为肿瘤免疫微环境、微生物在肿瘤免疫微环境中的应用、抗肿瘤药物机制等以第一作者或通讯作者(含共同)在JAMA Intern Med、JAMA Oncology、eClinicalMedicine、Gut、J Hematol Oncol、J Thorac Oncol、MedComm、J Exp Clin Cancer Res、Brief Bioinform、Pharmacol Res、Mol Cancer、Elife、Int J Surg、Br J Surg、Clin Transl Med、JNCC、Neurology、Clin Gastroenterol H、iMeta和ESMO Open等期刊发表论文120余篇总被引2900H-index281项研究被ASCO指南引用7篇ESI高被引论文1篇热点论文担任Nat Nanotechnol、Adv Sci、EBioMedicine、EClinicalMedicine、eLife、PNAS、Med和Npj Precis Oncol等杂志审稿人现为iMeta、Phenomics和Cancer Drug Resistance青年编委以及多本SCI杂志客座编辑或编委。共同主办单位更多推荐▼ 点击跳转高引文章 ▸▸▸▸iMeta | 引用20000海普洛斯陈实富发布新版fastp更快更好地处理FASTQ数据高引文章 ▸▸▸▸iMeta | 兰大张东组使用PhyloSuite进行分子系统发育及系统发育树的统计分析高引文章▸▸▸▸iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVIiMeta封面1卷1期1卷2期1卷3期1卷4期2卷1期2卷2期2卷3期2卷4期3卷1期3卷2期3卷3期3卷4期3卷5期3卷6期4卷1期4卷2期4卷3期4卷4期4卷5期4卷6期5卷1期iMetaOmics封面1卷1期1卷2期2卷1期2卷2期2卷3期2卷4期3卷1期iMetaMed封面1卷1期1卷2期期刊简介“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录2025年6月影响因子33.2中科院分区生物学1区Top位列全球SCI期刊前千分之三(65/22249)微生物学科2/163仅低于Nature Reviews学科研究类期刊全球第一中国大陆5/585“iMetaOmics” 是“iMeta” 子刊主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任。iMetaOmics相继被PubMed、ESCI、DOAJ、Crossref和EZB等数据库收录目标是成为影响因子大于10的高水平综合期刊欢迎投稿iMetaMed 是“iMeta” 子刊专注于医学、健康和生物技术领域目标是成为影响因子大于15的医学综合类期刊欢迎投稿iMeta主页http://www.imeta.science姊妹刊iMetaOmics主页http://www.imeta.science/imetaomics/出版社iMeta主页https://onlinelibrary.wiley.com/journal/2770596x出版社iMetaOmics主页https://onlinelibrary.wiley.com/journal/29969514出版社iMetaMed主页https://onlinelibrary.wiley.com/journal/3066988xiMeta投稿https://wiley.atyponrex.com/journal/IMT2iMetaOmics投稿https://wiley.atyponrex.com/journal/IMO2iMetaMed投稿https://wiley.atyponrex.com/submission/dashboard?siteNameIMM3邮箱officeimeta.science最全1000植物核基因组数据库IMP (点击图片直达)高颜值免费 SCI 在线绘图(点击图片直达)往期精品(点击图片直达文字对应教程)LinuxPythonR绘图NGS基础GEO高级生信自学生信书籍系列教程心得体会转录组经典宏基因组蛋白质组单细胞系列测序发展史免费在线画图色彩搭配图形排版图形解读ChIP-seqTCGAGSEAWGCNA海哥组学傻瓜系列文章写作CytoscapeExcelPPT机器学习公众号投稿联系陈同 chentong_biology163.com