19157628936

国内首款医疗大语言模型MedGPT发布,专业医疗标注数据成关键

时间:2023-06-07 10:58:00

作者:景联文科技

浏览:

5月25日,国内互联网医院慢病管理平台医联今日正式发布了自主研发的基于Transformer架构的国内首款医疗大语言模型——MedGPT。

 

与通用型的大语言模型产品不同,MedGPT主要致力于在真实医疗场景中发挥实际诊疗价值,实现从疾病预防、诊断、治疗、康复的全流程智能化诊疗能力。

 

医联MedGPT目前的参数规模为1000亿,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使用了800万条的高质量结构化临床诊疗数据,并投入超过100名医生参与人工反馈监督微调训练。

 

image.png 

 

现阶段,垂直医疗大模型难在以下几个方面:

1.  医疗行业数据质量不高

医疗数据的质量相对较低,甚至存在一些不准确和不完整的情况,这影响了大模型的学习和预测表现。

 

2.  数据量不足

与其他行业相比,医疗行业的数据量相对较小,且医疗服务的数据过于碎片化,这对于建立大型模型的准确性和灵敏度可能带来挑战。

 

3.  数据隐私和安全

医疗数据涉及个人隐私和敏感信息,管理和保护这些数据的安全性和隐私性是一个重要问题。

 

4.  医疗行业的缺乏标准化

医疗行业的数据和工作流程缺乏标准化,不同医疗机构采用不同的系统,每个系统标准不用,这使得不同机构之间的数据共享和协作可能变得复杂和困难。

 

5. 实时性要求高

医疗数据有时需要快速响应和处理,对模型的实时性和实时性能提出了更高的要求。

 

6. 复合型人才短缺

对于“AI+医疗”这一专业性极强的交叉领域,对复合型人才的需求极大。医疗专业的知识本身非常精细,再加上与算法的深度融合,AI医疗对人才综合能力要求甚高。

 

AI医疗大模型需要强大的数据支持,而标注数据是构建模型所必需的一种数据,它们对于AI医疗大模型有着重要作用。

 

标注数据对于提高AI医疗大模型的性能至关重要。通过对标注数据的分析、训练和验证,AI医疗大模型可以更准确地识别患者的病情,为医生制定更精准的治疗方案提供有力支持。医疗机构可以更好地控制数据的质量和一致性,减少数据偏差,进而提高模型的精度和可解释性,训练出更准确、更精细的模型,为患者提供更好的医疗服务。

 

image.png 

 

景联文科技是AI基础数据行业的头部企业,拥有大量高质量的医疗数据储备拥有相关医疗知识文本100G,涵盖不同医学领域的最新研究成果;拥有大量专业医学论文,来自于国内外多方搜索平台、40多家专业高校合作资源以及40多家国内外专业医学组织协会合作;拥有100G的高分辨率和准确性医学图像,包括了各种医学影像,如CT、MRI、超声等,能让AI医疗大语言模型更好地学习和诊断更好地了解和模拟医患沟通、诊疗流程等情景,提高AI医疗大语言模型诊断的准确性和效率。所有数据都经专业医学人员标注质检,保证数据的高质量。

 

景联文科技拥有丰富的医学专家资源,医疗领域专家可对垂直领域数据信息进行全方位标注,保证数据质量,满足当前标注需求。

 

景联文科技拥有5000名标注经验丰富的专业医学生团队,与10所专业医学院校达成深度合作,拥有丰富的图像和文本标注经验,可为大模型医疗提供图像和NLP相关数据采集和数据标注服务,根据客户需求调配相关标注员为其提供服务。

 

景联文智能医疗标注平台支持多种类医疗数据标注,可为AI医疗大模型提供丰富化、精准化、结构化的医疗知识,为医疗数据定制标注服务提供了更加科学、准确的保障。

 

景联文科技|数据采集|数据标注

助力人工智能技术,赋能传统产业智能化转型升级

 

文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。

 


做AI行业客户的数据参谋
客户咨询电话:19157628936
地址:杭州市萧山区杭州湾信息港E幢7楼
微信公众号 客户咨询微信