首页 > 新闻动态 > 行业资讯 > 景联文科技：为AI大模型提供高质海量训练数据

景联文科技：为AI大模型提供高质海量训练数据

时间：2024-04-08 09:40:54

作者：景联文科技

浏览：次

在全球AI浪潮的推动下，大量训练数据已成为AI算法模型发展和演进中的关键一环。

艾瑞咨询数据显示，包括数据采集、数据处理（标注）、数据存储、数据挖掘等模块在内的AI基础数据服务市场，将在未来数年内持续增长。

预计到2025年，国内AI基础数据服务市场的整体规模预计将达到101.1亿元，整体市场增速将达到31.8%（2024-2025年）。

数据的数量和质量决定了AI水平高低。其中，大模型的预训练对数据要求很高，必须在前期进行清洗、标注、标识。如何获取和利用高质量的数据已经成为了一个重大挑战。

景联文科技是大模型数据供应商，致力于为不同阶段的模型算法匹配高质量数据资源。

世界知识类书籍、期刊、论文及高价值社区文本数据：

l 中文书籍 250万本

l 高质量外文文献期刊 8500万篇

l 英文高质量电子书 200万本

教育题库：

l K12教育题库 1800万

l 大学题库 1.1亿，800万带解析

l 英文题库 500万

专业知识类期刊、专利、代码：

l 中文数字专利 4000万

l 程序代码（代码注释） 20万

多轮对话：

l 文本多轮对话 1500万

l 中英文剧本（电影、电视剧、剧本杀） 6万

药学数据：

l 药物研发数据库 1300万

l 全球上市数据库 80万

l 一致性评价数据库 25万

l 生产检验数据库 40万

l 合理用药 300万

l 多维文献 1亿

l 原料药数据库 1100万

化学数据：

l 化合物数据库 1.6亿

l 反应信息数据库 4100万

l 物化性质数据库 1.6亿

l 谱图数据库 20万

l 晶体信息数据库 100万

l 安全信息数据库 180万

l 商品信息数据库 740万

专利数据：

l 全球专利基础著录数据 1.3亿

l 全球专利原文数据 1亿

l 全球专利附图数据

l 全球专利法律状态数据

l 全球专利引文数据

l 全球专利分类索引数据

l 全球专利重点申请人工商关联数据

l 全球生化医药专利深加工数据

l 全球专利全文数据

同时景联文科技提供大模型训练数据的标注服务，致力于为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的多模态大模型训练数据。

景联文科技｜数据采集｜数据标注｜大语言模型训练数据

助力人工智能技术，赋能传统产业智能转型升级

文章图文著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处。

上一篇：数据质量决定大模型能力，景联文科技提供高质量大模型数据下一篇：高质量数据赋能大模型应用落地，景联文科技提供海量AI大模型数据

返回列表

首页

民用数据服务

数据采集

数据标注

AI数据集

智能标注平台

假指纹制作

大模型数据集

新闻动态

关于我们

景联文科技：为AI大模型提供高质海量训练数据

相关推荐

高质量数据赋能大模型应用落地，景联文科技提供海量AI大模型数据

数据质量决定大模型能力，景联文科技提供高质量大模型数据

景联文科技提供高质量医疗健康AI大模型数据

景联文科技推出五千万轮高质量大模型多轮对话数据库

景联文科技高质量大模型训练数据汇总！

景联文科技上新高质量大模型训练数据！

热门文章

最新文章

19157628936

AI数据集

大模型数据集

新闻动态

关于我们

景联文科技：为AI大模型提供高质海量训练数据

相关推荐

高质量数据赋能大模型应用落地，景联文科技提供海量AI大模型数据

数据质量决定大模型能力，景联文科技提供高质量大模型数据 ​

景联文科技提供高质量医疗健康AI大模型数据

景联文科技推出五千万轮高质量大模型多轮对话数据库

景联文科技高质量大模型训练数据汇总！

景联文科技上新高质量大模型训练数据！

热门文章

最新文章

19157628936

数据质量决定大模型能力，景联文科技提供高质量大模型数据