时间:2025-07-30 15:14:17
作者:景联文科技
浏览: 次
景联文科技持续聚焦AI数据需求前沿,全新发布九个高质量数据集产品。
此次发布的数据集覆盖多个应用场景,经过严格的清洗与结构化处理,确保数据内容的准确性、多样性和合规性。
全面助力科研机构、科技企业及开发者在智慧医疗、自然语言处理、智能教育、自动驾驶、智慧政务、智能法律等领域的模型训练与落地应用。
1、脑电数据集
数据详情:数据涵盖不同年龄段(儿童、成人、老年人)的脑电信号,总共1885G。
用于医疗领域睡眠分析、脑龄发育分析、认知功能分析、癫痫等疾病分析模型,为相关科研与临床应用提供核心数据支撑。
数据格式:二进制矩阵文件
2、自动驾驶异常事件集
数据详情:涵盖多种高价值场景,包括异常事件(如车辆突然变道、行人横穿马路、突发障碍物出现等)、危险工况(如恶劣天气下的低能见度行驶、复杂路口的多车冲突、车辆突发故障等)以及事故场景(如追尾、剐蹭、碰撞等不同严重程度的事故现场)等。
包含大量真实场景图像数据,同时附带丰富的交通要素标注和环境属性信息。交通要素标注涉及车辆(类型、位置、速度、行驶方向等)、行人(数量、位置、动作状态等)、交通信号灯(状态、位置)、交通标志(类型、内容、位置)、道路标线(类型、位置)等;环境属性信息则包括时间(白天、黑夜、黎明、黄昏)、天气(晴天、雨天、雪天、雾天等)、路面状况(干燥、潮湿、结冰、积雪等)、道路类型(城市道路、高速公路、乡村道路、隧道等)等。
数据量:2250G。
数据格式:jpeg、json
3、车路协同自动驾驶算法训练集
数据详情:涵盖丰富的道路场景,包括10公里城市道路、10公里高速公路以及28个路口范围。城市道路场景包含复杂的交通参与者交互、多样的交通信号控制等情况;高速公路场景则涉及高速行驶、车辆并线、隧道通行等典型工况;路口范围场景聚焦于车辆转弯、行人过街、非机动车穿行等关键交互环节。
覆盖了晴天、雨天、雾天等不同天气条件,以及白天和夜晚等不同光照环境,能充分模拟各种复杂的行驶场景。
包含来自多类型传感器的海量数据,具体有车端相机、路端相机采集的 71000帧图像数据,以及车端激光雷达、路端激光雷达获取的71000帧点云数据。
这些数据从车端和路端两个视角同步采集,形成了相同时空下的联合视角数据,可全面呈现车辆行驶过程中的周围环境信息,为车路协同算法提供了多维度的输入。
聚焦于车路协同场景下的算法研究与评估,凭借多类型传感器采集的多模态数据、联合视角的融合标注结果及创新的标注方法,为相关算法开发提供了高质量的数据支撑。
数据量:8G
数据格式:pcd、jpeg
4、自动驾驶车端摄像头雷达采集数据集
数据详情:该数据集聚焦于自动驾驶车端感知层面,整合了摄像头与雷达采集的多模态数据及精准的4D真值信息,为目标检测(OD)、车道线识别等算法的训练与标注提供了高质量支撑。
包含车端摄像头采集的视频数据和雷达(激光雷达)获取的点云数据,两种数据同步采集,形成时空对齐的多模态信息组合。视频数据能捕捉环境中的色彩、纹理等视觉特征,点云数据则可提供三维空间中目标的精确距离、轮廓及反射强度等信息,二者互补可全面还原车辆行驶时的周围环境。
数据格式:pcd
数据量:1800G
5、财税文本数据集、法律法规文本数据集
数据详情:该数据集包含财税文本数据集和法律法规文本数据集两大部分,汇聚了大量相关领域的文本信息,以json格式呈现,为财税与法律领域的研究、应用开发等提供了丰富且优质的数据支持。
数据格式:json
数据量:8.5G
6、多语言问答数据集
数据详情:该多语言问答数据集聚焦于多语言环境下的信息交互与转化需求,以json格式存储,为跨语言翻译、学术论文解释、异构语言转化等场景提供有力的数据支撑。
涵盖多种主流语言及部分特色语言,包括中文、英语、日语、法语、德语、西班牙语、俄语、阿拉伯语等,同时包含一些使用范围较广的小语种,形成了丰富的语言组合体系。不同语言之间的问答对覆盖了日常交流、专业领域(如科技、医学、法律、商业等)、学术研究等多个层面,满足多样化的跨语言问答需求。
包含多种类型的问答内容,既有日常对话类问答(如生活常识、出行指南、社交礼仪等),也有专业知识类问答(如医学术语解释、法律条文解读、科技原理说明等),还有学术研究类问答(如论文观点阐述、实验方法解释、研究成果解读等)。问答对的形式包括单轮问答和多轮对话,能模拟真实的语言交互场景。
数据格式:json
数据量:5G
7、新能源车辆运行特征数据集
数据详情:总数据量达14G,涵盖了大量新能源车辆的运行数据。
数据集聚焦于新能源汽车运行过程中的各类关键数据,以数据库表形式存储,为超高速充电技术研发、补能体系完善及新能源汽车行业相关技术协同发展提供有力的数据支撑。
将车辆基础信息、运行状态、充电数据、电池状态、环境路况等多维度数据进行关联整合,形成了一个完整的数据集。这种多维度关联能帮助研究人员从多个角度分析影响新能源车辆运行和充电的因素,揭示各因素之间的内在联系。
数据格式:数据库表
8、人体行为PAMS样本库数据集
数据详情:该人体行为PAMS样本库数据集专注于日常人体动作的动捕数据收集与整理,以bvh格式存储,为人体动作分析、动画制作、运动科学研究等领域提供了高质量的基础数据支撑。
包含 9 大类日常人体动作的动捕数据,其中行走和奔跑动作的细分尤为丰富。行走动作涵盖不同速度和风格,如正常行走(步频稳定、步幅适中)、慢走(步频低、步幅小)、快走(步频高、步幅较大),包括带有一定风格特征的行走(如踮脚走、外八字走、内八字走等);奔跑动作则涉及不同速度(慢跑、中速跑、快速跑)和姿势(直立跑、前倾跑、摆臂幅度差异的奔跑等)。其余 7 大类动作同样围绕日常场景展开,可能包括坐立(如从站立到坐下、坐姿调整、从坐到站立)、弯腰(如弯腰拾物、弯腰鞠躬)、跳跃(如原地跳、向前跳、向上跳)、挥手(如单手挥、双手挥、不同幅度挥手)、转身(如 90 度转身、180 度转身、360 度转身)、搬运(如搬运轻物、搬运重物的不同姿态)、上下楼梯(如上楼梯的分步动作、下楼梯的重心控制动作)等,全面覆盖了人类日常活动中的典型动作。
每个动作的动捕数据包含精细的骨骼运动信息,通过传感器捕捉人体关键骨骼节点(如头部、颈部、肩部、肘部、腕部、髋部、膝部、踝部等)的三维坐标、运动轨迹、旋转角度、速度、加速度等参数,完整记录了动作执行过程中人体各部位的动态变化,能精准还原动作的细节和连贯性。
数据格式:bvh
数据量:2G
9、中医中草药数据集
数据格式:该中医中草药数据集聚焦于中医领域常用中草药的各类信息,以SQL格式存储,为中医药研究、教学、临床应用及相关产业发展提供了系统且规范的数据支撑。
涵盖中草药从基础属性到现代研究、从单方应用到方剂配伍等多方面的信息,形成了一个完整的中医药数据体系,能满足不同用户的多样化需求。
数据量:0.1G
随着人工智能应用场景的日益拓展,对高质量、细分专业领域的数据资源需求也将持续增长。景联文科技将继续秉持“成为人工智能的核心引擎,让每一比特数据释放AI的无限可能”的愿景,不断优化数据产品体系,满足日益复杂和多元的模型训练需求。
如需了解更多关于本次数据集的技术参数、样本示例或定制化服务,请访问我们的官网或联系专属商务经理。
让我们携手打造更加智能、高效的人工智能未来!
景联文科技荣登《2023自动驾驶数据标注公司排行》榜单前十,入选IDC中国数据智能市场代表厂商名单!
工信部电子标准院代表携手景联文科技推进数据生产标准化
景联文科技实力入选「2024中国AI大模型产业图谱1.0版」!
集团公司党委书记、董事长沈立一行赴景联文科技调研交流
再获荣誉 | 景联文科技入选亿欧智库「数据闭环产业代表厂商」
景联文科技入驻上海数据交易所,共同建设数据交易新生态
聚焦 AI 数据需求前沿,景联文科技上新9个数据集产品,全方位赋能 AI 多领域应用
聚焦数据要素价值,景联文科技CEO刘云涛亮相贵阳领导干部人工智能与数据标注产业专题培训班作主题分享
聚焦数据资源建设与应用,浙江省质科院赴景联文科技调研交流
浙江省委党校科研处调研景联文科技,共商知识图谱赋能理论传播
浙江省经信厅数据算力与基础设施处处长庞为兴带队调研景联文科技,共探工业数据驱动智造新路径!
杭州市长姚高员带队调研景联文科技,听取高质量数据集建设情况