AI数据集

通用口语句子:来自日常生活中的句子;交互类句子:会涉及到音乐、娱乐、体育、出行、生活、社交等不同的类别;
*景联文已通过ISO27001信息安全管理体系认证,数据符合GDPR规范

数据详情

通用口语句子:来自日常生活中的句子;交互类句子:会涉及到音乐、娱乐、体育、出行、生活、社交等不同的类别;

语言

普通话

数据规模

1000小时

人员分布

1200人;平均每人录制316句; 704男,696女;小于25岁65%,26-40岁25%,41岁以上7%;北方官话区44%,西南官话区25%,吴语区8%,粤语区7%,闽语区5%,湘语区5%,赣语区6%

采集环境

相对安静的环境

采集设备

手机

数据格式

语音数据格式:手机16kHz,16bit,wav,单声道 标注结果格式:txt

标注特点

文本转写,噪音符号标注

数据来源

此数据集由景联文科技及合作供应商共同采集制作,基于GDPR(通用数据保护条例),对数据已进行脱敏处理
获取样例