时间:2024-03-29 09:42:51
作者:景联文科技
浏览: 次
多轮对话数据不仅能够提升模型的交互能力和泛化能力,还能优化对话策略并促进个性化发展。构建和训练大模型时,应充分利用多轮对话数据,以提高模型的性能和效果。
景联文科技结合用户需求场景,构建高质量多轮对话数据库,累计2万人共创5000多万轮高质量对话数据库,并对数据库进行了规则制定、数据制造指导、排查、筛重、复核等加工环节,由专人对所有的语料进行模拟编撰,每一个环节都有专人审核,形成一个完整的质量保证体系。
数据库数量
客服咨询(客户支持):
电信行业 1497万轮
电商行业 1151万轮
教育行业 619万轮
金融行业 365万轮
援助咨询:
心理咨询(情感抚慰) 79万轮
医疗问答 285万轮
法律咨询 310万轮
剧情类对话:
剧情类对话 201万轮
游戏类对话:
谜语/脑经急转弯 105万轮
日常交流:
日常对话 1063万轮
数据库覆盖
电信行业:围绕电话、宽带、手机等的业务办理、业务退订服务对话语料。涵盖了咨询、受理、故障报修等多维度。
电商行业:包含数码产品、日常服饰、个人洗护、美容护肤、果蔬生鲜、 宠物用品、母婴育儿、粮油调味等多领域;涵盖产品咨询、库存查询、订单查询、促销和优惠活动、退换货问题、支付问题、物流配送、售后服务、客户反馈、投诉处理等多类型;
教育行业:包含学校和教育机构客服、在线教育平台客服、职业培训客服、留学咨询客服等领域,主要涉及课程推荐、活动通知、课程咨询、跟进回访、投诉处理等对话语料。
金融行业:包含银行、保险、理财、证券基金等金融领域,主要涉及客户关系维护、产品咨询、产品推销、风险评估与控制等对话语料。
心理咨询(情感抚慰):包含健康咨询、心理危机干预/重建、生活问题咨询等场景性。
医疗行业:涵盖内/外科、儿科、耳鼻喉科、骨科、皮肤科、牙科等全面领域的医疗语料,内容主要为病情诊断、治疗方式、预约挂号、病情跟踪、服务协调、健康宣导等。
法律咨询:包含民事、刑事、商事、行政等领域的法律咨询问题,主要内容为案件细节沟通、案件问题分析、案件问题解答、整体服务安排和建议等。
剧情类对话:包含童话、小说、舞台剧等对话类语料、剧本杀推理类语料等。
谜语/脑经急转弯:包含一问一答式的对话语料,为游戏类逻辑推理判断性质的对话语料。
日常对话:涵盖面广内容丰富,问候闲聊(讨论天气、新闻、兴趣爱好、日常活动等)、请求/提供 帮助、餐饮旅游、学习健康交流、娱乐休闲活动等。
所有数据均提供word、txt、json 格式,均经过严格流程把关,数据准确率99%,重复率低于1%。所有数据均获得授权。
获取样例请登录景联文科技官网咨询客服。https://www.jinglianwen.com/ai/
景联文科技|数据采集|数据标注
助力人工智能技术,赋能传统产业智能化转型升级
文章图文著作权归景联文科技所有,商业转载请联系景联文科技获得授权,非商业转载请注明出处。