《面向生产服务的大模型评估体系探讨》由会员分享,可在线阅读,更多相关《面向生产服务的大模型评估体系探讨(27页珍藏版)》请在金锄头文库上搜索。
1、面向生产服务的大模型评估体系探讨1一、中国移动大模型布局及进展二、中国移动大模型评估体系三、九天客服大模型应用评估实践2+200B+多模态/跨模态大模型视觉大模型语音大模型结构化数据大模型政务社会综治医疗企业通话交通运输能源语言大模型客服+3中国移动自主构建语言、视觉、语音等多种类型大模型,具备跨行业供给侧增强、高可控性、异构软硬件灵活部署几大显著的技术特色,整体性能指标实现国内主流水平,能更好满足企业全场景全部署的大模型落地需求特色三特色二高可控性3B/7B/13.9B/57B/100B+9B2B6B 13B100B+200B+特色一语言大模型视觉大模型语音大模型结构化数据大模型多模态大模型
2、在 71%的 中 文测 试集 主流 指标 上超过业界同等参数规模模型,多种类型基础大模型4以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享九天众擎基座大模型,加速国民经济主体行业的智能化转型升级,促进我国战略性新兴产业发展,带动我国整体生产力提升基础大模型提供基础行业大模型客服政务医疗交通时空家庭物联网持续学习行业规范与知识复杂系统AI及强系统集成能力强信息集成能力高动态自适应高准确率强任务主导性符合生产指标高可靠性强理解能力强生成能力社会综治视觉储能司法金融风险行业通话网络运维网络运维专业数据文体符6构建网络AI大模型,实现从“网络+AI”向“AI+网络”转变,降低AI赋
3、能网络的边际成本,指数级扩大赋能成效为网络智慧内生提供AI核心基座,助力网络与AI全面、深度融合 2023年中国移动合作伙伴大会上发布网络大模型1.0,优先服务四大场景,驱动向“AI+网络”全面演进 基于网络大模型的网络运维AI助手正式上线中国移动MOA网络运维中心2个应用场景,端到端准确率达88%以上挑战多模态、异构数据统一聚合网络大模型(JT-Net)极优网络品质极佳资源效率极省运维成本极简一线作业极速业务交付复杂系统智能化数据异构性多模态融合演进理念自然语言图像语音结构化100%语音95%40%图像60%结构化大模型对现有模型替代复杂跨模态能力体系化 AI:分层多 智能体协作网元智能体网
4、元智能体网元智能体网元智能体网管智能体NLP九天海算政务大模型是中国移动基于近年来积累的丰富数字政府建设经验所打造的面向政务领域的行业大模型。九天 海算政务大模型面向政务领域特殊性,融合了三大特色:深度行业智能、政务信息场、多元式交互.深度行业智能政务政策-政务事项-政务数据存储深度贯穿模型驱动整体业务流程,灵活易用 一网通办 一网统管 一网协同政策咨询数据分析公文写作事项办理舆情洞察智能流转.政务信息场汇聚散落的关联数据政务流程不出“场”,安全可信.多元交互模式政务多交互方式融合TOD+大模型+GUI,智能便捷九天海算政务大模型数据政务大模型政务信息场政策事项流程2023年世界人工智能大会上
5、,发布了九天海算政务大模型,已落地应用于黑龙江省数字政府项目政务智能客服、智能搜索、数字人、公文辅助写作等应用场景中的落地验证面向企业级智能客服场景,基于10086服务近十亿客户的海量客服数据、业务知识和服务经验,打造九天 客服大模型,让每个用户都拥有24小时在线的“专属管家”,极大提升客服工作效率和用户体验面向客户服务全场景的行业大模型知识采编热点话题挖掘.智能点选智能摘要.业务办理情感关怀.面向客户面向客服面向运营业务咨询基础大模型 100B+13.9B数据客户画像投诉分析智能质检业务投诉话术生成业务数据服务日志知识库57BAPI+2023年中国移动合作伙伴大会上,发布了首个基于客服行业大
6、模型的智能客服产品,实现大模型客服领域应用破冰已在北京、广东等试点省份生产上线中国移动10086客服焕新升级中国移动app打造全新交互体验工业交通政务司法安防.基于体系化人工智能的算、网、智一体化服务运营AI原生应用模型自动评测九天行业大模型算力数据平台小模型核心技术构建以平台和大模型为核心的智能基座,成为通用人工智能时代泛在智能的供给者、汇聚者和运营者,全面实现AI+转型升级运营者汇聚者供给者 供给者:为产业提供智算、模型、平台等资源及服务 汇聚者:广泛汇聚国内外优质模型、数据、工具链和AI原生应用等 运营者:算、网、智等AI+应用的一体化服务及生态运营客服家庭通信管理.九天通用大模型大小模
7、型协同数据汇聚模型体验安全审核数据集大模型小模型面向生产服务需求,汇聚业界优秀的通用和专用大模型及能力,建立“多层次-多维度-多任务-多指标-多模式”的大模型评估体系,确保汇聚的大模型安全、优质、高效,推动大模型产业规范化发展理解生成认知推理多模态序列转换.百川-7B百川-13B百川2-13BYi-32BBelle-7BBelle-13BBloomz-3BBloomz-176BChatGLM-6BChatGLM2-6BGLM-130BDnLLaMA-7BLLaMA-13BLLaMA-33BLLaMA-65BGPT-NeoXDollyFalcon-40BMossoeiluaiffSt模型汇聚与承
8、载模型评测与安全审核开源大模型第三方大模型自动评测+人工评测性能指标客观:准确性、鲁棒性.主观:准确性、安全性.输入问题的安全模型结果安全自研大模型服务成熟度实时性并发性稳定性功能指标任务支持度场景支持度构建承载平台,提供一体化、全流程的汇聚服务九天平台已汇聚开源模型20+个承载开源、业界领先的通专模型及工具客服大模型视觉大模型大小模型端云协同政务大模型语言大模型多模态大模型行业大模型训练数据安全主观感受意图识别域内知识域外幻觉入驻标准安全审核模型测评意图识别拟人程度AI原生应用交互推理感知交互工具链小模型答案有效.二、中国移动大模型评估体系三、九天客服大模型应用评估实践一、中国移动大模型布局
9、及进展14智能助理数据分析知识管理智能客服数字人混合多模态音视频领域图文领域其他行业模型网络运维大模型政务大模型客服大模型体验评测领域评测专项评测基础评测面向生产服务场景,建立语言大模型、行业大模型、多模态大模型、智能体应用、安全评测等五大评测基准,围绕评测数据、指标、方法与分析三大建设方向,高效开展综合全面的大模型评估评测。模型注册模型管理评测任务管理评测场景管理评测指标汇聚评测数据管理评测报告分析模型能力排行5大类评测指标性能指标服务成熟度自动评测+人工评测可视化报告自动化分析基础数据专项数据行业数据安全数据数据看板ELO排行功能指标业务指标评测乎台支撑可视化展示评测结果2千+簇评测数据集
10、五大基准三大建设评测平台模型安全信息安全伦理安全内容安全个人隐私商业机密理论支撑技术支撑价值观对齐政治敏感违法违规偏见歧视模型接入生产系统时,需要经过一系列“全面考验”,接入生产开始服务后,要开展“持续考验”,根据用户市场真实反馈,形成动态反馈机制持续优化提升大模型的落地成效自动评测+人工评测面向生产的模型评估性能指标客观:准确性、鲁棒性.主观:准确性、安全性.自动评测+用户评测+业务专家审核性能指标客观:准确性、鲁棒性.主观:准确性、安全性.输入问题的安全模型结果安全服务成熟度实时性并发性稳定性服务成熟度实时性并发性稳定性功能指标任务支持度场景支持度客服大模型视觉大模型政务大模型语言大模型行
11、业大模型多模态大模型训练数据安全准确性、应用性灵活性、适应性专家评测用户评测多样性、代表性结果分析结果收集特定场景评测意图识别答案有效拟人程度反馈优化主观感受意图识别域内知识域外幻觉多模态序列转换.持续考验第二阶段第一阶段全面考验理解生成交互推理认知推理感知交互持续评测迭代优化问题解决率回复专业性主观感受.整体目标:构建覆盖训练数据、模型输入和输出的审核体系审核机制:建立审核标签体系,对数据进行变体词识别等预处理后,通过多个模型标记审核标签,给出回答建议模型输出数据判断接口调用识别结果内容审核内容审核接口调用识别结果训练数据判断九天大模型结果输出内容审核输入数据判断用户输入九天大模型接口调用训
12、练数据识别结果17打造大模型评测平台,通过分层架构设计,增强其扩展性和灵活度,实现一键注册、快速评测、智能分析的大模型标准化评测流程模型注册准备模型信息模型评测发起模型评测通过评测任务管理历史评测项。支持prompt模板配置、自动化打分、人工审核校验覆盖基础评测、专项评测、领域评测、体验评测等4大评测维度、2000+个评测场景数据集灵活快速接入业界多种类大模型,支持最大tokens数、并发线程、引导开关等配置项基于准确性、鲁棒性、公平性、安全性等多维度量化打分,支持评测榜单快速查看 相对评估,消除差异 动态调整,确保准确性、适应性 可扩展性,适应不同数量和类型 批量起聊 自动多轮对话 自动数据
13、填充,自动场景打分 支持PaaS平台 支持MaaS平台 承接更多对外服务 支持图生文 支持文生图 更多能力支持查看报告查看模型评估报告数据准备准备评测数据集标准化评测流程多功能支持 5大类评测指标:准确性、鲁棒性着重指大模型的功能、稳定性表现安全性、公平性着重指大模型的非功能表现高效性着重指大模型的响应时延、并发度 4大评测维度:基础评测、专项评测、领域评测、体验评测 600+评测场景:例如学术任务场景、创作写作、事实知识、计算、逻辑推理、闲聊、安全、自我认知等 海量评测数据集:2000+簇评测数据集 开源数据集:涵盖CMMU、CEVAL、AGI、GAOKAO、MMLU等 自建数据集:例如安全
14、类数据集3万+条,央企特色数据2万+条以语言大模型为出发点,建立评测基准,已形成4大评测维度、5大类指标、600+个评测场景、2000+簇评测数据集评测维度评测数据评测指标行业大模型评测与通用大模型评测不同,行业大模型更加专注于行业领域知识和实际应用,为此行业大模型评测应深度融合行业特色,评估大模型的高级理解、生成能力,如意图识别、意图改写和话术润色等,从而系统评估和分析行业模型的性能、准确性、适应性和实用性,确保模型满足行业标准和实际应用需求高频/低频标签.真实场景映射.质量控制业务适应性理解能力样本多样化 广泛覆盖知识能力生成能力多样性和代表性准确性和实用性灵活性和适应性世界知识行业知识社
15、会常识生活常识灵活性全面性可靠性安全能力.动态抽样自动评测用户侧信息抽取内容安全隐私安全对话状态判断业务安全意图改写.情绪识别意图识别文章创作摘要生成关键词生成动态更新反馈适应.润色度信息场对话人工评测交叉验证专家审核可解释性结果 一 致趋势适应可复现性多样性客观事实业务侧技术侧.三、九天客服大模型业务应用实践一、中国移动大模型布局及进展二、中国移动大模型评估体系21率先应用在10086全球最大的客服系统,驱动客服领域行业应用破冰。稳健性与灵活性联合优化 强系统集成 多元多级高可控性 开创人机协同新模式 用户体验Min(T1+T2+T3+T4)服务效率Max(工具和知识边界)技术要求业务能力服
16、务目标 拟人化 强洞察 多模态22 面向10086智能客服系统生产级别上线要求,建立多维度、多层次的客服大模型评测体系,确保评测的完备性和合理性 针对真实客服场景中面临的安全可信问题,提出溯源信息场和一致性校验的方案,贯穿客服大模型的全流程,实现客服回复内容的可信响应,保证服务的安全可控实现对用户表达、大模型生成内容进行双向安全管控 已对接智能在线客服敏感词库支持运营人员自定义安全监测、内容过滤规则意图理解力回答准确性回答完整性回答及时性回答友好性回答安全性意图理解任务平均响应时间对话状态判断非拒识交互占比信息抽取任务情绪识别任务九天客服大模型的迭代演进效果安全能力:6大维度,34个细项,80个细分小项客服人员完成多轮业务评测和多轮技术评测。安全管控工具:解决不该答的不答问题对标九天客服大模型行业水平横向比较用户提问安全监测内容过滤传统机器人回复大模型回复构建大模型评测体系六维度技术评测六维度业务盲测搭建大模型测试工具纵向跟踪安全回复不通过不通过通过通过23解决复杂系统智能化体系大而不稳的挑战。系统和用户双驱动对话模式的灵活多样性。交互模式升级 单一界面360度全方位提前想你所想情感关