人工智能服务器系统测试代码公开规则、场景说明、能效和效率指标、AUTOML训练测试、工具AISBench示例

资源描述

《人工智能服务器系统测试代码公开规则、场景说明、能效和效率指标、AUTOML训练测试、工具AISBench示例》由会员分享，可在线阅读，更多相关《人工智能服务器系统测试代码公开规则、场景说明、能效和效率指标、AUTOML训练测试、工具AISBench示例（10页珍藏版）》请在金锄头文库上搜索。

1、GB/T XXXXXXXXX34附录A（规范性）测试代码公开规则A.1通则测试代码公开，应按以下规则执行：a）测试代码公开流程，包含：1)公开条件检查：测试者确认测试结果有效性，应符合 6.1.3 及 7.1.3 的规定；2)公开协议检查：代码公开前，按协议检查并实施公开事项。未签署协议的，按本文件的规定实施；注：测试者与被测者宜在测试前或测试后签订的代码公开协议。3)代码公开：公布于测试者与被测者商定的场所或网络媒体；4)结束公开：在规定的公开周期后，结束公开，原公开场所、媒体上，代码将不可访问。代码结束公开时，代码公开协议即告结束。b）公开义务：1)测试代码可向测试者及组织成员公开。具备合

2、法访问权限时，组织、成员应能浏览、下载；2)被测者不负责向测试者及组织成员之外的机构、团体、企业及个人解释、讲解代码原理或实施结果复现事项；3)已达成协议的不公开部分，不应公开；4)测试代码公开，可不包含：被测者私有的工具源码（如模型格式转化、部署），该源码功能不含 a 提出的项目；被测者使用的公共网络可见的程序源码，但需在测试代码中注明（如：/ref:源码包名_版本，地址）。A.2训练测试代码公开规则训练测试代码公开，应在符合 A.1 规定的基础上，包含以下功能的实现：a）网络构造；b）测试工具函数调用（含指标计算，计时，日志，测试起止，校验等）；c）日志生成；d）训练数据获取；e）训练数据

3、读入；f）训练数据预处理；g）训练启动过程（含学习率调整）；h）训练过程（含训期循环，损失函数调用，精度转化（如实施），模型、数据（在被测系统内）传输指令等）；i）配置文件；j）模型保存。A.3推理测试代码公开规则推理测试代码公开，应在符合 A.1 规定的基础上，附加包含以下功能的实现代码：GB/T XXXXXXXXX35a）测试工具约定的待实现部分（如能耗计量，数据提供，结果取出等）；b）测试工具函数调用（含作业到达模式，计时，日志，测试起止，校验等）；c）计算、存储资源管理（如资源申请和释放）；d）推理过程；e）日志生成；f）测试集获取；g）数据预处理（如实施了预处理）；h）数据后处理（如

4、实施了后处理）；i）配置文件；j）模型格式转化（至少应公开调用语句）；k）模型部署（至少应公开调用语句）；l）推理结果保存。GB/T XXXXXXXXX36附录B（资料性）测试场景说明B.1图像识别图像识别是利用计算机处理、分析和理解图像的过程，以识别图像中的目标和对象。图像识别过程的输入一般是特定格式的图像，输出可包含图像的类别（假设已有预先定义的类别集合），特性（如物体的颜色，人的性别、年龄等）或其他业务逻辑所关心的信息。图像识别，广泛的应用于各类视觉系统（如安检，工业制造流水线，农业养殖，电力巡检，医疗诊断等）。人工智能服务器系统对图像识别过程的加速能力，对提升视觉系统的应用效率具有意义

5、。B.2物体检测物体检测是计算机对给定的图片或视频帧，自动识别已知物体并标识物体在图像中的位置（一般使用矩形框及坐标）的过程。物体检测的输入一般是特定格式的图像或视频帧，输出可为已知物体位置信息。物体检测，广泛应用于各类视觉系统（如交通，（空拍）图像分析，分拣流水线等）。人工智能服务器系统对物体检测过程的加速能力，对提升视觉系统检测相关应用的效率具有意义。B.3语义分割语义分割结合了图像分类，目标检测和图像分割，将图像分割为具有特定语义的区域，并识别每个区域的内容或类别，最终获得具有逐像素语义标注的分割图像的过程。语义分割广泛地应用于自动驾驶，地址检测和测绘，医学影像病灶分离，服饰、室内、生产

6、环境的辅助设计，农业养殖等系统。人工智能服务器系统对语义分割过程的加速能力，对提升视觉检测和自动分析相关应用的效率具有意义。B.4推荐推荐是利用计算机对特定数据集合搜索及结果排序的过程。推荐的输入一般为特定格式的查询条件或关键字，输出为有序的结果集合。推荐广泛地应用于各类电子系统（如电子商务，各类搜索引擎，营销，辅助设计，医疗处置方案辅助等）。人工智能服务器系统对推荐过程的加速能力，对提升相关应用的效率具有意义。B.5自然语言处理自然语言处理是以人类语言为对象，利用计算机技术分析、理解和处理自然语言的过程。可分为自然语言理解及自然语言生成两类。自然语言处理广泛地应用在翻译应用，语言数据挖掘，搜

7、索引擎等系统。其中，机器翻译是利用规则、统计或神经网络，将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）。人工智能服务器系统对自然语言处理过程的加速能力，对提升翻译，语言数据挖掘等系统的效率具有意义。B.6语音识别GB/T XXXXXXXXX37语音识别（或称“自动语音识别”）是用计算机将人类自然语言的语音内容转换为相应文字的过程。语音识别技术广泛应用在语音拨号，语音导航，室内设备控制，语音文档检索，语音听写、输入等系统。语音识别技术，在各行业的应用已较为普遍（如金融领域智能客服，交通领域语音导航，各类智能终端语音输入等）。人工智能服务器系统对语音识别过程的加速能力，对提升语音的控制

8、、检索、听写、输入等系统的效率具有意义。B.7光学字符识别光学字符识别是指对文本资料的图像文件进行分析、识别、获取文字、版面信息的过程。光写字符识别的输入可为带有特定文字及布局信息的图像，输出可为图片上的文字内容或（用户定义的）布局表示。光学字符识别广泛地应用在各行业业务系统中（如金融智能终端证照识别、交通路牌内容识别等）。人工智能服务器系统对光学字符识别过程的加速能力，对提升各行业文字识别应用的效率具有意义。B.8人脸识别人脸识别是用计算机系统从人脸图像，基于人脸部特征，识别人的身份的生物辨识技术。人脸识别技术广泛地应用在各行业业务系统中（如通行、安检、身份核验子系统）。人工智能服务器系统对

9、人脸识别过程的加速能力，对提升各行业通行、安检、身份核验子系统的运行效率具有意义。GB/T XXXXXXXXX38附录C（资料性）能效和效率指标C.1训练C.1.1训练能效训练能效是AI服务器系统在单位时间，消耗单位功耗，消化的训练数据量，单位为兆字节每焦耳MB/(J)或兆字节每千瓦时MB/kWh。训练能效及测量方法，见表C.1：表 C.1 训练过程能效测量方法指标说明测量方法AI服务器训练能效AI服务器单位时间内消耗单位功耗消化的训练数据量a）对任意一次训练，测量每个训期的平均功率PEP；b）测量每个训期的平均用时TEP；c）计算AI服务器训练能效a：=(训练集)()式中：(训练集)训练集大

10、小，单位为兆字节（MB）。AI服务器集群训练能效AI服务器集群单位时间内消耗单位功耗消化的训练数据量a）算出每台AI服务器，每训期的平均功率PEP-i（i为正整数）和用时TEP；b）计算AI服务器集群训练能效a：=(训练集)()?asizeof（）表示计量特定数据集合的大小。GB/T XXXXXXXXX39C.1.2训练效率训练效率是AI服务器系统训练得到某模型，其预测准确率与训练代价的比值，单位为每秒千瓦时1/kWh。训练效率及测量方法，见表C.2：表 C.2 训练过程效率测量方法指标说明测量方法AI服务器训练效率AI服务器训练得到某模型，其实际判别准确率a与训练能耗c的比值ba）训练结束时

11、，记录模型在测试集上的实际准确率（具体指标参见场景列表）；b）记录TTR时间内的实际能耗PS；c）计算训练效率：准确率指标值AI服务器集群训练效率AI服务器集群训练得到某模型，其实际判别准确率a与训练能耗c的比值ba）训练结束时，记录模型在测试集上的实际准确率（具体指标参见场景列表）；b）记录TTR时间内的集群实际能耗PS；c）计算训练效率：准确率指标值注1：训练效率定义参考了13。注2：AI服务器集群训练效率，参考了14定义的能源效率。a当准确率指标（设值为a，0 a 1）为负向指标时（如WER），以（1-a）计。b如实施多次训练试验，则应使用平均准确率及平均训练时长。c能耗是训练模型过程中

12、特定时间段内消耗的电量。GB/T XXXXXXXXX40C.2推理C.2.1推理能效推理能效以额定工作情况下能效比计算。分场景推理能效比指标、单位与测量方法，见表C.3：表 C.3 推理能效比测量方法指标说明测量方法视觉任务能效比单位为消耗每焦耳或每千瓦时能量处理的图像（帧）数图像(帧)数/J或图像(帧)数/kWha)被测者在整个推理测试过程中（TI内），在每个端到端推理时间内，周期性读取功率计测量值，求出平均功率?；b)测试者累计返回结果的任务图像（帧）数N；c)测试者累计实际分派处理延时总覆盖时间TDIP；d)计算视觉任务能效比：?自然语言任务能效比单位为消耗每焦耳或每千瓦时能量处理的单词

13、数词数/J或词数/kWha)在整个推理测试过程中（TI内），在每个端到端推理时间内，周期性读取功率计测量值，求出平均功率?；b)累计返回结果的单词数W；c)累计实际分派处理延时总覆盖时间TDIP；d)计算自然语言处理任务能效比：?语音任务能效比单位为消耗每焦耳或千瓦时能量处理的句数句数/J或句数/kWha)在整个推理测试过程中（TI内），在每个端到端推理时间内，周期性读取功率计测量值，求出平均功率?；b)累计返回结果的句子数S；c)累计实际分派处理延时总覆盖时间TDIP；d)计算语音任务能效比?行业任务能效比按视觉、自然语言任务能效比计算参考本表中视觉任务能效比及自然语言任务能效比。GB/T

14、 XXXXXXXXX41C.2.2推理效率推理效率是AI服务器系统完成推理任务与代价的比值，单位为每秒千瓦时 1/kWh。推理效率及测量方法，见表C.4：表 C.4 推理效率测量方法指标说明测量方法AI服务器推理效率AI服务器实际推理准确率a与推理能耗的比值a）推理结束时，记录模型在测试集上的实际准确率（具体指标参见场景列表）；b）记录TDIP内的能耗PS；c）计算推理效率：准确率指标值AI服务器推理效率AI服务器实际推理准确率a与推理能耗的比值a）推理结束时，记录模型在测试集上的实际准确率（具体指标参见场景列表）；b）记录TDIP内的能耗PS；c）计算推理效率：准确率指标值注：AI服务器及集

15、群推理效率的定义，分别参考了13和14。a当准确率指标（设值为a，a0且a1）为负向指标（如WER）时，则以（1-a）计。GB/T XXXXXXXXX42附录D（规范性）AUTOML 训练测试的补充规则D.1训练规则使用AUTOML实施训练时，应满足6.1.2定义的训练规则，且在整个训练过程中不应变更模型变异算法。D.2训练结果对AUTOML训练，训练结果应符合6.1.3 a），6.1.3 b），6.1.3 c）1）至 6.1.3 c）3），6.1.3 c）5，6.1.3 c）6）及以下关于格式的要求：日志按每次模型变异及对应训练过程输出。每次模型变异后，输出变异信息，格式为：“yyyy:MM

16、:ddHH:mm:ss-yyyy:MM:dd HH:mm:ss-generation_number-number_of_neurons”。其中，第一项为变异开始时间，第二项为变异完成时间，第三项为变异代次计数，第四项为当前变异结果模型的神经元数（对初始化模型的训练，变异起止时间为空，代次记为0）；对变异后模型的训练，日志按每个训期输出，格式符合6.1.3 c）4）的规定。GB/T XXXXXXXXX43附录E（资料性）人工智能服务器系统性能测试工具（AISBench）示例E.1工具说明人工智能服务器系统性能测试工具套件（AI Server performance BENCHmark，AISBENCH）是人工智能计算系统性能测试工具。AISBENCH适用于人工智能服务器、人工智能服务器集群、人工智能计算中心的性能测试，兼容主流人工智能加速器类型，如 CPU、GPU、NPU 等，兼容主流深度学习软件框架。AISBENCH是本标准的配套测试工具。E.2工具使用流程AISBENCH使用流程见图 1：图 1AISBENCH使用流程其中:1)由测试方（测试机构）与被测方确立测试项；2)测试方在本地

展开阅读全文