近些年来,随着人工智能(AI,Artificial Intelligence),尤其是非具身式AI技术的快速发展与应用的发展,如生成式大语言模型的出现(DeepSeek、豆包等),使得AI火爆起来。人工智能(AI)系统的性能优劣直接影响到其应用效果和社会影响。为此下述将简要介绍AI系统的相关指标参数,为了客观评估AI系统的特性与能力,考核指标,涵盖技术性能、用户体验、伦理合规等三个层面(其指标层面及参数种类包括但并不限于),适用于不同应用场景的评估需求。这些指标及参数不仅帮助开发者优化模型,还能为用户提供参考。其重要性表现在:一是推动技术优化。通过评估指标可以定位系统的优势与不足,为技术迭代提供方向。二是保障公平与透明。指标体系的公开化有助于衡量AI系统是否偏向特定群体或数据分布。三是满足多样化应用需求。不同应用场景下对AI系统的需求各异,需要通过多维指标体系来适配。
欲具体了解人工智能(AI)系统介绍的请进入。
一、技术性能指标的参数
人工智能(AI)系统的性能参数是AI最核心的考核指标,通常可包含以下几维度,并可以看出各维度均采用是统计学的参数:
1、模型准确性
模型准确性是衡量AI模型基于数据做出预测或决策的能力指标。它使用于评估AI模型性能常用指标,可用于比较不同模型的性能或评估特定模型对于给定任务的有效性。模型准确性可以从下述四个方面来考量,每个方面又有相关的指标参数来度量:
一是分类任务方面。可选用的相关参数包括:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-Score)、ROC曲线下面积(AUC-ROC)、混淆矩阵等。这些指标参数的含义、计算及特点可详见下表1-1-1。
表 1-1-1:关于分类任务方面的指标参数
二是回归任务方面。可选用的相关参数包括:均方误差(MSE)、平均绝对误差(MAE)、决定系数(R²值)等。这些指标参数的含义、计算及特点详见下表1-1-2。
表 1-1-2:关于回归任务方面的指标参数
三是生成任务方面。主要用于自然语言处理(NLP)类模型和计算机视觉(CV)处理类模型等。可选用的相关参数包括:BLEU(Bilingual Evaluation Understudy)分数、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数、困惑度(Perplexity)、基于R的约束图像描述评价(CIDEr)、IS(Inception Score)、FID(Fréchet Inception Distance)、峰值信噪比(PSNR)、结构相似性(SSIM)等。这些指标参数的含义、计算及特点详见下表1-1-3。
表 1-1-3:关于生成任务方面的指标参数
四是检测任务方面。目标检测(Object Detection)任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。主要包括平均精度均值(mAP,mean Average Precision)和交并比(IoU)等参数。其含义及特点详见下表1-1-4。
表 1-1-4:关于检测任务方面的指标参数
2、效率与资源消耗指标
人工智能(AI)系统是一个资源(硬件利用率、数据吞吐量、能效比、时延等)消耗巨大的系统,因此,建立起提高效率、降低消耗考核指标至关重要。在评估AI系统的效率和资源消耗时,通常需要结合硬件性能、算法优化、任务需求和实际场景进行综合考量。其关键考核指标包括以下几个方面:
一是计算效率方面。关于AI系统的效率计算方面的指标参数常选用:每秒浮点运算次数(FLOPS)、计算密度(Ops/Watt)、硬件利用率(%)等,它们的释义详见下表1-2-1。
表 1-2-1:关于AI系统的效率计算方面的指标参数
二是任务执行效率和算法效率方面。任务执行效率的指标参数常选用:推理/训练时间、吞吐量(QPS/TPS)、延迟(Latency)、响应时间(RT)和并发数等;算法效率的指标参数常选用:收敛速度、计算复杂度(包含时间复杂度和空间复杂度)等。该指标方面参数的释义详见下表1-2-2。
表 1-2-2:关于AI系统的任务执行效率和算法效率方面的指标参数
三是资源消耗方面。该方面的指标参数应包括:硬件占有率、显存占用率、模型复杂度(参数量)、通信开销、能耗、碳排量等。这些参数的释义详见下表1-2-3。
表 1-2-3:关于AI系统的资源消耗方面的指标参数
四是可扩展性与灵活性方面。该方面主要是指模型优化方面的性能参数,常选用的有:模型压缩率、精度损失(%)、多节点效率(加速比)、横向扩展效率、容错开销等。这些参数的释义详见下表1-2-4。
表 1-2-4:关于AI系统的可扩展性与灵活性方面的指标参数
对于选择上述效率与资源消耗指标参数需与实际业务强关联。例如自动驾驶系统需严控延迟与功耗;推荐系统则更关注吞吐量和硬件成本;模型优化方面通常需权衡效率与资源消耗(如量化压缩以牺牲少量精度换取更低的计算开销)。建议结合动态监控(如实时资源看板)与长期成本分析(如TCO模型)进行综合评估。下表1-2-5给出了典型应用场景的参数指标的差异比较。
表 1-2-5:典型应用场景的参数指标的差异
欲更多了解英伟达(NVIDIA)GPU性能参数介绍的请进入。
二、用户体验性能指标的参数
人工智能(AI)系统的用户体验(UX,User Experience)即用户在使用AI系统过程中建立起来的一种主观感受。从中能反映出AI系统的智能程度和接受程度,特别适用于通用人工智能(AGI)。通常,对于评价人工智能(AI)系统用户体验的指标可以从下述四个维度来考量,每个维度又分为相关方面指标的参数:
1、核心效率指标
核心效率指标反映的是AI系统所具有的特性和能力维度的指标。其评价参数可包括以下三个方面:一是响应速度方面,常采用响应时间、吞吐量等参数,可见前述。二是任务完成能力方面,常采用任务完成率、首次解决问题率、复杂任务支持度等参数。三是准确性方面,常采用技术准确率、用户感知准确率、错误率等参数。下表2-1给出了这些相关指标参数简介。
表 2-1:关于核心效率指标的相关参数
2、交互质量指标
交互质量指标反映的是AI系统所具有的与用户打交道的能力维度的指标。其评价参数可包括以下三个方面:一是自然交互能力方面,常采用意图识别率、上下文理解度、输出可理解性、容错性与恢复能力等参数。二是交互友好性方面,常采用界面响应速度、用户操作流程简化度、个性化推荐相关性等参数。三是多模态体验性方面,常采用跨模态一致性、多模态响应速度等参数。下表2-2给出了这些相关指标参数的简介。
表 2-2:关于交互质量指标的相关参数
3、用户主观感受指标
用户主观感受指标反映的是用户对AI系统使用后的真是评价维度的指标。其评价参数可包括以下两个方面:一是满意度量化方面,常采用用户满意度(CSAT)、净推荐值(NPS)和费力度(CES)、A/B测试结果对比等参数。二是情感与信任方面,常采用情感识别准确率、信任度、可解释性评分等参数。下表2-3给出了这些相关指标参数的简介。
表 2-3:关于用户主观感受指标的相关参数
4、长期使用指标
长期使用指标反映是用户对AI系统使用的迷恋和耐久程度维度的指标。其评价参数可包括以下两个方面:一是用户留存活跃度方面,常采用用户留存率、功能渗透率、活跃度、转化率等参数。二是系统进化能力方面,常采用迭代响应速度、个性化适配度、系统可扩展性等参数。下表2-4给出了这些相关指标参数的简介。
表 2-4:关于长期使用指标的相关参数
通过以上用户体验性能指标,可系统化诊断AI用户体验瓶颈,针对性优化技术能力与交互设计。最终目标是通过技术性能与用户心理需求的平衡,构建高效、可靠且人性化的AI体验。
三、伦理与合规指标的参数
随着人工智能(AI)特别是AGI的发展,其智能程度的提高,应用使用的普及,已经渗透到我们生活的方方面面,对人类及社会影响极大,故引起人们在伦理与合规性层面的高度重视。对于AI的设计与应用,伦理侧重道德责任,合规侧重守法义务。伦理与合规性指标是确保AI的技术可信赖和社会可接受的核心框架。以下是AI系统伦理与合规性关键指标,涵盖伦理、法律和社会三个维度:
1、伦理属性指标
伦理(Ethics)是指在处理人与人、人与社会相互关系时应遵循的道德和准则。而AI在伦理属性指标的评价参数可包括以下三个方面:一是公平性方面,常采用歧视性、包容性、算法偏见控制力等参数。二是透明性与可解释性方面,常采用模型可解释性、决策溯源能力等参数。三是隐私与安全方面,常采用数据匿名化率、伦理冲突处理能力、对抗攻击鲁棒性和用户控制度等参数。下表3-1给出了这些相关指标的参数简介。
表 3-1:关于伦理属性指标的相关参数
2、合规属性指标
合规(Compliance)是指AI系统的处理结果(决策)应符合国家法律法规、监管规定、行业准则等的要求。其指标的评价参数可包括以下三个方面:一是法规遵守方面,常采用法规映射覆盖率、实时法律更新响应时间等参数。二是数据安全方面,常采用加密传输率、数据生命周期完整审计等参数。三是责任可追溯方面,常采用决策链追溯深度、责任主体明确性等参数。下表3-2给出了这些相关指标的参数简介。
表 3-2:关于合规属性指标的相关参数
3. 社会属性指标
社会属性指标是指AI系统的决策对社会影响的评估属性的指标。其评价指标可包括以下三个方面:一是人类监督方面,常采用关键决策人工复核率、否决权响应延迟等参数。二是社会价值评估方面,常采用可持续发展目标匹配度、社区影响评估完成率等参数。三是环境影响方面,常采用碳足迹强度、硬件回收利用率等参数。下表3-3给出了这些相关指标的参数简介。
表 3-3:关于社会属性指标的相关参数
这些伦理与合规的指标参数需通过技术手段(如联邦学习架构)、管理流程(伦理委员会季度审查)和法律工具(合规性认证)的立体化实施,最终形成可量化、可审计、可持续改进的AI治理体系。
欲进一步了解人工智能(AI)系统分类方法的请进入。