欢迎来到通信人在线![用户登录] [免费注册]

机器学习(ML)技术

浏览:252  来源:通信人在线  日期:2025-03-13

机器学习(MLMachine Learning)技术是人工智能(AI)系统中一种关键的最基础技术。在GB/T 5271.31-2006《信息技术 词汇 31部分 人工智能 机器学习》和GB/T 41867-2022《信息技术 人工智能 术语》以及ISO/IEC 22989:2022《信息技术 人工智能 概念和术语》等不同的标准中对于“机器学习”的定义表述有所不同,具体汇列于下表0中,从中可以加深对其概念的理解。事实上,ML是运用计算技术使系统能够从数据或经验中学习, ML 系统是通过对算法进行优化以适配训练数据,或通过最大化奖励来提高其性能而开发出来的。自 20 世纪 40 年代初以来,人们一直在探索神经元建模(即神经网络)以及能够从数据中学习的计算机程序的开发。随着大量数据和计算资源的可用性,机器学习是一个不断发展的领域,在众多行业领域中出现了新的应用。人工智能(AI)系统正是由于机器学习(ML)技术的出现而得到飞速的发展。

0:不同标准中对“机器学习(ML)”的定义表述

欲具体了解人工智能(AI)系统介绍的请进入

一、机器学习(ML)系统的框架

机器学习系统是指能运行或用于开发机器学习模型、算法和相关应用的软件系统。

1ISO/IEC 23053:2022的要求

下图 1-1ISO/IEC 23053:2022《使用机器学习(ML)的人工智能(AI)系统框架》给出的机器学习(ML)系统的构成框架。图中提供的内容并非是框架构成的全部,图中的要素明确了不同角色及其可由不同实体(例如不同的供应商)实现的特定于机器学习的功能。

1-1:机器学习(ML)系统的构成框架(ISO/IEC 23053:2022

1-1是根据构成机器学习的任务、模型的构建与使用、数据、工具和技术等相关维度给出的,各维度的释义详见下表1-1。在图中,模型开发与使用的子元素可被视为一种分层方法,即应用是基于模型构建的,而这些模型又被用于解决任务。模型开发与使用反过来又依赖于软件工具、技术和数据等。机器学习模型在部署后会产生诸如预测或决策之类的输出。预训练模型是指在获取时就已经完成训练的机器学习模型。在某些情况下,开发的模型可以应用于类似的任务,但在不同的领域中使用。在某些应用中,ML进行高级别的预测或决策,而在其它应用中,ML为狭义定义的问题提供答案。

1-1:机器学习(ML)系统框架构成维度的简述(ISO/IEC 23053:2022

2GB/T 43782-2024的要求

在我国国家标准GB/T 43782-2024《人工智能 机器学习系统技术要求》中,根据提供机器学习应用的开发、训练、部署、运行和管理能力等,给出了机器学习系统框架如下图1-2所示。该框架是结合了人工智能(AI)系统的整体框架,因此其主要构成部分包括:机器学习运行时组件、机器学习框架、机器学习服务组件、工具、运维管理等,下表1-2对这些构成部分给予了简单的描述。

1-2:机器学习(ML)系统的构成框架(GB/T 43782-2024

1-2:机器学习(ML)系统框架构成部分的简述(GB/T 43782-2024

二、机器学习系统的学习方法

1、概述

根据ISO/IEC 23053:2022标准,机器学习的基本学习方法可分为三种类型:监督式机器学习、无监督式机器学习以及强化式机器学习,可用下图2-1表示。半监督式机器学习、自监督式机器学习、迁移学习以及集成学习是在同时受到多种机器学习基本方法启发的基础上产生的,并且需要分别进行讨论。

2-1ML的基本学习方法-监督机器学习、无监督机器学习和强化机器学习

由于ISO/IEC 23053:2022标准中的术语与定义引用的是ISO/IEC 22989:2022《信息技术 人工智能 概念和术语》标准,故下表2-1-1给出了各种ML学习方法术语在ISO/IEC 22989:2022中的定义。温馨提示:在其它资料中是将机器学习基本学习方法分为监督式机器学习、无监督式机器学习和半监督式机器学习三种,这也可从表2-1-1中术语的定义看出。

2-1-1ML的学习方法术语的定义(ISO/IEC 22989:2022

值得提出的是,“数据”在机器学习模型的生命周期中属于核心要素,因为无论是训练还是评估均依赖于它。为此,在机器学习(ML)技术中,涉及到术语“数据”的相关概念,如训练数据、测试数据、验证数据、生产数据、标注数据、未标注数据等等,故下表2-1-2依据ISO/IEC 22989:2022一一列出了它们的含义及作用。其中,标注数据是机器学习技术的一项最基础工作,无论是ML学习方法的监督式机器学习、无监督式机器学习还是半监督式机器学习,都与标注数据相关。我国国家标准GB/T 42755-2023《人工智能 面向机器学习的数据标注规程》规定了人工智能领域面向机器学习的数据标注的规程,包括框架与流程等,若要了解的请查阅下附件2

2-1-2ML中相关“数据”术语的含义(ISO/IEC 22989:2022

附件 2GB/T 42755-2023《人工智能 面向机器学习的数据标注规程》

下述依据ISO/IEC 23053:2022标准,主要介绍机器学习的三种基本学习方法,在下表2-1-3中列出了机器学习的其它学习方法的简述。若要详细了解ISO/IEC 23053:2022标准具体内容的请查阅该标准原文。

2-1-3:机器学习的其它学习方法简述

欲详细了解ISO/IEC 23053:2022标准原文的请进入

2、监督式机器学习

监督式机器学习(Supervised machine learning)即ML模型利用带标签的数据进行训练。带标签的数据由一系列输入与正确或真实的输出相映射的样本构成。由此,训练数据以输入变量与“真实”输出的配对形式加以组织。在不同的情境中,真实的输出亦被称作标签、目标变量以及真实基准。在如下图2-2-1所示的监督学习过程中,算法会根据输入和输出进行拟合,从而生成一个模型。标签可以是原始数据的一部分,但通常需要手动生成标签或者通过其它AI流程来生成。根据所针对的机器学习任务的不同,标签可以有多种形式:一是,分类需要的是分类标签(数据实例所属的类别,如狗或建筑物);二是,对于回归任务,它们是数值型的(如度量值、可能性或概率的连续值);三是,对于结构化预测任务,它们也可以以结构化对象的形式呈现(如一个序列、一个图像、一个树或图表)。

2-2-1:使用监督机器学习创建机器学习模型

下图 2-2-2展示了一个典型的监督式机器学习过程,其中涵盖了创建、评估和使用ML模型的各种过程。其中,“数据集与模型创建”阶段对应于模型的准备、训练和选择,以及用于模型创建或评估所需的任何数据。“模型评估”阶段是使用评估指标对模型进行测试,以评估其性能和符合度。在“模型使用”阶段,模型应用于生产数据以进行预测。水平维度对应于这三个阶段,而垂直维度则表明所描绘的组件和过程是否与数据、模型、工具相关联。

2-2-2:典型的监督机器学习过程

训练模型的好的表现和鲁棒性很大程度上取决于训练数据的多样性(如各种各样的行人)、训练数据的质量(如照片中的光照度或分辨率)以及标签的准确性(如在人行横道内正确标注行人)。监督式机器学习数据的所有方面都容易出错,在从数据集创建到模型测试的整个周期中都需要特别注意。

3、无监督式机器学习

无监督式机器学习(Unsupervised machine learning)与监督式机器学习不同,其直接将输入映射到输出,无需在有标签的数据上进行训练。然而,训练过程与图 2-2-2所示的监督机器学习过程类似,在无监督学习过程中,无需访问标签。标签通常作为模型训练的副产品产生,如图2-3所示,算法仅基于输入进行拟合以生成模型,无需事先准备。

2-3:基于无监督机器学习的ML模型创建

4、强化机器学习

强化机器学习(Reinforcement machine learning)是指训练一个或多个智能体与它们所处的环境进行交互,以实现预先设定的目标的过程。强化学习与其它方法不同,因为其原理在于模型从某一状态开始初始化,然后采取一个动作,确定该动作所对应的奖励,接着模型会进入一个新的状态,试图使该状态下的奖励最大化。训练可用于初始化模型或确定模型采取动作时所遵循的策略。在强化机器学习中,机器学习智能体通过反复试错的迭代过程来学习。智能体的目标是找到一种策略(即构建一个模型),以便从环境中获得最佳奖励。对于每次试验(成功或失败),环境都会提供间接反馈。然后,智能体根据这种反馈调整其行为(即其模型)。这个过程如图2-4所示。智能体确定哪些交互能够持续为其行动提供最大的奖励,以试图达成目标。

2-4:典型的强化机器学习过程

欲更多了解相关机器学习(ML)学习方法请进入

三、机器学习的流程

1、概述

要利用机器学习达成特定的应用目标,需要创建一个机器学习模型,对其进行评估并投入使用。这一过程通常涉及数据、算法和计算资源。这里描述了一个具有代表性的机器学习流程,包括每个步骤所应用的过程。在进入该流程之前,有必要定义任务或要解决的问题,并确立了解决方案、目标和要求。对问题进行详尽的定义(包括如输入和输出格式的精确定义)有助于选择合适的机器学习算法,并获取训练机器学习模型所需的相关数据集。下图 3-1 展示了开发、验证、部署和运行机器学习模型所涉及的具体机器学习流程,以及这些流程与人工智能系统生命周期阶段之间的关系。

3-1:机器学习流程与人工智能系统生命周期的映射

2、流程

由图 3-1可知,机器学习的流程包括数据采集、数据准备、建模、数据的验证与确认、模型部署、运行六个过程。下表3-2式对这六个过程的简单描述,在ISO/IEC 23053:2022标准中有详细的描述,请参见标准的原文。

3-2:机器学习流程的简述

四、机器学习的技术要求

我国国家标准GB/T 43782-2024《人工智能 机器学习系统技术要求》规定了机器学习系统的技术要求,包括了功能、可靠性、维护性、兼容性、安全性和可扩展性要求。这些要求都是原则性的要求,若要详细了解该标准具体内容的请查阅下附件4。

附件 4:GB/T 43782-2024《人工智能 机器学习系统技术要求》

欲进一步了解ISO/IEC关于人工智能(AI)方面标准情况介绍的请进入

百度云服务器
© 2004-2025 通信人在线 版权所有 备案号:粤ICP备06113876号 网站技术:做网站