AWS Certified Machine Learning Specialty (MLS-C01) 考试指南 简介 AWS Certified Machine Learning Specialty (MLS-C01) 考试面向担任人工智能 / 机器学习 (AI/ML) 开发或数据科学角色的个人 本考试考查考生使用 AWS 云针对给定业务问题设计 构建 部署 优化 训练 调整和维护 ML 解决方案的能力 本考试还考查考生完成以下任务的能力 : 为给定业务问题选择相应的 ML 方法并证明其合理性 确定相应的 AWS 服务以实施 ML 解决方案 设计和实施可扩展 成本优化 可靠且安全的 ML 解决方案 目标考生描述 目标考生应具备 2 年或更长时间在 AWS 云中开发 构建和运行 ML 或深度学习工作负载的实践经验 建议掌握的 AWS 知识 目标考生应具备以下知识 : 表达基本 ML 算法背后的直觉感受的能力执行基本超参数优化的经验机器学习和深度学习框架的经验遵循模型训练最佳实践的能力遵循部署最佳实践的能力遵循运行最佳实践的能力 哪些内容被视为超出目标考生的范围? 以下列出的是不要求目标考生能够完成的相关工作任务 ( 非详尽列表 ) 以下内容被视为超出考试范围 : 广泛或复杂的算法开发 广泛的超参数优化 复杂的数学证明和计算 1 页
高级网络和网络设计 高级数据库 安全性和 DevOps 概念 Amazon EMR 的 DevOps 相关任务 要查看考试中可能涉及的具体工具和技术的详细列表, 以及列入考试范围和超出考试范围的 AWS 服务列 表, 请参阅附录 考试内容 答案类型 考试具有两种类型的试题 : 单项选择题 : 具有一个正确答案和三个错误答案 ( 干扰项 ) 多项选择题 : 在五个或更多答案选项中具有两个或更多正确答案选择一个或多个最准确表述或回答试题的答案 干扰项或错误答案是知识或技能不全面的考生可能会选择的答案选项 干扰项通常是与内容领域相符的看似合理的答案 未回答的试题将计为回答错误 ; 猜答案不会扣分 考试包括 50 道计分试题, 这些试题将影响您的分数 不计分内容 考试包括 15 道不计分试题, 这些试题不影响您的分数 AWS 收集这些不计分试题的考生答题情况以进行评估, 以便将来将这些试题作为计分试题 不会在考试中标明这些不计分试题 考试成绩 AWS Certified Machine Learning Specialty (MLS-C01) 考试成绩分为及格和不及格 本考试按照 AWS 专业人员根据认证行业最佳实践和准则制定的最低标准进行评分 您的考试成绩换算分数为 100 1000 分 最低及格分数为 750 分 您的分数表明您的总体考试答题情况以及是否通过考试 换算评分模型有助于在难度水平可能略有不同的多种考试形式中换算分数 您的成绩单可能包含一个分类表, 其中列出您在每个部分的考试成绩 此信息旨在提供有关您的考试成绩的一般反馈 本考试采用补偿评分模型, 这意味着您无需在每个部分都达到及格分数 您只需通过整个考试 2 页
考试的每个部分具有特定的权重, 因此, 某些部分的试题比其他部分多 该表包含常规信息以重点说明您的强项和弱项 在解读各个部分的反馈时, 请务必小心谨慎 内容大纲 本考试指南包括考试的权重 测试领域和目标, 并未列出考试的全部内容 不过, 为每个目标提供了额外的背景信息, 以帮助指导您为考试做好准备 下表列出了主要内容领域及其权重 该表位于完整考试内容大纲之前, 其中包括额外的背景信息 每个领域中的百分比仅代表计分内容 领域 在考试中所占的百分 比 领域 1: 数据工程 20% 领域 2: 探索性数据分析 24% 领域 3: 建模 36% 领域 4: 机器学习实施和运行 20% 总计 100% 领域 1: 数据工程 1.1 为机器学习创建数据存储库 确定数据源, 例如, 内容和位置 主要来源 ( 如用户数据 ) 确定存储介质 ( 例如, 数据库 数据湖 S3 EFS EBS) 1.2 确定并实施数据提取解决方案 数据作业样式 / 类型 ( 批量加载 流式传输 ) 数据提取管道 ( 基于批处理的 ML 工作负载和基于流的 ML 工作负载 ) o Kinesis o Kinesis Analytics o Kinesis Firehose o EMR o Glue 作业计划 1.3 确定并实施数据转换解决方案 3 页
转换数据传输 (ETL: Glue EMR AWS Batch) 使用 Map Reduce 处理 ML 特定的数据 (Hadoop Spark Hive) 领域 2: 探索性数据分析 2.1 清理和准备数据以进行建模 确定和处理缺少的数据 损坏的数据 停用词等 设置数据格式, 以及规范化 扩充和扩展数据 标记的数据 ( 识别何时具有足够的标记数据并确定缓解策略 [ 数据标记工具 (Mechanical Turk, 人工操作 )]) 2.2 执行特征工程 从数据集中识别和提取特征, 包括从诸如文本 语音 图像 公有数据集等数据源中识别和提取特征 分析 / 评估特征工程概念 ( 分箱 标记化 异常值 合成特征 一位有效编码 降低数据维度 ) 2.3 分析和可视化数据以进行机器学习 绘图 ( 散点图 时间序列图 直方图 箱线图 ) 解释描述性统计信息 ( 相关性 汇总统计信息 p 值 ) 聚类 ( 分层 诊断 肘图 聚类大小 ) 领域 3: 建模 3.1 将业务问题转换为机器学习问题 确定何时使用 / 何时不使用 ML 了解监督学习和自主学习的区别 从分类 回归 预测 聚类 建议等中进行选择 3.2 为给定机器学习问题选择相应的模型 XGBoost 逻辑回归 K-means 线性回归 决策树 随机森林 RNN CNN 集成 迁移学习 表达模型背后的直觉感受 3.3 训练机器学习模型 训练验证测试拆分 交叉验证 优化器 梯度下降 损失函数 局部最小值 收敛 批处理 概率等 计算选择 (GPU 与 CPU, 分布式与非分布式, 平台 [Spark 与非 Spark]) 模型更新和重新训练 4 页
o 批处理与实时 / 联机 3.4 执行超参数优化 正则化 o 丢弃 o L1/L2 交叉验证 模型初始化 神经网络架构 ( 层 / 节点 ) 学习率 激活函数 基于树的模型 ( 树数量 级别数量 ) 线性模型 ( 学习率 ) 3.5 评估机器学习模型 避免过拟合 / 欠拟合 ( 检测和处理偏差和方差 ) 指标 (AUC-ROC 准确度 精确度 召回率 RMSE F1 分数 ) 混淆矩阵 脱机和联机模型评估 A/B 测试 使用指标 ( 训练模型的时间 模型质量 工程成本 ) 比较模型 交叉验证 领域 4: 机器学习实施和运行 4.1 针对性能 可用性 可扩展性 弹性和容错构建机器学习解决方案 AWS 环境日志记录和监控 o CloudTrail 和 CloudWatch o 构建错误监控 多个区域 多个可用区 AMI/ 黄金映像 Docker 容器 Auto Scaling 组 正确调整大小 o 实例 o 预置的 IOPS o 卷 负载均衡 AWS 最佳实践 5 页
4.2 针对给定问题建议和实施相应的机器学习服务和功能 AWS 上的 ML( 应用程序服务 ) o Poly o Lex o Transcribe AWS 服务限制 构建自己的模型与 SageMaker 内置算法 基础架构 (Spot 实例类型) 成本考虑 o 使用 Spot 实例通过 AWS Batch 训练深度学习模型 4.3 将基本 AWS 安全实践应用于机器学习解决方案 IAM S3 存储桶策略 安全组 VPC 加密 / 匿名 4.4 部署和运行机器学习解决方案 公开终端节点并与它们进行交互 ML 模型版本控制 A/B 测试 重新训练管道 ML 调试 / 故障排除 o 检测和缓解性能下降 o 监控模型性能 附录 本考试可能涵盖哪些关键的工具 技术和概念? 以下是考试中可能出现的工具和技术列表 ( 非详尽列表 ) 该列表可能会有更改, 用于帮助您了解考试涵盖的服务 功能或技术的一般范围 该列表中的一般工具和技术未按特定顺序显示 AWS 服务根据其主要功能进行分组 尽管在本考试中考查的一些技术可能比其他技术多, 但这些技术在该列表中的顺序和位置并不表示其相对权重或重要性 : 提取 / 收集 处理 /ETL 6 页
数据分析 / 可视化模型训练模型部署 / 推断运行 AWS ML 应用程序服务与 ML 相关的语言 ( 例如,Python Java Scala R SQL) 笔记本和集成开发环境 (IDE) AWS 服务和功能 分析 : Amazon Athena Amazon EMR Amazon Kinesis Data Analytics Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon QuickSight 计算 : AWS Batch Amazon EC2 容器 : Amazon Elastic Container Registry (Amazon ECR) Amazon Elastic Container Service (Amazon ECS) Amazon Elastic Kubernetes Service (Amazon EKS) 数据库 : AWS Glue Amazon Redshift 物联网 (IoT): AWS IoT Greengrass 机器学习 : Amazon Comprehend AWS Deep Learning AMI (DLAMI) AWS DeepLens Amazon Forecast 7 页
Amazon Fraud Detector Amazon Lex Amazon Polly Amazon Rekognition Amazon SageMaker Amazon Textract Amazon Transcribe Amazon Translate 管理和监管 : AWS CloudTrail Amazon CloudWatch 网络和内容分发 : Amazon VPC 安全性 身份和合规性 : AWS Identity and Access Management (IAM) 无服务器 : AWS Fargate AWS Lambda 存储 : Amazon Elastic File System (Amazon EFS) Amazon FSx Amazon S3 超出考试范围的 AWS 服务和功能 以下是考试中未涵盖的 AWS 服务和功能的列表 ( 非详尽列表 ) 这些服务和功能并不代表考试内容中排除的所有 AWS 产品 / 服务 与考试的目标工作职责完全无关的服务或功能被排除在此列表之外, 因为它们被认为与考试无关 超出考试范围的 AWS 服务和功能包括 : AWS Data Pipeline AWS DeepRacer Amazon Machine Learning (Amazon ML) 8 页