阿里巴巴达摩院人工智能训练师(高级)
阿里巴巴达摩院人工智能训练师(高级)
阿里云授予的证书,请联系"橙点同学"。
共有五个视频课程全部完成即可参加考试。
考试包含34道题, 可参加两次考试, 第一次未能通过没关系, 完看完解析后再考一次。
大体上内容一致, 但考试中的题目顺序会有变化。
1.打开浏览器搜索网站——橙点同学 (orange-class.com)

2.登录账号并修改个人信息——实名本人及学校,用于证书填写

3.返回主页,点击获得认证——人工智能训练师(高级)

4.观看课程——硬拉没用,得老老实实看,可以2倍速
注:如果觉得慢,可以四个视频同时2倍速播放

5.看完视频记得刷新——确保显示已学完

6.开始认证考试


7.参考答案——题的顺序不一致,但是选项顺序一致
单选题
1、题目:TTS 流程中的哪个模块容易造成读音错误
选项:
A. 分词模型
B. 停顿模型
C. 获取读音
D. 分句模块
答案:C
2、题目:以下说法正确的是
A. 更高质量的数据能够训练出更优质的模型
B. 在同一个模型中进行训练的数据样本必须保持均衡分布
C. 影响着训练样本中的数据标签正确性的准确性将起到关键作用
3、题目:什么情况下 CER 字错误率会超过 100%
问题提供选项:
A. 在删除错误频发的情况下
B. 描述插入错误较多的情况
C. 当替换错误出现得比较多时
D. 以上情况皆有可能
4、题目:构建数据标签的时候以下说法正确的是
A. 构建数据标签的时候仅需确保正例样本准确无误
B. 构建数据标签的时候无需包含负例样本
C. 构建数据标签的时候需综合考虑业务/行业相关属性,并且还需具备一定的业务专业知识
D. 构建数据标签范围应尽可能缩小
5、题目:请从以下语料中找出标签分类不一致的句子
A. 我遗失了密码
B. 尝试输入多次均得到"密码错误"提示
C. 为何每次输入都会收到"密码错误"提示
D. 设置方法是什么
实验所涉及的数据总量共计10组;在这些数据中存在明确预测结果的数量共计6组而其余未获得明确预测结果的数据则共计4组;其中在这些有明确预测结果的数据中有5组被正确地分类或预测出来;该模型在这种情况下表现出怎样的准确度?其精确度又是多少呢?
题目给出的选项为
7、题目:以下哪类是属于多标签分类
选项如下:
A. 垃圾邮件分类 —— 是 / 否
B. 情绪识别 —— 愤怒 / 高兴 / 平静
C. 新闻主题标签 —— 体育、C 罗、欧冠
D. 以上皆是
8、题目:TTS 中通常把数字变成汉字是发生在哪个模块
选项:
A. 文本归整模块
B. 停顿模型
C. 获取读音
D. 分句模块
答案:A
9、题目:以下针对数据优化的说法正确的是
A. 增加的数据规模越大越好
B. 增加数据的质量越优对模型的效果越好
C. 增加数据的特征越丰富越好
D. 模型的正负样本比例不会影响模型效果
10、题目:模型的召回率如何计算
A. 召回率等于正真例数量除以(正真例子数量加上假负例子数量)。
B. 召回率等于正真例子数量除以(正真实例子数量加上假阳性数量)。
C. 召回率等于(真实阳性数量加上真实阴性数量)除以(真实阳性数量加上假阳性数量)。
D. 召回率等于(真实阳性数量加上真实阴性数量)除以(真实阳性数量加上假阳性数量再加上真实阴性数量)。
答案:A
题目:在实际语音中存在,在识别结果中也存在但其中的字出现了偏差的情况,请问这属于哪种识别错误?
选项:
A. 插入错误
B. 删除错误
C. 替换错误
D. 识别错误
答案:C
两岁的小男孩首次与年迈的奶奶一同出游。
小男孩两岁了,第一次和奶奶一起旅行
13、题目:请计算以下样本中的文字识别准确率是多少?标注:我喜欢排球作为我的最爱运动;识别:我喜欢将拍球作为我的最爱运动
选项:
A. 0.6
B. 0.4
C. 0.7
D. 0.3
答案:A
在不考虑业务场景的前提下,在综合考量相关性、定义范围及确定性等因素后, 以下哪些标签与原始文本内容最合适的是一组
D
15、题目:以下哪些场景适用分类模型解决
选项:
A. 开发票流程
B. 反馈电话号码
C. 反馈订单编号
D. 发送宝贝链接
答案:A
16、题目:通过 SSML 标记()文本内容,可以控制()语音生成的许多方面
选项:
A. 标准,简单
B. 标准,复杂
C. 格式化,合成
D. 通用性,合成
答案:C
17、题目:书箱分类的标签算是哪种分类任务
选项:
A. 二分类
B. 多分类
C. 多标签分类
D. 多模态
答案:C
18、题目:以下说法错误的是
A. 方言模型必须以基础词汇库为基础进行构建。
B. 重口音问题依赖于对声学模型系统的优化。
C. 方言特征与重口音不同之处在于其具体的实现路径存在差异。
D. 可以通过强化声学模型系统的优化措施来有效应对方言问题
19、题目:针对 “南京市长江大桥” 这句话分词正确的是
南京市 / 长江大桥
20、题目:如何提升数据的质量以下说法正确的是
选择题如下,请选择正确答案:
A.缺乏足够的噪声数据
B.训练集在正负类上的分布较为均衡
C.负类样例数量充足且类型多样
D.以上所有情况均满足
正确答案为D
判断题
21、题目:声音转文字如果没有达到 100%,说明这个模型不行
选项:
A. 正确
B. 错误
答案:B
22、题目:文本语言生成在神经网络模型上存在一字随机性,但风险是可控的
选项:
A. 正确
B. 错误
答案:B
ASR 的模型专门处理所有普通话使用者发出的语音信号;它不会区分说话人;而 TTS 则能够实现每个说话人的声音独一无二的特点。
选项:
A. 正确
B. 错误
答案:A
24、题目:用户画像是属于多标签分类
选项:
A. 正确
B. 错误
答案:A
25、题目:数据标记时只能对原始数据添加一个标签
选项:
A. 正确
B. 错误
答案:B
26、题目:TTS 发言速度过快可能会导致沟通困难;我可以调节 speech_rate 的值以实现所需的速度
选项:
A. 正确
B. 错误
答案:A
召回率(Recall Rate),也称为查全率(Query Completeness Rate),是指系统检索到的相关文档数量与整个文档库中所有相关文档总数的比例。它反映了检索系统在查全方面的性能表现。
选项:
A. 正确
B. 错误
答案:A
28、题目:分类任务有:二分类,多分类,多标签分类
选项:
A. 正确
B. 错误
答案:A
29、题目:删除错误是指实际语音中有,识别结果里没有
选项:
A. 正确
B. 错误
答案:A
30、题目:SSML 是语音合成标记语言,它是 W3C 的语音接口框架的一部分
选项:
A. 正确
B. 错误
答案:A
多选题
31、题目:TTS 常见的错误有()和()
选项:
A. 拼写错误
B. 识别错误
C. 读音错误
D. 停顿错误
答案:C、D
32、题目:以下哪些算是没有噪音的数据
选项:
A. ……
B. 好了哦
C. 去火车站怎么走
D. 今天天气怎么样
答案:C、D
33、题目:如何建立语音评测集
选项:
A. 通常在1至2个小时内可获得有效数据
B. 一般情况下能够反映出业务的真实情况
D. 常见情况下会有一定的随机性但具备代表性
34、题目:如何得到质量更高的数据
A. 类与类之间界限分明
B. B 类别作为 A 类别的子类别,并且两者均存在于同一模型架构中
C. 相对于 A 类别的丰富数据而言,B 类别样本数量较为有限
D. 同时收集并增加了大量负向样本以辅助训练过程
