新書推薦:
《
药食同源中药鉴别图典
》
售價:NT$
305.0
《
设计中的比例密码:建筑与室内设计
》
售價:NT$
398.0
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:NT$
254.0
《
汉字理论与汉字阐释概要 《说解汉字一百五十讲》作者李守奎新作
》
售價:NT$
347.0
《
汗青堂丛书144·决战地中海
》
售價:NT$
765.0
《
逝去的武林(十周年纪念版 武学宗师 口述亲历 李仲轩亲历一九三零年代武人言行录)
》
售價:NT$
250.0
《
唐代冠服图志(百余幅手绘插画 图解唐代各类冠服 涵盖帝后 群臣 女官 士庶 军卫等 展现唐代社会风貌)
》
售價:NT$
398.0
《
知宋·宋代之科举
》
售價:NT$
454.0
|
編輯推薦: |
在设计无须使用双手、仅使用语音的用户界面时,无论你是对话式语音优先体验的设计新手还是经验丰富的设计师,本书都能在关键方面为你提供帮助。本书包含了有关Amazon Echo、Google Nest以及各种车载体验提供的无须查看、无须触碰、纯语音界面的重要细节。
作者以类似The Elements of Style(这是一本流行的美式英语写作风格指南)的写作方式,提供了远场语音的佳实践和建议。同样,本书对每个主题提供了直接、简洁的说明。
通过学习本书,你将能够:
?设计合适的语言,使语音机器人能够有效地与人交流。
?创建健壮的对话式语音界面,该界面能够自动处理错误和失败的情况。
?关注影响体验的小细节,设计高可用的对话式语音界面。
?设计一款解放用户眼睛和双手的纯语音智能音箱应用。
|
內容簡介: |
本书涵盖了语音应用程序的各个方面,不仅深入浅出地讨论了对话技术和智能语音交互设计的细节,还谈到了产品的整体愿景和参与设计过程的人,充满了有用的技巧和实践,是一本语音用户界面(VUI)设计指南和实战手册。本书首先介绍有关语音、音频和对话式语音建模的基本概念,然后针对具体挑战提供详细建议,最后提供了概念工具和实践工具,帮助设计师有效地剖析设计策略,并进一步强化思维方式。虽然本书面向的是专注于语音界面的对话设计师,但从事产品、研究和开发工作的人也能从本书中获益。
|
關於作者: |
Ahmed Bouzid博士是Witlingo(该公司致力于构建语音产品和解决方案)的创始人兼首席执行官。在加入Witlingo之前,Bouzid博士曾担任亚马逊Alexa智能家居产品负责人和Genesys的产品创新副总裁。他还是Open Voice Network的推广大使,负责其社交音频社区。他在语音识别和自然语言处理领域拥有12项专利,被Speech Technology Magazine评为语音领域的杰出人物。Weiye Ma博士从1994年开始从事语音识别领域的相关工作,并于1999年获得比利时鲁汶大学语音处理与识别的博士学位。她曾先后服务于优利系统(Unisys)、施耐德电气(Schneider Electric)和肯沃基(Convergys)公司,目前在MITRE公司担任首席语音科学家。
|
目錄:
|
前言1
引言9
第1章 为什么语音优先13
1.1 解放双眼13
1.2 解放双手13
1.3 转瞬即逝14
1.4 富有内涵14
1.5 被动性15
1.6 最小工作量15
1.7 广播性15
1.8 无须读写15
第2章 什么时候语音优先17
2.1 环境17
2.2 内容18
2.3 用户状态18
2.4 渠道19
2.5 一些应用场景20
第3章 为什么实现语音优先的自动化23
3.1 降低成本23
3.2 高峰处理23
3.3 提高客户满意度24
3.4 提高人工代理满意度25
3.5 增加收入25
3.6 实现个性化25
3.7 促进任务完成26
3.8 保护隐私26
3.9 提高安全性26
第4章 VUI的三大核心特征27
4.1 时间线性28
4.2 单向性29
4.3 不可见性29
第5章 对话的要素31
5.1 对话本体32
5.2 对话动作34
5.3 对话状态36
5.4 内部对话上下文37
5.5 对话信号38
第6章 对话的规则41
6.1 合作原则43
6.2 质量准则44
6.3 数量准则44
6.4 关联准则45
6.5 行为准则45
第7章 基本宗旨49
7.1 语音机器人不是人类49
7.2 语音机器人应该和它所拥有的数据一样聪明50
7.3 语音机器人应该保持一致51
7.4 语音机器人应该是透明的52
7.5 语音机器人应该尊重用户52
第8章 对话外的上下文55
8.1 用户状态55
8.2 物理环境58
8.3 社交环境59
8.4 近期上下文59
8.5 用户模式60
8.6 用户基础模式61
第9章 界面与用例的匹配63
9.1 一个说明性用例64
9.2 基本的启发式方法65
第10章 起步的要素67
10.1 简明扼要67
10.2 使用音频图标67
10.3 放弃“欢迎来到……”的说法68
10.4 永远不要说“请仔细听,因为我们的选项已经发生改变”68
10.5 让语音机器人以第一人称称呼自己 68
10.6 放弃“你可以随时打断我”69
10.7 记住起源上下文69
10.8 记住用户的偏好69
10.9 预测用户的具体要求70
10.10 预测一般用户群体的要求 70
第11章 提示的要素73
11.1 提示类型73
11.2 编写有效的提示74
第12章 选项菜单81
12.1 先展示最常用的项目81
12.2 将菜单选项保持在三个或更少81
12.3 将菜单的深度保持在三层或更少81
12.4 避免提供相似的选项列表让客户从中选择82
12.5 不要使用“请从以下选项中选择”82
12.6 菜单选项的词性、短语要一致82
12.7 允许用户提问“我有哪些选择?”83
12.8 允许用户返回上级菜单83
12.9 停顿3s后重复菜单选项83
12.10 允许资深用户“打断”语音提示83
12.11 使用快捷方式84
第13章 管理异常85
13.1 错误类型85
13.2 失败的原因86
13.3 最佳实践87
第14章 帮助策略93
14.1 告知用户可以获取帮助93
14.2 检测用户何时需要帮助94
14.3 构建你的帮助94
14.4 提供帮助后从离开的地方返回95
14.5 帮助要简明扼要95
14.6 使用上下文来指导你的解释95
14.7 用例子来阐述你的解释96
14.8 只在需要的时候提供帮助96
第15章 对话标记97
15.1 确认信息的接收99
15.2 宣布用户即将收到一些信息99
15.3 标记序列99
15.4 标记对话区块的开始和结束100
15.5 标记错误100
15.6 显示隧道尽头的光明101
15.7 暗示语音机器人仍然掌握着对话轮次的所有权101
15.8 明确告诉用户他们正在等待101
15.9 不要连续两次重复相同的标记101
15.10 注意失败策略后的标记102
第16章 非语言对话标记 103
16.1 非语言音频的类型 103
16.2 开始对话104
16.3 提醒用户应答105
16.4 语音机器人正忙着处理某事,且仍保留着对话轮次所有权 105
16.5 等待用户做出答复105
16.6 在没有输入之后105
16.7 告知选项清单105
16.8 进入一个新的主题106
16.9 选项列表中上一项到下一项的过渡标记106
16.10 告知帮助 106
16.11 结束对话 106
第17章 语言设计107
17.1 关于“自然性”107
17.2 关键术语108
17.3 设计一个有效的语言模型108
17.4 清楚地描述语音机器人可以帮助用户解决什么问题109
17.5 通过其他方式告知语音机器人存在的原因,以及它能帮助用户做什么109
17.6 花时间构建一个干净的本体110
17.7 不要坐在椅子上设计语言模型110
17.8 从语言错误中恢复时要明确说明111
第18章 利用停顿113
18.1 用在列出选项之前113
18.2 用在菜单列表中的选项之间114
18.3 用在选项类别之间114
18.4 当与高级用户交互时115
18.5 用在语音机器人回应之后116
18.6 用在TTS提示和人工录音切换时117
第19章 结束的要素119
19.1 允许用户明确地结束对话119
19.2 允许用户直接请求人工座席120
19.3 当用户需要等待时提供一个预估的等待时间120
19.4 提供取消转人工座席的选项120
19.5 让“用户等候”的音频与用户相关120
19.6 播放“用户等候”音频时要了解用户的心态120
19.7 永远不要说“您的请求对我们来说很重要”121
19.8 不要让用户对人工座席再重复一遍对语音机器人说过的内容121
19.9 让人工座席意识到用户已经和语音机器人沟通过了121
19.10 避免将用户从一个语音机器人转到另一个语音机器人122
19.11 除非要将用户直接转到人工座席,否则不要播放电话铃声122
19.12 对于用户的成功操作给予确认122
19.13 不要在对话结束时提供重要信息122
19.14 给用户一个快捷方式123
19.15 给用户提供稍后联系的选项123
第20章 语音优先的通知125
20.1 基本考量126
20.2 通知中的关键属性126
20.3 关键的媒介形态因素127
20.4 一些最佳实践128
20.5 一些应用场景130
第21章 奠定基础133
21.1 召集所有关键角色133
21.2 定义商业目标134
21.3 定义用户的需求和意图135
21.4 定义语音机器人的语体风格137
第22章 发布成功产品的关键139
22.1 用完整的句子写出所有的东西140
22.2 新闻稿需要清晰明了140
22.3 答案最多只能有一两段内容141
22.4 先回答基本问题141
22.5 清楚地描述已完成的研究141
22.6 在主张和声明中要谦虚谨慎142
22.7 让每个人都能读懂你的文档142
22.8 根据用户可以做的事情列出功能需求142
22.9 详细描述预期的最小可行性产品143
第23章 部署的要素145
23.1 产品管理145
23.2 产品营销147
23.3 用户体验研究人员147
23.4 用户体验设计师148
23.5 开发人员148
23.6 质量工程师149
23.7 项目管理151
第24章 发布后的监测153
24.1 信息来源154
24.2 基本问题155
第25章 语音优先服务的成功指标要素159
25.1 放弃率159
25.2 自动化率160
25.3 每个会话的平均故障次数160
25.4 每个任务的平均故障次数160
25.5 平均任务完成时间160
25.6 遏制率161
25.7 首次使用解决率161
25.8 任务完成率161
25.9 任务启动率161
25.10 接入时间161
第26章 结束语163
附录A 语音优先产品失败的10个原因167
附录B 演示语音优先的产品169
附录C 有用的指标矩阵173
术语表177
参考文献187
|
內容試閱:
|
译者序
“言为心声,语为心境”,语言和对话是我们沟通与协作的重要方式。智能语音技术是一种基于人工智能和自然语言处理技术的语音交互技术,它可以通过语音识别技术将用户的语音指令转换为文本,然后通过自然语言处理技术对文本进行分析和理解,最终生成相应的响应或执行相应的操作。
虽然智能语音技术由来已久,但直到Amazon Echo智能音箱问世,才再一次引发了业界对智能语音技术的广泛关注。这样的智能音箱带给人们一种叫作“语音优先”的用户体验,为用户提供了一种更加便捷、高效的交互方式。
那么,什么是“语音优先”呢?
语音优先是指在设计产品或服务时,将语音交互作为主要的用户界面,以便用户可以通过语音指令来完成操作。这种设计方法可以提高用户的使用体验,特别是在双手正在忙碌的场景中,语音交互更加方便和快捷。语音优先交互方式的优势在于:
速度。每分钟可以说120~150个字。
解放双手。例如做饭时通过语音可以完成一些期望做的事。
直觉性。语言是人类的天赋,也是人类交际沟通的自然手段。
同理心。语音中包含了语气、音量、语调和语速,这些特征传达了大量的
信息。
智能语音交互离不开人工智能技术,语音优先交互中涉及的人工智能技术如下图所示。
其实,在为我们服务的智能语音设备背后有一整套技术和流程,从语音唤醒到自动语音识别,再到自然语言理解,最终通过自然语言生成以及语音合成技术形成反馈。整套流程背后又有很多细分的人工智能技术在支持,如对话管理、深度学习、DNN、CNN、NLP、TTS等。
幸运的是,在2017年,我加入了宣称“All in AI”的百度,负责百度智能音箱的研发。我和团队经受了88天的“炼狱”生活,终于诞生了百度第一款智能音箱Raven-H。之后,我们还参与了小度音箱、小度在家等产品的研发。后来,我担任DuerOS首席布道师,负责DuerOS的生态建设。DuerOS开放平台为开发者提供了开发智能语音应用的工具,使智能语音服务的开发更为便利。谷歌与亚马逊等国外公司,以及小米、阿里等国内公司,也都有着类似于DuerOS开放平台的开发者社区。
在各种语音开放平台上开发智能语音服务时,开发者普遍面临对智能语音交互设计认识不足的情况,特别是语音优先设计的适用场景和独特性。作为一名布道者,我非常想写一本关于智能语音交互设计与实现方面的书,但由于种种原因,未能实现。
本书正是这样一本书,不仅深入浅出地讨论了对话技术,还介绍了智能语音交互设计的各种细节,是一本名副其实的设计指南和实战手册。感谢机械工业出版社让我参与本书的翻译工作,弥补了我曾经的遗憾。
翻译团队的诞生源自几个有趣灵魂的碰撞。王同林和卢健作为高级产品经理,他们强烈的求知欲和十多年的丰富产品设计经验是组建翻译团队的原动力。我们在整个翻译过程中,力争保持严谨的行文和细心的求证,即便如此,仍然如履薄冰。如果文中有不妥之处,欢迎大家指正。
曹洪伟
2023年3月
|
|