新書推薦:
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:NT$
602.0
《
《日本文学史序说》讲演录
》
售價:NT$
332.0
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:NT$
454.0
《
治盗之道:清代盗律的古今之辨
》
售價:NT$
556.0
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:NT$
959.0
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:NT$
1367.0
《
欲望与家庭小说
》
售價:NT$
449.0
《
惜华年(全两册)
》
售價:NT$
320.0
|
編輯推薦: |
《数据标注工程(第2版)》可作为人工智能训练师专业教材,也可作为大数据和人工智能应用人才的专业教材以及广大数据标注行业从业者的学习资料。
|
內容簡介: |
《数据标注工程(第2版)》由数据标注行业的专家团队编写,采用通俗易懂的方式,系统地介绍了数据标注的基本概念、分类、流程、质量管理、安全、项目管理、平台和应用等内容。本书通过理论与实战相结合的方式,帮助读者由浅入深进行学习,让读者真正掌握数据标注的核心技术、数据标注工程实施和管理方法。
|
關於作者: |
刘鹏教授,清华大学博士毕业,现任南京云创大数据科技股份有限公司总经理,兼任中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能教育专家委员会主任、教育全国普通高校毕业生就业创业指导委员会委员,第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长,2019年全国大学生数据建模比赛命题人,工信部云计算研究中心专家。主持科研项目40多项,发表论文80余篇,出版专业书籍30多本。出版的《云计算》教材被全国高校广泛采用,名列知网统计的“中国高被引图书”(计算机技术)前三甲。出版的《大数据》《深度学习》《数据挖掘》等教材也受到普遍欢迎。创办的云计算世界(www.chinacloud.cn)和大数据世界(www.thebigdata.cn)等网站在业界有举足轻重的影响。
李彤,男,1976年1月生于北京,1998年毕业于北京工业大学,2008年获得北京大学新闻传播专业硕士学位。曾在新浪网就职10余年,先后担任互动中心总监、总编室主任等多个岗位,主要负责新浪网交互栏目内容的审查,保证了整个新浪交互频道的安全、公司信息安全。2014年至今,在北京字节跳动担任中国内容质量与用户体验平台负责人,及各产品内容总编辑,对字节跳动旗下近50个产品内容质量安全工作。
|
目錄:
|
第1 章 数据标注概述
1.1 数据标注的起源与发展 1
1.1.1 什么是数据标注 3
1.1.2 数据标注分类概述 4
1.1.3 数据标注流程概述 7
1.2 数据标注的应用案例 8
1.2.1 出行行业 8
1.2.2 金融行业 8
1.2.3 医疗行业 9
1.2.4 家居行业 9
1.2.5 安防行业 9
1.2.6 公共服务 10
1.2.7 电子商务 10
1.3 新职业-人工智能训练师 10
1.3.1 有多少智能,就有多少人工 10
1.3.2 让AI 更懂人类的新职业 11
1.3.3 最后一批人工智能的“老师” 16
1.4 数据越多,智能越好 17
1.5 作业与练习 19
参考文献 19
第2 章 数据采集与清洗
2.1 数据采集 21
2.1.1 数据采集方法 21
2.1.2 数据采集流程 22
2.1.3 标注数据采集案例 24
2.2 数据清洗 26
2.2.1 数据清洗方法 27
2.2.2 数据清洗流程 28
2.2.3 数据清洗的评判 29
2.2.4 数据清洗实例 29
2.3 作业与练习 31
参考文献 31
第3 章 数据标注分类及应用
3.1 图像标注 33
3.1.1 什么是图像标注 33
3.1.2 图像标注任务类型 34
3.1.3 图像标注方式 35
3.1.4 图像标注案例 37
3.2 语音标注 40
3.2.1 什么是语音标注 40
3.2.2 语音标注任务类型 40
3.2.3 案例分享:方言片段截取标注 42
3.3 文本标注 43
3.3.1 什么是文本标注 43
3.3.2 文本标注类型 44
3.3.3 文本标注应用领域 45
3.4 视频数据标注 47
3.4.1 什么是视频数据标注 47
3.4.2 视频与图像数据标注的差异 47
3.4.3 视频数据标注的分类 48
3.5 作业与练习 48
参考文献 48
第4 章 数据标注流程及管理
4.1 数据标注项目流程 49
4.1.1 项目启动 50
4.1.2 项目规划 51
4.1.3 项目执行 52
4.1.4 项目监控 52
4.1.5 项目收尾 53
4.2 数据标注团队架构 53
4.2.1 标注团队组建 54
4.2.2 标注团队架构 55
4.3 数据标注角色分工 56
4.4 数据标注团队沟通 57
4.4.1 项目相关方管理 57
4.4.2 团队沟通建设 58
4.5 数据标注安全管理 60
4.5.1 数据安全的重要性 60
4.5.2 数据信息泄露案例 60
4.5.3 数据安全管理 61
4.6 数据标注标准化管理 63
4.6.1 项目管理 65
4.6.2 人员管理 68
4.6.3 订单管理 68
4.6.4 客户关系管理 69
4.7 作业与练习 70
参考文献 70
第5 章 数据标注质量管理
5.1 数据质量影响算法效果 71
5.2 数据标注质量标准 73
5.2.1 图像标注质量标准 73
5.2.2 语音标注质量标准 75
5.2.3 文本标注质量标准 76
5.3 数据标注质量检验方法 76
5.3.1 实时检验 76
5.3.2 全样检验 77
5.3.3 抽样检验 78
5.4 数据标注质量风险控制 80
5.5 作业与练习 81
参考文献 81
第6 章 数据标注进度管理
6.1 数据标注人效制定 82
6.1.1 定时人效测量 82
6.1.2 定量人效测量 83
6.1.3 步骤拆解人效测量 83
XIV 数据标注工程(第2 版)
6.2 数据标注进度规划 84
6.3 数据标注进度风险控制 85
6.4 作业与练习 86
第7 章 数据标注平台
7.1 线上平台 87
7.1.1 竹节实战平台介绍 87
7.1.2 竹节平台使用方法 87
7.1.3 AIDP 数据标注工具能力说明 89
7.2 线下平台 119
7.2.1 标注工具安装环境搭建 119
7.2.2 LabelImg 标框标注工具的使用方法 123
7.2.3 Labelme 多边形区域标注工具安装与使用方法 130
7.3 作业与练习 134
参考文献 134
第8 章 数据标注实战
8.1 语音类-方言ASR 项目数据标注案例 135
8.1.1 项目需求 135
8.1.2 标注界面及功能说明 135
8.1.3 音频分类说明 136
8.1.4 音频裁剪说明 137
8.1.5 文字标准执行细则 138
8.2 语音类-客服录音项目数据标注案例 141
8.2.1 确定是否包含有效语音 141
8.2.2 确定语音的噪音情况 141
8.2.3 确定说话人数量 141
8.2.4 确定说话人性别 141
8.2.5 确定是否包含口音 142
8.2.6 语音内容方面 142
8.3 图片类-OCR 数据标注案例 143
8.3.1 框选规则 143
8.3.2 文字转写规则 147
8.4 图片类-人脸数据标注案例 148
8.4.1 标框标注 148
8.4.2 描点标注 150
8.5 无人驾驶2D 图像标注案例 152
8.5.1 项目目的 152
8.5.2 标注内容 153
8.5.3 标注界面及操作方法 153
8.5.4 标注规则 154
8.6 NLP 数据泛化文本标注案例 157
8.6.1 标注目的 157
8.6.2 标注页面 157
8.6.3 标注说明 157
8.6.4 NLP 名词解析 165
8.6.5 标注细则 165
8.7 作业与练习 167
附录
|
內容試閱:
|
2022 年8 月12 日,为加快推动人工智能应用,助力稳经济,培育新的经济增长点,根据国务院发布的《新一代人工智能发展规划》,按照科技部等六部门联合印发的《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,科技部印发了《关于支持建设新一代人工智能示范应用场景的通知》,并支持建设首批10 个示范应用场景:智慧农场、智能港口、智能矿山、智能工厂、智慧家居、智能教育、自动驾驶、智能诊疗、智慧法院、智能供应链。
人工智能和信息技术的发展,孕育了人工智能训练师等新兴职业。自2020 年年初人工智能训练师正式成为新职业并纳入国家职业分类目录,人工智能训练师的从业人员增长迅速。该职业包含数据标注员、人工智能算法测试员两个工种。人工智能训练师从概念发展为新职业,只用了四年时间,从业人员也从0 发展到20 万。随着国家政策的大力支持,行业的数字化转型需求,人工智能在各行各业的场景化广泛应用,人工智能已进入产业级大模型时代,人工智能训练师的需求规模将迎来爆发式增长,2022 年全国约需200 万人工智能训练师从业人员。
人工智能技术推动着第四次工业革命,支撑人工智能发展的三大因素分别是数据、算力、算法。数据量级及质量的高低直接影响人工智能的结果输出。要想输入的数据是算法能够识别的数据,就需要把原始数据按照规则进行一定的处理,换成专业名词就是“数据标注”。数据标注的对象有许多类型,如语音、视频、图片、文字等,经过十多年的发展,数据标注
技术逐渐成熟,并已形成数据服务产业。
2022 年1 月,国务院发布《关于印发“十四五”数字经济发展规划的通知》,提到“坚持以数字化发展为导向,充分发挥我国海量数据、广阔市场空间和丰富应用场景优势,充分释放数据要素价值”,并在发展规划保障措施中提到“提升全民数字素养和技能。”“加强职业院校(含技工院校)数字技术技能类人才培养,深化数字经济领域新工科、新文科建设,支持企业与院校共建一批现代产业学院、联合实验室、实习基地等,发展订单制、现代学徒制等多元化人才培养模式。”以大数据为基础的相关数据服务产业也亟待与高校开展深入合作,进一步推动产教融合、校企合作。
为了更好地培养人工智能训练师,提升数据标注领域人才的技术技能,结合我司多年行业实战经验,特联合教育领域专家共同编写本教材。本书共8 章,分别为数据标注概述、数据采集与清洗、数据标注分类及应用、数据标注流程及管理、数据标注质量管理、数据标注进度管理、数据标注平台、数据标注实战,不仅能够作为行业专业人士了解数据标注的入门书籍,还可以作为高等院校开设数据标注实训类课程的指导教材。
本书在编写过程中难免会有不当之处,请各位读者多提宝贵意见。让我们共同为人工智能行业的发展贡献力量!
李 彤
于北京
2022 年9 月1 日
|
|