新書推薦:
《
中国海域史·南海卷
》
售價:NT$
500.0
《
粤港澳大湾区:图片故事
》
售價:NT$
1877.0
《
操盘华尔街:“百年美股第一人”的的投资智慧
》
售價:NT$
347.0
《
戏剧舞蹈人物动态图集(绝美的服装设计和极致的身体动态美感展现)
》
售價:NT$
1632.0
《
政治权力与公司控制 公司治理的全球政治学新解
》
售價:NT$
587.0
《
隈研吾建筑图鉴 50座名建筑的深度拆解与访谈
》
售價:NT$
551.0
《
古雅典的民主与法治(当城邦服从法律时,所有这些资源都会为共同的利益服务)
》
售價:NT$
551.0
《
社会法哲学(全二册)(社会法与法社会论丛)
》
售價:NT$
1265.0
|
內容簡介: |
本书是一本全面、实用、易懂的spaCy学习指南,专为对自然语言处理(NLP)感兴趣的读者设计。它以中文应用为核心,从基础概念到高级应用,逐步深入讲解spaCy这一高效的Python NLP库。书中不仅涵盖了分词、词性标注、命名实体识别等核心功能,还详细介绍了如何利用这些功能来构建强大的NLP应用。通过丰富的案例和示例代码,本书能够帮助读者快速掌握spaCy的使用方法,并将其应用于实际任务中,无论是文本分析、情感分析还是机器学习模型的构建。 对于自然语言处理的初学者来说,本书提供了一个结构化的学习方法,从最基础的NLP概念开始,逐步引导读者理解并应用spaCy库。对于开发者和数据科学家,书中的高级应用和最佳实践可以帮助他们提升现有技能,解决更复杂的NLP问题。无论是想系统学习NLP还是想针对性提升特定技能,本书都是理想的选择。它不仅适合个人学习,也适合作为团队或教育机构的教学资源。通过本书的学习,读者将能够更加自信地处理各种语言数据,开发出更加智能和高效的NLP解决方案。
|
關於作者: |
王冠:北京大学学士,香港科技大学硕士,先后于香港应用科技研究院、联想机器智能实验室及瑞士再保险与慕尼黑再保险数据科学团队从事数据建模、计算机图像与NLP的研发工作,发表过数篇相关国际期刊论文,并取得相关专利。当前研究方向为人工智能在金融领域的应用。孔晓泉:谷歌开发者机器学习技术专家(Google Developer Expert in Machine Learning),TensorFlow Addons Codeowner,Rasa SuperHero。多年来一直在世界500强公司带领团队构建机器学习应用和平台。在NLP和对话机器人领域拥有丰富的理论知识和实践经验。
|
目錄:
|
目 录 第 1 章 spaCy 简介 ............................................................................................ 1 1.1 自然语言处理的发展过程 ..................................................................... 1 1.2 自然语言处理的基础任务 ..................................................................... 6 1.3 spaCy 的核心概念 ................................................................................. 7 1.3.1 nlp 对象 ....................................................................................... 9 1.3.2 Doc 对象 .................................................................................... 10 1.3.3 Token 对象 ................................................................................. 12 1.3.4 Span 对象 ................................................................................... 14 1.4 spaCy 的安装方法 ............................................................................... 16 1.4.1 使用 pip 安装 ............................................................................. 16 1.4.2 使用 Conda 安装 ........................................................................ 16 1.5 spaCy 的基础操作 ............................................................................... 17 1.5.1 训练模型 ................................................................................... 17 1.5.2 预测模型 ................................................................................... 21 第 2 章 抽取语言学特征 ................................................................................... 24 2.1 基本操作 .............................................................................................. 24 2.1.1 分词 ........................................................................................... 24 2.1.2 截取词符 ................................................................................... 26 2.1.3 获取文本特征 ............................................................................ 28 spaCy 自然语言处理:从入门到进阶 VIII 2.1.4 词性标注 ................................................................................... 31 2.1.5 依存关系解析 ............................................................................ 32 2.1.6 命名实体识别 ............................................................................ 33 2.2 用已有模型预测 .................................................................................. 35 2.2.1 预测文字、词性标签和依存关系标签 ....................................... 37 2.2.2 预测命名实体识别的结果 .......................................................... 38 2.2.3 手动创建命名实体 ..................................................................... 39 2.3 基于规则的匹配器 .............................................................................. 42 2.3.1 Matcher 与正则表达式 ............................................................... 44 2.3.2 模板匹配 ................................................................................... 45 2.4 定义匹配规则 ...................................................................................... 53 2.4.1 运算符和量词 ............................................................................ 53 2.4.2 文本匹配 ................................................................................... 57 2.4.3 词性匹配 ................................................................................... 59 第 3 章 信息提取 .............................................................................................. 62 3.1 数据结构的基本概念 .......................................................................... 62 3.2 词汇表、字符串库和语素 ................................................................... 63 3.2.1 词汇表和字符串库 ..................................................................... 65 3.2.2 语素 ........................................................................................... 66 3.2.3 转换 ........................................................................................... 68 3.3 文档、截取和词符 .............................................................................. 72 3.3.1 文档及其创建 ............................................................................ 73 3.3.2 截取及其创建 ............................................................................ 76 3.3.3 词符及其创建 ............................................................................ 80 3.4 综合实践——比对相似度 ................................................................... 84 3.4.1 训练词向量 ................................................................................ 85 3.4.2 处理文本 ................................................................................... 88 3.4.3 计算相似度 ................................................................................ 89 3.5 综合实践——文本匹配 ....................................................................... 96 3.5.1 基于规则的方法 ........................................................................ 98 3.5.2 匹配不成功时的调试方法 ......................................................... 102 3.5.3 直接精确匹配字符串 ................................................................ 105 第 4 章 流程 ..................................................................................................... 109 4.1 流程组件 ............................................................................................. 109 4.1.1 流程组件的概念 ....................................................................... 109 4.1.2 流程组件的运行 ....................................................................... 111 4.1.3 流程组件的属性 ....................................................................... 112 4.1.4 流程组件的配置 ....................................................................... 113 4.1.5 流程组件的检查 ....................................................................... 114 4.2 定制化流程组件 ................................................................................. 115 4.2.1 定制化流程组件的应用 ............................................................ 116 4.2.2 定制化流程组件的应用示例 ..................................................... 117 4.2.3 用定制化流程组件打印文档的词符长度 ................................... 119 4.2.4 定制化流程组件的综合应用示例 .............................................. 121 4.3 定制化属性 ......................................................................................... 123 4.3.1 添加定制化属性 ....................................................................... 123 4.3.2 注册定制化属性 ....................................................................... 124 4.3.3 定制化属性的类别 .................................................................... 125 4.3.4 设置定制化属性 ....................................................................... 131 4.4 定制化模型组件 ................................................................................. 137 4.5 含有定制化属性的定制化流程组件 .................................................. 140 4.6 流程的优化 ......................................................................................... 142 4.6.1 流模式 ...................................................................................... 142 4.6.2 传入语境 .................................................................................. 143 4.6.3 仅使用分词器 ........................................................................... 146 4.6.4 关闭流程组件 ........................................................................... 146 4.7 处理流 ..............................
|
|