新書推薦:
《
未来特工局
》
售價:NT$
254.0
《
高术莫用(十周年纪念版 逝去的武林续篇 薛颠传世之作 武学尊师李仲轩家世 凸显京津地区一支世家的百年沉浮)
》
售價:NT$
250.0
《
英国简史(刘金源教授作品)
》
售價:NT$
449.0
《
便宜货:廉价商品与美国消费社会的形成
》
售價:NT$
352.0
《
读书是一辈子的事(2024年新版)
》
售價:NT$
352.0
《
乐道文库·什么是秦汉史
》
售價:NT$
367.0
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:NT$
500.0
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:NT$
500.0
|
內容簡介: |
文本信息是Web上一类非常重要的信息,里面包含了大量的商业价值,对于洞察市场、识别创新机会、了解竞争对手、识别利益相关者、改进商品服务、了解消费者并与之价值共创,都具有重要意义。《文本挖掘商务应用》从商学院学生的角度出发,介绍文本知识挖掘的基本方法,以及它在商务问题上的应用。《文本挖掘商务应用》可以分为两个部分,第1~4章主要介绍文本知识挖掘的基础知识,第5~12章介绍文本知识挖掘的应用和工具。《文本挖掘商务应用》的特色是包含大量的案例和实验,帮助商学院学生深入理解所学知识所具有的商业价值,以及如何通过Python语言来实现这些功能。
|
目錄:
|
目录
第1章 文本知识挖掘导论 1
1.1 文本挖掘的概念 1
1.2 文本挖掘的主要技术手段 2
1.3 文本挖掘的基本任务 3
1.4 文本挖掘的一般过程 5
思考题 7
第2章 网络爬虫 8
2.1 网络爬虫的分类 8
2.2 网络数据抓取的基本步骤 11
2.3 网络爬虫的基本工作流程 12
2.4 爬虫的抓取策略 13
2.5 实验 14
思考题 29
第3章 文本的语言学处理 30
3.1 词频统计分析 30
3.2 停用词 30
3.3 中文分词 31
3.4 词性标注 34
3.5 句法分析 36
3.6 词干提取和词形还原 38
3.7 实验 40
思考题 54
第4章 文本表示 56
4.1 向量空间模型 56
4.2 概念模型 58
4.3 特征生成 60
4.4 特征选择和特征提取 63
4.5 实验:特征选择 68
思考题 72
第5章 信息抽取 74
5.1 信息抽取简介 74
5.2 信息抽取的任务 75
5.3 应用案例:药物副作用挖掘 81
5.4 实验:命名实体识别 88
思考题 94
第6章 文本分类 95
6.1 文本分类的种类 95
6.2 文本分类的知识工程方法 96
6.3 文本分类的机器学习监督算法 96
6.4 文本分类的评价 109
6.5 应用案例:言语行为分析 112
6.6 实验:垃圾邮件检测 120
思考题 127
第7章 文本聚类 129
7.1 聚类的基本问题 129
7.2 文本聚类的算法 130
7.3 文本聚类的评价 134
7.4 应用案例:研讨文本的主题聚类 135
7.5 实验:使用K-means算法对文本进行聚类 142
思考题 148
第8章 主题模型 149
8.1 主题模型概述 149
8.2 文本建模 150
8.3 Unigram模型 151
8.4 主题模型和PLSA 154
8.5 LDA 157
8.6 应用案例:医生评论的主题提取 162
8.7 实验:使用LDA发现新闻中的主题 172
思考题 175
第9章 情感分析 176
9.1 情感分析的粒度 177
9.2 情感分析面临的问题 178
9.3 文档级情感分类 179
9.4 句子级情感分类 182
9.5 一些复杂句式的处理 183
9.6 应用案例:在线口碑预测市场成功 184
9.7 实验:评论的情感分析 188
思考题 195
第10章 知识图谱 196
10.1 知识图谱的基本概念 196
10.2 知识图谱的架构 198
10.3 代表性的知识图谱 199
10.4 知识抽取的关键技术 200
10.5 知识表示的关键技术 207
10.6 应用案例:知识图谱在部分领域的重要应用 208
10.7 实验 211
思考题 215
第11章 文本可视化 216
11.1 可视化的基本概念 216
11.2 可视化的基本方法 216
11.3 文本可视化的研究现状 218
11.4 应用案例:舆情可视化 226
11.5 实验 229
思考题 231
第12章 自然语言处理的商业套件 232
12.1 IBM SPSS Text Analytics 232
12.2 自然语言处理开放平台 234
12.3 知识图谱开放平台 239
思考题 241
参考文献 242
|
|