新書推薦:
《
传统文化有意思:古代发明了不起
》
售價:NT$
199.0
《
无法从容的人生:路遥传
》
售價:NT$
340.0
《
亚述:世界历史上第一个帝国的兴衰
》
售價:NT$
490.0
《
人工智能与大数据:采煤机智能制造
》
售價:NT$
440.0
《
未来漫游指南:昨日科技与人类未来
》
售價:NT$
445.0
《
新民说·逝去的盛景:宋朝商业文明的兴盛与落幕(上下册)
》
售價:NT$
790.0
《
我从何来:自我的心理学探问
》
售價:NT$
545.0
《
失败:1891—1900 清王朝的变革、战争与排外
》
售價:NT$
390.0
|
內容簡介: |
随着教学和数据分析业务的开展,我们发现更多的数据来自文本,而正则表达式是对文本数据的分析必不可少的技能。因此近年来,爬虫俱乐部在开展的Stata编程课程中融入了较多的正则表达式内容。虽然我们在课程中融入很多生动的案例,但是正则表达式看似简单实则一学就会但是容易忘,客观上需要一本常备参考手册。市面上关于正则表达式的参考书很少,而且没有关于Stata使用正则表达式的资料,用户只能阅读Stata公司提供的晦涩难懂的手册,因此每次上课都会有学员咨询有没有可能写一本专门介绍Stata使用正则表达式方法的书。为此,我们下决心撰写本书,希望系统地介绍Stata调用正则表达式的方法及其应用。
|
目錄:
|
目录
第1 章 正则表达式入门 ·· 1
1.1 通配符 · 1
1.2 正则表达式 · 4
1.3 正则表达式的用途 · 6
1.4 如何使用正则表达式 ·· 15
1.5 Stata 版本选择 · 16
1.6 字符、字节与Stata 编码 · 17
1.7 本章小结 ·· 18
第2 章 正则表达式字符串函数 20
2.1 匹配函数:regexm()和ustrregexm() 20
2.2 提取函数:regexs()和ustrregexs() ·· 23
2.3 替换函数:regexr()、ustrregexrf()和ustrregexra() 27
2.4 本章小结 ·· 32
第3 章 元字符 33
3.1 基本元字符 ·· 33
3.2 数量元字符 ·· 44
3.3 特殊字符元字符 ·· 61
3.4 位置元字符 ·· 68
3.5 前后查找 ·· 74
3.6 空白元字符 ·· 80
3.7 回溯引用:前后一致匹配 ·· 91
3.8 Unicode 转义字符 98
3.9 POSIX 字符类元字符 · 101
3.10 本章小结 104
第4 章 正则表达式综合运用 ·· 105
4.1 英文地址提取邮编(三) · 105
4.2 提取性别、年龄、种族 · 108
4.3 中文地址中城市名称的提取· 115
4.4 英文姓名拆分(二) · 129
4.5 提取生产日期 · 135
4.6 本章小结 · 139
第5 章 与正则表达式相关的命令·· 140
5.1 moss 命令 140
5.2 subinfile 命令 · 146
5.3 filesearch 命令 152
5.4 fromroman 命令 · 159
5.5 toroman 命令 ·· 162
5.6 varsearch 命令 163
5.7 screening 命令 166
5.8 jregex 命令 · 175
5.9 本章小结 · 181
第6 章 正则表达式与网络爬虫·· 182
6.1 网络爬虫概述 · 182
6.2 基于网络爬虫编写的命令 · 182
6.3 网络爬虫实例 · 195
6.4 本章小结 · 248
附录A 基础ASCII 字符表 · 249
附录B 生成基础ASCII 表的Stata 程序· 254
后 记 ·· 256
|
|