新書推薦:
《
简帛时代与早期中国思想世界(上下册)(王中江著作系列)
》
售價:NT$
1400.0
《
进化主义在中国的兴起(王中江著作系列)
》
售價:NT$
950.0
《
不废风雅 生活的意趣(汪曾祺风雅意趣妙文)
》
售價:NT$
280.0
《
东亚世界形成史论(新版)
》
售價:NT$
490.0
《
奶奶的半个心愿 “课本里的作家” 中考热点作家孙道荣2024年全新散文集
》
售價:NT$
190.0
《
天生坏种:罪犯与犯罪心理分析
》
售價:NT$
445.0
《
新能源材料
》
售價:NT$
290.0
《
传统文化有意思:古代发明了不起
》
售價:NT$
199.0
|
內容簡介: |
本书旨在向语言学研究者介绍如何使用Python,快速、准确地处理大规模语言数据。本书由三大部分16章构成,具体内容如下: 第1章,语言研究与编程。简单介绍语言研究中编写Python程序处理数据的必要性。 第2、3章是第1部分,使用Python处理文本。该部分以编写程序处理数据为前提介绍了文本数据的编码、查找、替换(第2章),以及文本处理时的强大工具——正则表达式(第3章)。 第4至11章是第2部分,Python的基础。该部分列举英语分析实例,解释了Python的基本操作。处理日语文本时字符编码的处理较为复杂,所以该部分以英语文本为中心进行讲解。第4章,Python入门。解释为什么使用Python,并图文并茂的教授Python的安装步骤和Python中的变量类型。 第5章,使用Python读取文件。介绍如何通过Python读取并保存文本文件。 第6章,Python的检索。以if函数为中心,解释说明检索目标数据。应用例子是只输出符合条件的行,和删除空白行等。 第7章,循环。介绍for循环,及循环控制命令continue和break的使用。应用例子是给每行添加行号,确认文件中是否出现某一单词等。 第8章,列表。介绍列表的概念,以及如何切分数据为列表等操作。应用例子是制作单词表等。 第9章,制作单词频度表。该内容可以说在语言研究中是必不可少的操作。 第10章,文件操作。介绍文件夹内所有文件的批处理。 第11章,在Python中使用正则表达式。正则表达式这一强大工具和Python结合,进行匹配和替换操作。 第12至16章是第3部分,Python的应用:以日语为中心,同时介绍汉语分词。该部分在第2部分内容的基础上,介绍了如何编写利用日语词素分析(形态素解析)检索日语文本的程序。第12章介绍日语词素分析。 第13章,介绍汉语分词。很多语言研究者需要进行英语和汉语;日语和汉语的对照研究,在对照时首先需要对汉语进行分词。本章主要介绍汉语分词工具NLPIR和Python jieba分词工具的安装和使用。 第14章,Python处理日语文本。以日语为例,介绍指定编码读取日语文件以及日语词汇频次表的制作方法。同样内容可以应用到汉语。 第15章,用Python进行KWIC检索。在说明KWIC是什么的基础上,介绍KWIC的Python实现方式。 第16章,使用Python检索词语搭配。词语搭配也叫语块,是语料库研究的重要内容之一。本章主要介绍设置不同的条件,以及以不同方式显示抽出词语搭配及其前后语境。
|
關於作者: |
西安交通大学本硕。理工科背景,本科时通过计算机2级(C++)考试,有一定的编程基础。 日本名古屋大学国际开发研究科博士,专业教育工学。擅长大规模数据处理,精通Perl,Python,R等语言。在《日本语教育》杂志上发表过单著论文,在其他杂志上也发表过多篇论文。 曾任名古屋大学助教后,现为大连海事大学校聘副教授。 担任研究生语料库语言学、语言信息处理等课程。 于西安交通大学、大连东软信息学院进行过自然语言处理方面的讲座。 现已加入浙江大学求是特聘教授刘海涛老师团队,从事依存语法、计量语言学方面研究。
|
|