新書推薦:
《
收尸人
》
售價:NT$
332.0
《
大模型应用开发:RAG入门与实战
》
售價:NT$
407.0
《
不挨饿快速瘦的减脂餐
》
售價:NT$
305.0
《
形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛)
》
售價:NT$
504.0
《
卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张)
》
售價:NT$
602.0
《
化妆品学原理
》
售價:NT$
254.0
《
万千教育学前·与幼儿一起解决问题:捕捉幼儿园一日生活中的教育契机
》
售價:NT$
214.0
《
爱你,是我做过最好的事
》
售價:NT$
254.0
|
內容簡介: |
《现代汉语基本词汇自动识别方法研究》以2002-2006年大陆地区发行的六种主流报纸(《人民日报》、《北京青年报》、《北京晚报》、《法制日报》、《环球时报》、《羊城晚报》)的动态流通语料库作为考察对象,动态跟踪和考察词汇在大众媒体中的使用情况,提出了词语通用度的计算公式,进而考察语言学家例证所获得的基本词汇先验集所具有的统计特征类型,确立基本词汇的特征描述向量,采用遗传算法构造基于动态流通语料库的“语言工程现代汉语基本词汇”CBVE①自动识别及提取模型,实现CBVE的自动提取,为现代汉语基本词汇研究提供了一种量化考察途径。
《现代汉语基本词汇自动识别方法研究》的主要贡献体现在:第一,在大规模的动态流通语料库中.考察了大众媒体报纸的词汇真实使用情况。处理考察的语料规模庞大,覆盖文本数632255个,词次总数247257749,不同词种数8750105。第二,首次提出了在动态流通语料库中定量分析和考察CBVE基本词汇特征的一种方法,为今后基本词汇从定性研究过渡到定量研究提供了一种途径。第三,提出了一种词汇通用程度的计算方法,为词汇统计特征考察提供了一种新的计量指标。第四,借鉴了模式识别领域的研究方法,依据遗传算法搜寻特征向量空间范围广、收敛速度快、鲁棒性强等特点,将其应用到对CBVE自动识别及提取模型的参数训练上,获得了令人满意的结果。
|
目錄:
|
第一章 绪论
1.1 基本词汇的来源及争论
1.2 基于动态流通语料库的现代汉语基本词汇概念的界定
1.3 基本词汇的研究意义
1.4 基本词汇研究及相关文献综述
1.5 研究目标和研究内容
1.6 本书内容结构
第二章 CBVE及其自动提取方法相关理论探讨
2.1 现代汉语词汇的层级关系
2.2 动态流通语料库与词汇的稳态研究
2.3 从“相对时间观”看基本词汇的稳固性特征
2.4 关于模式识别的概念及其方法理论
2.5 小结
第三章 CBVE自动识别与提取的研究方法论
3.1 CBVE自动识别与提取研究的技术路线
3.2 研究语料的选择
3.3 CBVE自动提取的基本词汇先验集研究
3.4 词汇统计的预处理
3.5 小结
第四章 CCWE的自动识别与提取方法研究
4.1 CCWE通用度的定量分析方法探讨
4.2 词汇通用度的计算
4.3 CCWE的提取步骤
4.4 CCWE自动提取实验结果分析
4.5 小结
第五章 狭义的CBVE自动识别与提取方法研究
5.1 CBVE的特征向量描述
5.2 CBVE特征向量的选取
5.3 CBVE的自动识别与提取模型构造
5.4 基本词汇先验集聚类
5.5 标注CBVE的初始训练集
5.6 遗传算法训练狭义CBVE的自动提取模型
5.7 小结
第六章 广义CBVE自动识别与提取方法研究
6.1 广义CBVE的特征向量描述
6.2 广义CBVE特征向量的选取
6.3 构造广义CBVE自动识别与提取模型
6.4 训练CBVE遗传算法的自动提取模型
6.5 小结
第七章 CCWE与CBVE词汇专项考察与分析
7.1 CBVE与CCWE特性统计分析
7.2 CCWE语素分析
7.3 CBVE的释义能力分析
7.4 报纸媒体用词特征分析
7.5 领域类用词特征分析
7.6 小结
第八章 结语
8.1 存在的问题
8.2 今后的研究设想
参考文献
附录
附录1 现代汉语基本词汇先验集收录情况
附录2 2002-2006年度的语言工程汉语通用词(词语带词性,共13484,前1100词)
附录3.1 CBVE备选集词语语素过滤的“不成词语素”表
……
|
|