新書推薦:
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:NT$
286.0
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:NT$
265.0
《
明式家具三十年经眼录
》
售價:NT$
2387.0
《
敦煌写本文献学(增订本)
》
售價:NT$
1010.0
《
耕读史
》
售價:NT$
500.0
《
地理计算与R语言
》
售價:NT$
551.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:NT$
398.0
《
大思维:哥伦比亚商学院六步创新思维模型
》
售價:NT$
332.0
|
編輯推薦: |
随着市场的快速发展,网络购物突破了时间和空间的限制,极大地丰富了人们的购物选择,降低了人们的购物成本,得到了越来越多的青睐,但网络购物市场中的商品质量问题越来越突出,已成为制约行业进一步发展的重要瓶颈之一。为更好解决电子商务产品质量问题,本著作有效利用现有电子商务产品质量风险监测结果的海量数据,通过数据分析方法、统计学理论和数据挖掘方法对现有电子商务产品质量风险监测数据进行数据降维、建模和SPASS数据分析,为电子商务产品质量风险监测部门提供政策建议和治理依据。
|
內容簡介: |
为了更好地分析电子商务产品质量舆情信息,本书有效利用网络爬虫技术获取网络热门话题的相关舆情信息,构建中文分词情感词库,分析公众的情感倾向,通过设计实现的电子商务产品质量舆情数据分析平台,掌握电子商务产品质量舆情信息的传播规律。本书基于信息服务供应链理论研究纵向一体化、市场化和网络化的电子商务产品质量监管模式;基于互联思维提出构建政府监管制度供给、生产企业产品监管、电商平台信息整合与信用环境培育下的多层次电子商务产品质量协同治理机制,为政府相关部门科学监测处置电子商务产品质量风险提供方法工具和理论依据。 本书适合相关领域的研究人员、科技工作者、高年级的本科生与研究生使用。
|
目錄:
|
目录
序Ⅰ
前言Ⅲ
第1章绪论
1.1研究背景
1.2研究意义
1.3研究现状
1.3.1网络购物市场中产品质量问题的
发生机理
1.3.2减少网络购物市场中产品质量
问题的途径
1.3.3网络舆情信息研究现状
1.3.4网络内容分析法研究
1.4研究技术路线
1.5小结
第2章电子商务产品质量管控理论
2.1产品质量管理理论
2.1.1产品质量概念
2.1.2质量管理的内涵和外延
2.1.3商业流通领域对产品质量的管理
2.2网络购物产品质量问题发生机理
2.2.1买方逆向选择行为
2.2.2卖方道德风险
2.3电子商务网络购物平台产品质量管控演化分析
2.4小结
第3章电子商务产品质量评论观点识别及情感倾向分析
3.1电子商务产品质量情感倾向词典构建
3.1.1中文分词方法
3.1.2领域情感词典构建
3.1.3程度副词词典构建
3.1.4否定词词典构建
3.1.5网络用语词典构建
3.2电子商务产品质量话题评论情感倾向分析
3.2.1文本情感特征项抽取算法
3.2.2语句情感特征权值计算
3.2.3电子商务产品质量评论情感倾向计算
3.3电子商务产品质量话题观点识别
3.3.1支持向量机
3.3.2观点识别过滤规则
3.3.3基于规则SVM观点识别算法
3.4电子商务产品质量评论情感分析实验
3.4.1实验设置
3.4.2实验的评价指标
3.4.3话题相关领域情感词扩展实验结果
3.4.4观点识别实验结果
3.4.5话题评论情感极性分类结果
3.5小结
第4章电子商务产品质量的网络舆情监测分析系统
4.1电子商务网站商家商品评价舆情分析难点
4.2网络舆情信息获取采集子系统
4.2.1系统概述
4.2.2采集流程
4.2.3功能模块设计
4.3网络舆情数据预处理子系统
4.3.1系统概述
4.3.2预处理流程
4.3.3功能模块设计
4.4网络舆情分析子系统
4.4.1系统概述
4.4.2分析预测流程
4.4.3舆情分析功能模块设计
4.5电子商务产品质量舆情分析信息系统
4.5.1系统概述
4.5.2系统功能界面
4.6小结
第5章基于信息服务供应链理论的电子商务产品
质量管控研究
5.1信息服务供应链研究
5.1.1服务供应链的内涵
5.1.2服务供应链的基本框架
5.2电子商务产品质量产业供应链治理
5.2.1Williamson的企业边界理论
5.2.2Gereffi的产业链治理模型
5.2.3电子商务产业链纵向治理模式解析
5.3基于信息服务供应链的电子商务产品
质量监管体系
5.4小结
第6章基于互联网思维的电子商务产品质量管控研究
6.1电子商务产品质量管控措施
6.1.1在线信誉机制
6.1.2信息传递手段
6.1.3社会信用体系
6.2电子商务产品质量信用管理体系构建研究
6.2.1改善政策环境,完善电子商务产品
质量信用管理
6.2.2规范产品质量信用信息的收集、
使用、共享及发布
6.2.3培育、发展电子商务产品质量信用
评价的中介机构
6.2.4建立电子商务产品质量信用信息
披露机制
6.2.5加强企业质量信用文化建设,
培养全社会诚信意识
6.3基于互联网思维完善电子商务产品质量监管
6.3.1正确理解把握电子商务产品质量
监管的三个维度
6.3.2基于互联网技术创新电子商务产品
质量监管模式
6.4小结
参考文献
|
內容試閱:
|
前言
互联网和大数据时代,如何分析消费者对电子商务产品质量的倾向性与观点,及时有效地发现突发事件的舆情信息,研究提高电子商务平台的舆情预防管理能力和政府相关部门的产品质量管控机制,是促进我国电子商务产业健康发展迫切需要解决的问题。本书首先介绍利用中文分词情感词库、网络爬虫等技术,设计并实现了一个电子商务产品质量舆情数据分析平台,通过爬取新浪、腾讯上热门话题的相关数据,分析公众对相关话题的情感倾向,掌握电子商务产品质量舆情信息传播规律。然后,基于信息服务供应链理论研究提出了纵向一体化、市场化和网络化三种纵向治理模式下的电子商务产品质量监管模式。最后,基于互联思维提出利用大数据、云平台等技术构建政府监管制度供给、生产企业产品监管、电商平台信息整合与信用环境培育下的多层次电子商务产品质量协同管控机制。本书由杭州电子科技大学柳毅副教授负责组织、编写和最终定稿工作。王晓耘教授、刘铁桥博士、黄时友等参与了本书相关章节的编写和舆情程序编写工作,杭州电子科技大学陈畴镛教授对本书进行了认真审阅,提出了许多建设性意见,使本书内容日臻完善,在此对他们所付出的辛勤劳动表示诚挚的感谢。同时,感谢浙江省哲学社会科学重点研究基地项目编号:14JDXX02YB、浙江省高校人文社科重点研究基地管理科学与工程项目编号:ZX1402043040011006为编写、出版本书提供的经费资助。本书在编写过程中,参考了部分图书、期刊和论文资料,在书后以参考文献的形式列出。大数据分析技术、舆情信息管理理论的飞速发展,时刻影响着电子商务产品质量网络舆情分析与管控理论的研究,尽管我们付出了很多的努力,但由于作者水平有限,加之时间仓促,书中难免存在不足之处,敬请读者和同行专家不吝赐教。柳毅2016年10于杭州电子科技大学
第3章电子商务产品质量评论观点识别及情感倾向分析
随着电子商务的快速发展,越来越多的人通过电子商务网站来了解产品信息、购买商品,并且通过评价表达自己购买商品过程中的感受、对购买商品的满意程度和相关建议要求。评价和打分等商品舆情信息是买家了解电子商务网站产品和商家服务的一种重要渠道和表达方式[60]。文本情感分析是对给出的文本的感情色彩进行分析、归纳的过程[61],即判断一篇文本中观点持有者对某个事件或商品持有的正向、负向或中立的态度。它属于信息检索或者自然语言处理的范畴。目前,国内已有许多专家、学者根据实现的方法将舆情分析技术分为基于词的倾向性分析和基于机器学习的倾向性分析[62]。例如,杨震等人在网络舆情内容分析中,提出基于字符串相似性聚类的网络短文本舆情热点发现技术[63]。Kouloumpis等利用微博中的口语和网络语言来提高情感倾向分析的准确性[64]。3.1电子商务产品质量情感倾向词典构建在林鸿飞教授等[65]所构建的中文情感词汇本体库的基础上构建出对电子商务产品质量主题针对性强的情感倾向词典,包括电子商务产品质量主题领域词汇和对应的网络用语词汇,最终构建情感倾向词典,能更加全面地对电子商务产品质量数据进行情感倾向分析。3.1.1中文分词方法中文不像英文那样每个词汇之间由空格分开,需先进行分词才能进一步处理。本研究采用最大匹配算法对中文文本进行分词,该方法属于基于字符串匹配的分词方法,需要分词词典支持。分词词典本研究采用中科院ICTCLAS分词系统[66],该词典搜集了日常生活中使用频率较高的56008个词汇,基本能够满足分词的需要。在特征选择方法上,本研究采用了情感词典作为特征选择的依据,所以在分词过程中,将与电子商务产品质量主题领域相关的词汇以及网络用语添加到分词系统ICTCLAS的词典中,其中最大匹配的步长设置为四个汉字,只对中文内容进行分词处理,将其并集作为分词词典的结果,更加有效合理。本研究提出使用情感词典对文本进行表示,这个过程在中文分词阶段就能完成,不需要单独的特征选择步骤。文本处理流程如图3.1所示。
在构建适合于电子商务产品质量话题型的领域情感词典时,需要从评论中获取和话题相关的领域性词汇。为此,本研究通过搜狗细胞词库获取和话题相关的领域词汇,在对电子商务产品质量话题型评论文本进行分词中,向中科院分词系统加入领域词汇,进一步词频分析,然后通过预处理删除一些无关的字词和符号,最后通过和已有的情感词典进行匹配,筛选出和话题相关的领域词汇。
图3.1文本处理流程
3.1.2领域情感词典构建由于在不同话题微博评论中,往往会出现很多和微博话题相关的情感词汇,这些词汇不包含在基础情感词典中,但是却富含和情感相关的信息,对微博评论情感分析具有很重要的影响。例如,#房价问题#现在房价太高了,有的新房没多少年就坍塌了!,这句关于房价问题的微博话题评论中的坍塌词汇是基础情感词典中不具备的,但是却明显表明了关于房子的态度和想法。因此,本研究从搜狗细胞词库以及互联网搜集常见富含情感的网络用语,构建适合电子商务产品质量话题的领域情感词典。在构建领域词典时,同样需要利用基础情感词典计算领域词语的情感倾向和情感强度,具备更多情感词数量的基础情感词典将有效地提高领域词典的构建精确度。因此,本研究在林鸿飞教授等人所构建中文情感词汇本体库的基础上,对其进行修改和调整,构建适合话题型电子商务产品质量的基础情感词典。在情感词汇本体中,一般的格式如表3.1所示。
表3.1情感词汇本体格式举例
词语词性
种类词义数词义
序号主要情感分类主要
强度主要
极性辅助情感分类辅助
强度辅助
极性
脏乱Adj11NN72臭名昭彰idiom11NN92周到adj11PH51言过其实idiom11NN52
在构建情感倾向词典时,本研究采用中文情感词汇本体库的情感分类、情感强度两个维度,将基础情感词情感极性分为三类: 正面情感、中立情感、负面情感。在情感强度中,中立情感用0表示,正面情感用正号 表示,负面情感用负号-表示,情感强度分为-9,-7,-3,-1,0,1,3,5,7,9,其中9表示正面情感倾向程度最大,-9为负面情感倾向程度最大。由于中文情感词汇本体库缺乏中性情感词,本研究收集相关中性词语加入中文情感词汇本体库。最终得到正面情感词语10541个,负面情感词语10102个,中性情感词语4127个。具体示例如表3.2所示。
表3.2基础情感词典举例
极性权值基础情感词示例
正面[1,9]雅兴、怡悦、致敬、敬佩、高兴、喜欢负面[-9,-1]脏乱、糟糕、早衰、责备、悲伤、哭泣中立0一般、中立、平庸、无功无过、平淡
由于在汉语中,很多词语(多数为动词和形容词)存在一词多义的现象,在不同的话题领域中,一些词语的语义和情感极性有所不同。需要采取相应的方法,减少这方面因素影响情感分类精确度。例如,卢苇提出构建不受领域主题影响的中文基础情感词典[67]。但是这样的方法有一定缺陷: 构建不受主题领域影响的基础情感词典,将会导致大量情感词被排除在外,导致基础情感词典过小,需要大量的人工参与。通过对话题型评论文本的研究,发现针对某一话题评论时,受话题领域影响的基础情感词是很小部分的。因此,为了减少人工参与量,并且增加基础情感词典中的基础词语数量,本研究针对话题型评论情感分析研究时,根据不同的话题,通过词频分析结合人工识别找出受该话题影响的词语,对基础情感词典进行一些调整。3.1.3程度副词词典构建程度副词是副词组成之一,主要用于修饰动词和形容词,改变词语情感的强弱。大多数用户直接用情感词表达观点和情感,并且常常使用程度副词来加强或减弱自己的情感。因此,程度副词也是影响情感的重要情感特征项之一。例如评论: #房价问题#房价有一点点高,评论中,一点点程度副词影响了评论句中的观点和情感。由此可见,程度副词的使用确实影响了评论中的情感倾向程度。本研究在构建程度副词词典时,参考游建平等人对程度副词的四个分类: 低量、中量、高量、极量,选用知网提供的中文程度级别词语,一共219个[68]。同时参考宋静静对程度副词的权值设置进行改进,将程度副词权值范围设置为[0.5,2],最终得到低量级别41个、中量级别37个、高量级别42个、极量级别99个[69]。具体示例如表3.3所示。
表3.3程度副词举例
级别权值程度副词示例
低量0.5多多少少、略加、一点、有些、稍许中量1.0进一步、较为、更加、愈发、越高量1.5多多、分外、实在、特别、尤其极量2过分、过猛、极度、非常、绝对
3.1.4否定词词典构建否定词是对行为或状态进行否定的副词。主要用于修饰动词、形容词。文本中出现否定词,将会影响被修饰情感词的极性。例如,若否定词个数为2a 1个,则被修饰情感词的极性将会相反; 若否定个数为2a,则被修饰情感词的极性不变。在电子商务产品评论中,网民经常使用否定词来支持或否定一些事物。例如,#房价问题#房价又涨了,很不高兴!这句话中高兴表达正面情感,但是用否定词不修饰高兴后,这条关于房价问题的评论情感从正面情感转变为负面情感。因此,在分析电子商务产品评论情感时,需要构建合理的否定词词典,并赋予其权值为-1。本研究采用郝雷红提出的31个否定副词[70]。具体示例如表3.4所示。
表3.4否定副词举例
否定副词示例权值个数
白、 甭、别、不、不必、不曾、不要、不用、非、干、何必、何曾、何尝、何须、空、没、没有、莫、徒、徒然、枉、未、未曾、未尝、无须无须乎、无需、毋须、毋庸无庸-131
3.1.5网络用语词典构建网络用语伴随着网络的发展而兴起,大量的网络词汇诞生,被广大网民熟知和使用。电子商务平台作为一种新兴社交媒体,已成为网民传播信息最为火热的工具。由于网络语言的魅力,电子商务产品质量评论文本包含大量网络用语,而这些网络用语往往具有强烈的情感倾向。尤其在话题型微博评论中,绝大多数网民更加倾向使用具有情感性的网络词汇。目前网络用词的类型有数字型、字母型、同音型等。例如,正面情感的网络用语有狂顶、大神、hold住等,负面情感的网络用语有菜鸟、555等。本研究从搜狗细胞词库以及互联网搜集常见富含情感的网络用语,最终采用人工判断的方法,给网络权值赋值,设置权值范围[-9,9]。具体示例如表3.5所示。
表3.5网络用语举例
极性网络用语示例权值数目
正面情感大神、hold住、完爆、我顶[1,9]85负面情感菜鸟、呜呜、弱爆了[-9,-1]106
3.2电子商务产品质量话题评论情感倾向分析本研究采用情感词典对电子商务产品质量评论文本进行情感分类,建立高质量的情感词典,有效地保留了情感相关特征项之间的关系,考虑了情感词本身存在情感强度的因素。3.2.1文本情感特征项抽取算法本研究在上下文滑动算法基础上,将词性规则、情感词典、平滑算法相结合,对电子商务产品质量话题型评论的情感相关特征项情感词、程度副词、否定词、表情符号、网络用语、评价对象进行抽取。经过分词之后,评论文本转变为词汇序列串。上下文滑动窗口,是指在上下文环境中,以某一词为中心,向前和向后推进n个字或词,形成一个队列缓存区。通过上下文滑动窗口,考查词的词法层特征,包括局部词、局部词性、局部共现、词类搭配等。若文本为{t1,t2,,tm}m2n 1,t表示文本中的词语,则以词语W为中心窗口建立大小为n的上下文滑动窗口,左窗口LW可表示为LW1,LW2,,LWn,右窗口RW可表示为RW1,RW2,,RWn。由于情感词的修饰词不会超过三个,故文本设定滑动窗口大小为3。在具体抽取与情感词相关的否定词、程度副词时,面对评论中时常出现多个情感词的情况,文本以词性规则锁定某一情感词,然后通过上下滑动算法,对其相关的否定词和程度副词进行抽取,以适应具体特征性抽取环境。1. 情感词、程度副词、否定词和评价对象的抽取在文本中程度副词和否定词为情感词的修饰词语,由于这两类修饰词通常离情感词最近,对情感词有重要影响,因此,文本采用上下文滑动窗口来抽取评论中每一个情感词组合单元时,设定滑动窗口大小的取值为3。具体算法如表3.6所示。
表3.6情感词、程度副词、否定词和评价对象的抽取算法
输入: 话题评论文本集合D={D1,D2,D3,,Dn},词典资源情感词典、程度副词词典、否定词典、评价对象词典,四个标点集合{,,。,!,?}输出: 情感词组合单元集合T及其评价对象集合EO特征抽取算法描述:(1) 循环取出评论DiD(2) 将Di根据标点集合划分为j份评论(3) 根据一般用语习惯,在查找情感词时,从左到右查找情感词。如果Dij评论包含词性为动词或者名词的词语,则通过情感词典进行匹配,假设找到m个情感词,标记位置,获取其权值,并记住每个情感词位置,将第k个情感词标记为EWijk中心(4) 以情感词EWijk为中心抽取程度副词、评价对象过程中,设置以下规则: 如果抽取到程度副词、评价对象,那么抽取相应的特征项结束,接下来抽取其他特征项,或者利用平滑算法抽取,遇到其他情感词则换个方向抽取特征项(5) 以情感词EWijk为中心,在Dijk内抽取程度副词、否定词、评价对象。采用上下文滑动算法,左右距离为3,按照一般用语习惯,从情感词的左到右,使用程度副词词典、否定词典抽取副词AWijk、否定词PNijk,并获取程度副词的权值以及否定词的个数。将Dij的情感组合单元添加到集合Tij中(6) 对Dij抽取评价对象时,结合使用词性规则,设置以下规则: 如果情感词EWijk的词性为动词,则采用上下文滑动算法,从情感词的右到左查找,利用评价对象词典,对词性为名词的评价对象Oijk进行抽取,并获取对应的权值,添加到集合EO中; 如果情感词EWijk的词性为形容词,则采用上下文滑动算法,从情感词的右到左查找,利用评价对象词典,对词性为名词的评价对象进行抽取,并获取对应权值。在对Dij评论内容进行抽取对象时,会遇到两个评价对象或者无评价对象的情况,设置评价对象的选择规则: ①如果以词性为形容词的情感词EWijk为中心,抽取到两个权值极性相反的评价对象时,选择第一个抽取到的评价对象,并将该评价对象Oij添加到集合EO。②如果以词性为动词的情感词EWijk为中心,抽取到两个权值极性相反的评价对象时,选择第二个抽取到的评价对象,并将该评价对象Oij添加到集合EO。③如果以情感词EWij为中心,抽取到两个权值极性一样的评价对象时,选择权值较小的评价对象。④如果在第Dij份评论内容中没有指明评价对象,那么默认其评价对象为第i-1份评论内容中的评价对象。如果i为1,且没有评价对象,那么默认评价对象为话题本身
2. 网络用语的抽取网络用语经过分词后,通过网络用语词典,对分词后的每条评论进行匹配抽取网络用语并得到权值。具体算法如表3.7所示。
表3.7网络用语的抽取算法
输入: 话题评论文本集合D={D1,D2,D3,,Dn},词典资源网络用语词典输出: 网络用语集合NL(1) 循环取出评论D1D(2) 使用网络用语词典匹配D1,抽取网络用语NLi并获取其权值,添加到网络用语集合NL
3. 表情符号的抽取表情符号经过分词后,通过表情符号词典,对分词后的每条评论进行匹配抽取表情符号并得到权值。具体算法如表3.8所示
表3.8表情符号的抽取算法
输入: 话题评论文本集合D={D1,D2,D3,,Dn},词典资源表情符号词典输出: 表情符号集合EM(1) 循环取出评论D1D(2) 使用表情符号词典匹配D1,抽取表情符号EMi并获取其权值,添加到表情符号集合EM
电子商务产品质量话题型评论经过预处理、分词以及词性标注等情感特征项抽取处理后,通过平滑算法、结合词性规则、情感词典三者相结合,以情感词为中心,逐渐提取情感词、否定词、程度副词、评价对象、网络用语等情感特征项。3.2.2语句情感特征权值计算特征权值是指特征词在文本中的权重,也可称为词的向量,是分类器分类的重要依据。本研究使用词频、布尔型Boolean两种权值进行情感分类对比。一般在分词处理完成后就可以计算特征权值,然后特征选择后输入分类器。使用情感词典作为特征选择时,因为分词时可以完成特征选择,所以特征权值计算在特征选择之后进行。该模块的主要功能是计算电子商务产品质量语句的情感倾向值。在情感计算过程中,每条电子商务产品质量语句情感由情感词的情感和表情符号的情感构成。在情感词情感计算中,否定词对情感词存在正反意义的作用,若否定词个数为2a 1个,则用相反意义的词汇替代; 若否定个数为2a,则情感词不变,程度副词对情感词的情感强弱具有增减作用。由于表情符号和情感词一样能体现情感倾向,因此将文字句子的权重取为0.5,表情符号的权重取为0.5。本研究通过改进陈晓东[71]提出的微博情感倾向计算公式,得到每条电子商务产品质量评论的情感值计算公式如下所示:
S=m1(-1)NjCjMj w1Wk s1Oi3.1
其中,m为情感词个数,Mj为该条电子商务产品质量评论中第j个情感词,Cj为修饰情感词Mj的程度副词,Nj为修饰情感词Mj的否定词,w为网络用语个数,s为表情符号个数。本研究将每条电子商务产品质量语句情感值计算结果分为三大类: 正面情感倾向、中立倾向、负面情感倾向。3.2.3电子商务产品质量评论情感倾向计算本研究选取和电子商务产品质量情感有关的特征项,获取每个特征项相应的权值,最后作求和运算,得到每条评论的情感倾向值,从而判断其情感倾向。在情感计算过程中,将每条电子商务产品质量语句情感分为两部分构成: 一部分为文字表述情感; 另一部分为表情符号情感。文字表述情感包括情感词及其修饰词构成的情感和网络用语的情感。表情符号的情感包括表情图片和输入法表情符号。对评论文本进行数据预处理之后,本研究抽取了情感词、否定词、程度副词、评价对象、网络用语、表情符号情感特征项,并通过构建好的词典获取特征项的权值。
本研究对每条话题电子商务产品质量评论,按照标点符号进行分割,假设分割成n个句子,即一条评论Di将会有n个句子Di1,Di2,Di3,,Din,那么评论di的情感值由n个句子的情感值构成,并且在Din内只选择一个评价对象。在情感词情感计算中,否定词对情感词存在正反意义的作用,若否定词个数为2a 1个,则用相反意义的词汇替代; 若否定个数为2a,则情感词不变,程度副词对情感词的情感强弱具有增减作用,评价对象对评论的极性也存在影响。在Dij句子中,1jn,情感词个数为m,网络用语为NLi,表情符号为EMi,评价对象为Oij,情感词为EWij,程度副词为AWij,否定词个数为PNij。Dij句子中第k1kn个情感词情感值的计算公式如下:
WEijk=[-1PNijkAWijkEWijk]3.2
其中,EWijk表示第k个情感词的权值,AWijk表示修饰第k个情感词的程度副词的权值,PNijk表示修饰k个情感词的否定词的个数。Dij句子中文字表述情感值的计算公式如下:
WEij=Oijmk[-1PNijkAWijkEWijk]3.3
其中,Oij表示Dij句子的评价对象,m表示情感词的个数。Di句子文字表示情感值的计算公式如下:
WEi=njOijmk-1PNijkAWijkEWijk
wsNLis3.4
其中,n表示Di分为n个字句,m表示Di句子中表情符号的个数,NLis表示第s个网络用语。本研究认为表情符号和情感词一样能体现情感倾向,因此,将句子中文字表示情感值的权重取为0.5,表情符号的权重取为0.5。每条话题电子商务产品质量评论Di句子的总情感值计算公式如下:
WEi=njOijmk-1PNijkAWijkEWijk wsNLis
zhEMih3.5
3.3电子商务产品质量话题观点识别目前观点句识别的方法主要还是采用机器学习。基于机器学习的方法通过提取观点特征,然后训练分类器,最后得到合适的模型来进行观点识别。这种方法割裂了文本中应有的词语间的相互联系,不够灵活全面,无法应用于复杂和灵活的句子。基于规则的观点识别是对语言的表达习惯进行归纳总结,具有较高的准确率,但是其应用范围有限,并且也不适合大规模文本数据。本研究通过规则判断和机器学习相结合,首先对评论数据集进行观察,根据语言特点,归纳了一些置信度较高的观点判别规则,将明显属于观点句或是属于非观点句的句子提前进行筛选,然后通过机器学习的方法,通过训练分类器将剩余的句子分为观点句和非观点句两类,最终提高观点识别的效率和准确率。3.3.1支持向量机支持向量机Support Vector Machine,SVM是Cortes和Vapnik于1995年首先提出的,在小样本、非线性、高维模式识别问题中,相对于其他算法有较大的优势。并且它是建立在统计学习理论的VC维理论和结构风险最小理论基础上的,寻求最优间隔分类器Optimal Margin Classifier。支持向量机是一种常用的用于二分类的监督式学习方法,其主要思想可以概括为两点:1 它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。2 它基于结构风险最小化理论之上,在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。例如,针对线性问题,使用SVM构建一个简单的线性分类器,用一个简单的二维两类样本分类例子说明,如图3.2所示。
图3.2简单的线性分类
图3.2中间的直线是一个分类函数,它对C1和C2两类样本进行划分。这是一个线性函数,在分类过程中,附加一个阈值,通过判断分类函数的执行结果是大于还是小于这个阈值来确定类别。假设这个函数是gx=wx b,设置阈值为0,若gxi0,则判别为类别C1; 若gxi
|
|