基于无监督域适应分类的引文情感分析

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:wanghuaimin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
引文情感分析是从极性和功能两方面分析引文,进而深入挖掘被引文献和施引文献之间的内在关联。引文是施引文献的作者对被引文献所做工作的相关描述语句。基于机器学习的情感分析主要是将其转换为一个分类问题,即情感分类。本文把引文的极性分析和引文的功能分析都视为自动化分类任务,即通过训练分类器来预测每条引文数据对应的极性或功能类别。自动化分类现有的方法主要集中在有监督的分类方法,这类方法需要有大量标签的数据。由于现有的有标签的引文数据量少且人工标注语料的成本高,因此需要开发对有标签语料需求量少的分类方法。本文提出基于无监督域适应的分类方法对分别引文的极性和功能分类。无监督域适应的思想是在目标域数据完全无标签的情况下学习源域和目标域之间的映射,适用于对标签语料需求量少的情况。本文提出的分类方法根据无监督域适应的思想引入领域对抗的概念来学习源域和目标域之间的映射。引文的极性分析是对引文的情感倾向性或态度分析,在本文中分为正向、负向和中立三类。本文将现有的计算机语言学领域中的有标签的引文数据作为源域,待分类的目标域是生物医学领域的无标签引文数据。该自动化分类方案使得引文极性分类的准确率提升到90%。引文的功能分析是识别施引文献引用被引文献的动机和目的。本文提出一个10种类别的引文功能方案,主要是加入敷衍这一类别,并根据该方案人工标注引文的功能标签。引文功能的自动化分类同样使用无监督域适应的分类方法。由于大多数现有研究只关注极性分析或者功能分析,却忽略了两者之间的内在关联。本文提出引文功能到极性的映射关系的设想,经实验证明设想是合理的。本文提出的无监督域适应分类方法经过引文的极性和功能两组分类实验证明是有效和可行的。通过对引文的极性和功能进行分析,能够深入挖掘施引文献和被引文献之间的潜在关联,是学术文本挖掘的基础性工作。
其他文献
21世纪是一个移动互联网高速发展的时代,智能手机在人们日常生活中已不可缺少,甚至已经在变成移动办公工具,这导致手机有可能存储大量的文件信息。智能手机正成为继计算机和
髓细胞组织增生蛋白(Myelocytomatosis proteins,MYC)类转录因子,是植物激素茉莉酸(Jasmonic acid,JA)响应途径中的激活转录因子,广泛存在于动植物中。MYC2转录因子属于bHLH类转录因子家族,是当前MYC类转录因子中研究最透彻的一个。随着对植物抗生物逆境不断深入研究,MYC2参与防御的功能被不断报道。在对咀嚼式口器昆虫的研究中发现外源脱落酸(Abscisi
网络社区结构是复杂网络的一个显著特征,社区发现能够帮助人们探索网络的功能结构和动力学特性,并基于此开展典型应用研究。已有的大多数社区发现算法倾向于将网络划分为完全
近年来,随着信息技术的迅猛发展,人们对图像质量的要求也越来越高,这造成了信号采样、传输和存储的巨大压力,从而如何缓解这种压力又能有效提取承载在信号中的有用信息成为信
深圳是我国最先探索和实施住房保障的城市。20多年来,深圳市在扩大住房保障范围、创新保障性住房供应模式和管理制度、实现住房保障与人口、环境和产业发展相协调等方面取得
双螺旋输送机是一种很有前景的物料输送及混合机械,广泛应用于现代工业生产运输过程,一般适用于化工、建材、机械制造、煤炭、食品、医疗等行业。现今阶段国内外多以单螺杆输送机为研究对象,而双螺杆输送机与单螺杆输送机相比,由于多了一个螺杆作用,导致内部颗粒之间的碰撞冲击更加复杂,其中两螺旋叶片轴距的相互作用,对颗粒的输送特性影响较大。双螺杆输送机和单螺杆输送机两者虽然有一定的相似性,但在输送效率,受力和磨损
常言道:一图胜千言。说的是图像小而简单,但是形态万千,一个小小图像承载了大量的信息,而用文字表述较为抽象,而且生涩难懂。近年来,伴随网络技术的发展和数字多媒体技术的广
传统的光纤、卫星等传输稳定、信号质量高,在广播传输系统中发挥了巨大作用,但其传输灵活性差与系统造价高等缺点也限制了广播传输系统的发展。而随着流媒体技术的迅猛发展,
采用类岩石制备了不共面非贯通节理岩体试样,采用RMT-301岩石与混凝土力学实验系统进行模型试验,采用数值软件模拟不共面非贯通节理岩体剪切行为。对共面非贯通节理岩体的变形、强度、破坏机制以及裂纹扩展贯通形式进行了研究。主要研究成果如下:(1)基于岩石性质和相似材料选取原则,以海螺牌复合型硅酸盐水泥325R作为胶结材料,以筛分后级配连续的七眼砂作为颗粒骨料,按照质量配合比砂子:水泥:水=3:2:1制
数字图像作为一种重要的传输介质,已经成为信息时代人们获取信息的极其重要的来源方式。与此同时,随着计算机处理能力的不断提高和图像信息处理在当今信息社会中的需求越来越