论文解读(SentiX)《SentiX: A Sentiment-Aware Pre-Trained Model for Cross-Domain Sentiment Analysis》
时间:2023-08-15 13:11:02来源:博客园

Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]

论文信息

论文标题:SentiX: A Sentiment-Aware Pre-Trained Model for Cross-Domain Sentiment Analysis论文作者:Jie Zhou, Junfeng Tian, Rui Wang, Yuanbin Wu, Wenming Xiao, Liang He论文来源:论文地址:download论文代码:download视屏讲解:click


(资料图片仅供参考)

1 介绍

出发点:预先训练好的语言模型已被广泛应用于跨领域的 NLP 任务,如情绪分析,实现了最先进的性能。然而,由于用户在不同域间的情绪表达的多样性,在源域上对预先训练好的模型进行微调往往会过拟合,导致在目标域上的结果较差;

思路:通过大规模review数据集的领域不变情绪知识对情感软件语言模型(SENTIX)进行预训练,并将其用于跨领域情绪分析任务,而无需进行微调。本文提出了一些基于现有的标记和句子级别的词汇和注释的训练前任务,如表情符号、情感词汇和评级,而不受人为干扰。进行了一系列的实验,结果表明,该模型具有巨大的优势。

预训练模型在跨域情感分析上存在的问题:

现有的预训练模型侧重于通过自监督策略学习语义内容,而忽略了预训练短语的情绪特定知识;在微调阶段,预训练好的模型可能会通过学习过多的特定领域的情绪知识而过拟合源域,从而导致目标域的性能下降;

贡献:

提出了 SENTIX 用于跨域情绪分类,以在大规模未标记的多域数据中学习丰富的域不变情绪知识;在标记水平和句子水平上设计了几个预训练目标,通过掩蔽和预测来学习这种领域不变的情绪知识;实验表明,SENTIX 获得了最先进的跨领域情绪分析的性能,并且比 BERT 需要更少的注释数据才能达到等效的性能;2 方法2.1 模型框架2.2Sentiment Masking

评论包含了许多半监督的情绪信号,如 情绪词汇、表情符号 和 评级,而大规模的评论数据可以从像 Yelp 这样的在线评论网站上获得。

情绪词汇(Sentiment Words):积极(P),消极(N),其他(0);情感符(Emoticons):经常用于表示用户情感的特殊符号,如(“)”、“(”、“:”、“D”),本文选择语料库中经常出现的 100 个特殊符号作为情感符,并将其标记为 “E”,其他为 “0”;评分(Rating):情绪评分分为 5 个等级;

策略:

Sentiment Word Masking (SWM):为丰富情绪信息,用 30% 的比率掩盖了情绪词;Emoticon Masking (EM):由于一个句子中的表情符号数量相对较少,并且删除表情符号不会影响句子的语义信息,所以为每个句子屏蔽了50%的表情符号;General Word Masking (GWM):如果只关注情感词和表情符号,模型可能会失去其他单词的一般语义信息。因此,使用 [MASK] 并用 15% 的比率替换句子中的一般单词来学习语义信息;2.3 Pre-training ObjectivesSentiment-aware Word Prediction (SWP)将损坏的句子 $\hat{x}$ 输入编码器,获得单词表示 $h_{i}$ 和句子表示 $h_{[C L S]}$,然后计算单词概率 $P\left(x_{i} \mid \hat{x}_{i}\right)=\operatorname{Softmax}\left(W_{w} \cdot h_{i}+b_{w}\right)$。损失函数 $L_{w}$ 是预测概率与真词标签之间的交叉熵:

$\mathcal{L}_{w}=-\frac{1}{|\hat{\mathcal{X}}|} \sum_{\hat{x} \in \hat{\mathcal{X}}} \frac{1}{|\hat{x}|} \sum_{i=1}^{|\hat{x}|} \log \left(P\left(\left|x_{i}\right| \hat{x}_{i}\right)\right)$

Word Sentiment Prediction (WSP)

根据情感知识,把词的情绪分为积极的、消极的和其他的。因此,设计了 WSP 来学习标记的情感知识。我们的目的是推断单词 $w_{i}$ 的情绪极性 $s_{i}$ 根据 $h_{i}$,$P\left(s_{i} \mid \hat{x_{i}}\right)= \operatorname{Softmax}\left(W_{s} \cdot h_{i}+b_{s}\right)$。这里使用交叉熵损失:

$\mathcal{L}_{s}=-\frac{1}{|\hat{\mathcal{X}}|} \sum_{\hat{x} \in \hat{\mathcal{X}}} \frac{1}{|\hat{x}|} \sum_{i=1}^{|\hat{x}|} \log \left(P\left(s_{i} \mid \hat{x}_{i}\right)\right)$

Rating Prediction (RP)

以上任务侧重于学习 Token 水平的情感知识。评级代表了句子级评论的情绪得分。推断评级将带来句子水平的情感知识。与BERT类似,使用最终状态 $h_{[\mathrm{CLS}]}$ 作为句子表示。该评级由 $P(r \mid \hat{x})=\operatorname{Softmax}\left(W_{r} \cdot h_{[C L S]}+b_{r}\right)$ 进行预测,并根据预测的评级分布计算损失:

$\mathcal{L}_{r}=-\frac{1}{|\hat{\mathcal{X}}|} \sum_{\hat{x} \in \hat{\mathcal{X}}} \log (P(r \mid \hat{x}))$

2.4Joint Training  最后,我们共同优化了标记级目标 $\mathcal{L}_{T}$ 和句子级目标 $\mathcal{L}_{S}$。总损失为

$\mathcal{L}=\mathcal{L}_{T}+\mathcal{L}_{S}$

其中:

$\mathcal{L}_{T}=\mathcal{L}_{w}+\mathcal{L}_{s}+\mathcal{L}_{e} $

$\mathcal{L}_{S}=\mathcal{L}_{r}$

3 实验

标签:

生活指南
  • 博德之门3武僧怎么玩 博德之门3武僧加点方案

    博德之门3中的角色有很多种,玩家们的选择方式大都不一样,有的玩家想

  • 视评线丨内部辩论近两年 白宫还是为遏制中国祭了自家企业

    美国总统拜登签署行政令严格限制在三大高科技领域对华投资为此拜登政府

  • 超5亿元!迁安市生活污水处理厂迁建项目--厂区工程工程总承包中标候选人公示

    8月14日,全国公共资源交易平台发布了迁安市生活污水处理厂迁建项目--

  • 地方志书每几年左右编修一次啊_地方志书每几年左右编修一次

    你们好,最近小活发现有诸多的小伙伴们对于地方志书每几年左右编修一次

  • 曲阜师范大学复现韩国室温超导体实验结果公布:无零电阻特性

    图片来源:界面新闻曲阜师范大学复现韩国抗磁性材料LK-99的实验结果出

  • 广东将大力发展涉外法律服务业

    本报广州8月2日电(记者贺林平)粤港澳大湾区高质量发展离不开法治护航,

  • 【港股通】电讯盈科(00008)中期亏损4.86亿港元 同比扩大约452% 派中期息每股9.77港分

    电讯盈科(00008)公布截至2023年6月30日止六个月的中期业绩公告。期内,

  • 裴旭芳吸脂怎么样?双眼皮也拿手!坐诊南京华美且是院内人气专家!

    一、裴旭芳医生个人简介:裴旭芳医生是从事整形行业有很多年的一位专家

  • 中国“村赛”激活乡村经济新活力

    去年7月至今,贵州台江“村BA”和榕江“村超”先后出圈,火遍全网。

  • 等了2年,寡姐携新作回归,我要狠刷三遍

    「寡姐」离开漫威,已经两年了。这两年,她没有一部主演新片上映。直到

  • 中信证券:看好矿区自动驾驶商业化落地的可行性以及未来行业发展的成长性

    中信证券8月3日研报指出,随着矿区自动驾驶头部玩家无安全员常态化运行

  • [快讯]山高环能797万限售股8月7日解禁

    山高环能(股票代码:000803)在2023年08月07日新增可售A股797 9694万

  • 学习困难门诊让“学渣”成“学霸”? 基本信息讲解

    大家好,今日关于【学习困难门诊让“学渣”成“学霸”?】的话题登上了

  • 幽閉サテライト,月に叢雲華に風(原曲Last Remote),日文+罗马音

    月(つき)には叢雲(むらくも)華(はな)には風(かぜ)とtsukiniwam

  • 储军担任华安证券董事会秘书

    8月2日晚间,华安证券发布公告称,2023年8月2日,公司召开第四届董事会

  • 两部门下达资金4.32亿元支持河北等地做好水旱灾害应对和灾后农业生产恢复工作

    纵览客户端讯 近日,财政部、农业农村部安排农业生产防灾救灾资金4

  • 民生
    • 霍英东孙女体验农村生活,踩泥地里不嫌脏,打扮朴素豪门清流

    • 什么是“UUUUUUUUU”碱基序列的“三联性”?

    • 书评|寻绎丹青世界里的《红楼梦》义理 ——读夏薇的《文本与视觉:〈红楼梦〉人物图鉴》

    • 夏威夷“史无前例”大火的背后 美国在气候治理方面反复横跳