AI可以使用有限的标签数据清除垃圾邮件评论

2019-06-17 12:55:54

评论会影响销售,这是一个众所周知的事实。大约71%的客户表示,在阅读其他人的印象后,他们“更舒服”地购买产品,而88%的客户表示评论会影响他们的购买决策。因此,有一种真正的动机可以减少恶意第三方撰写的垃圾邮件和操纵性评论。幸运的是,哈特曼集团和华盛顿大学的科学家们在这个具有挑战性的领域取得了进展。

在预印本服务器Arxiv.org(“ 用于半监督意见垃圾邮件检测的GAN ”)上发表的一篇论文中,研究人员描述了“spamGAN”,一种生成的对抗网络 - 即由生成样本的生成器组成的两部分神经网络和鉴别器试图区分生成的样本和真实世界的样本 - 从有限的注释和未注释数据语料库中学习。

该论文的作者写道:“意见垃圾邮件是电子商务,社交媒体,旅游网站,[和]电影评论网站中普遍存在的问题。” “意见垃圾邮件发送者试图通过提供影响读者的垃圾评论来利用这些财务收益,从而影响销售。我们认为将垃圾评论识别为分类问题的问题,即,如果进行审核,则需要将其归类为垃圾邮件或非垃圾邮件。“

正如团队所解释的那样,由于预标签数据集的相对缺乏,垃圾邮件评论对于识别来说是一个挑战。因此,该方法依赖于一种称为半监督学习的技术,其中未标记的数据与少量标记数据结合使用以产生学习准确性的提高。

具体来说,spamGAN的生成器组件输出新的句子 - 给定类标签作为输入 - 鉴别器试图将其分类为“真实”(从训练数据集中采样)或伪造(不现实)。其性能用作反馈以改进发电机,具有更好的分类精度,从而获得更多奖励。

在对抗训练之前,研究人员用批量标记的真实句子,未标记的真实句子和假句子预先训练了破坏者。接下来,他们向垃圾邮件发送了80%的评论,这些评论在单词级别上被标记为1,597条评论,其中包括来自TripAdvisor的大约800条“真实”的芝加哥酒店评论以及来自亚马逊机械土耳其人的800条“欺骗性”评论。(剩余的20%用于验证AI模型的性能。)

在每次重复10次的实验中,研究人员表示,垃圾邮件GAN在标签数据有限的情况下优于现有的垃圾邮件检测技术,只需10%的标签数据即可获得71%到86%的准确度(按F1得分衡量)。除了检测垃圾邮件评论之外,垃圾邮件设法生成评论,尽管有一定程度的困惑,例如:“喜欢这家酒店,但我决定酒店在一个企业没有[原文如此]看起来很糟糕... [P] almer房子是任何地方,其他人在评论中说......“

研究人员将实验与其他评论数据集和更复杂的分类器一起留待未来的工作。

“[M]现有的关于意见垃圾邮件(深度学习方法除外)的研究手动识别启发式[和]用于对垃圾邮件行为进行分类的功能; 然而,在我们基于GAN的方法中,这些特征是由神经网络学习的,“他们写道。“[我们相信] spamGAN还可以生成垃圾邮件[和]非垃圾邮件评论......这些评论可用于在实际情况有限的情况下生成合成数据。”