人工智能的训练算法以发现网上喷子

2020-01-10 14:07:43　来源： INeng财经

加州理工学院的研究人员已经证明，机器学习算法可以监控在线社交媒体的对话，随着它们的发展，这可能有一天会导致一种有效和自动化的方式来发现在线漫游。

该项目将人工智能（A I）研究人员Anima Anandkumar、计算和数学科学Bren教授和政治学教授MichaelAlvare z合在一起。他们的工作于12月14日在2019年在加拿大温哥华举行的神经信息处理系统会议上提交了AI社会良好讲习班。他们的研究团队包括博士后学者刘安琪、加州理工学院大三学生玛雅·斯里坎特和尼古拉斯·亚当斯-科恩（MS‘16，博士）。斯坦福大学博士。

阿尔瓦雷斯说：“这是我所热爱的关于加州理工学院的东西之一：能够弥合界限，发展社会科学和（在这种情况下）计算机科学之间的协同作用。

防止网上骚扰需要快速发现攻击性、骚扰性和负面的社交媒体帖子，这反过来又需要监控在线互动。目前获取这类社交媒体数据的方法要么完全自动化，不可解释，要么依赖于一组静态的关键词，这些关键词很快就会过时。斯里坎特说，这两种方法都不是很有效。

她说：“让人类尝试手工完成这项工作是不可扩展的，而这些人类可能有偏见。另一方面，关键词搜索也受到在线对话发展速度的影响。新的术语出现了，旧的术语改变了意义，所以一个被真诚地使用的关键词可能意味着第二天的讽刺。

相反，该团队使用GloVe（全球向量的Word表示）模型来发现新的和相关的关键字。GloVe是一个词嵌入模型，意思是表示向量空间中的词，其中两个词之间的“距离”是衡量其语言或语义相似性的尺度。从一个关键词开始，这个模型可以用来找到与该词密切相关的其他关键词，以揭示实际使用的相关术语的集群。例如，在Twitter上搜索“MeToo”在对话中的用途，就会产生一系列相关的标签，如“支持幸存者”、“ImWithHer”和“NotSilent”。这种方法为研究人员提供了一个动态的、不断发展的关键字集来搜索。

但仅仅知道某一段对话是否与感兴趣的话题有关是不够的；上下文很重要。为此，GloVe显示了某些关键字的关联程度，为它们的使用提供了投入。例如，在专门针对厌恶女性的在线Reddit论坛中，“女性”一词与“性”、在推特上有关#MeToo运动的帖子中，“女性”一词更有可能与“公司”、“欲望”和“受害者”等词联系在一起。“

这个项目是一个概念的证明，旨在有一天给社交媒体平台一个更强大的工具来发现在线骚扰。Anandkumar参与了将神经信息处理系统会议的简写名称从最初的首字母缩写“NIPS”改为“NeuriIPS”的活动，从而使她对这个话题的兴趣更加浓厚。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签：