窥视假新闻探测器的引擎盖

发布日期：2019-02-08 浏览次数：93

麻省理工学院研究人员在自动化假新闻检测系统的引擎下开展了新工作，揭示了机器学习模型如何捕捉事实和虚假故事语言的微妙但一致的差异。该研究还强调了假新闻探测器应如何进行更严格的测试，以便对实际应用有效。

在2016年总统大选期间，美国作为一个概念被普及，假新闻是一种误导读者的宣传形式，以便在网站上产生观点或引导公众舆论。

窥视假新闻探测器的引擎盖

几乎与问题成为主流一样快，研究人员开始开发自动化假新闻检测器 - 所谓的神经网络，从大量数据“学习”，以识别指示虚假文章的语言线索。鉴于要评估的新文章，这些网络可以以相当高的准确度，在受控制的环境中将事实与虚构分开。

然而，一个问题是“黑匣子”问题 - 这意味着没有人知道网络在训练期间分析的语言模式。他们还接受了相同主题的培训和测试，这可能会限制他们推广到新主题的潜力，这是分析互联网新闻的必要条件。

在会议和神经信息处理系统研讨会上发表的一篇论文中，研究人员解决了这两个问题。他们开发了一种深度学习模型，学习如何检测虚假和真实新闻的语言模式。他们的部分工作“打开”黑匣子，找到模型捕获的单词和短语，以进行预测。

此外，他们在训练中没有看到的新主题上测试了他们的模型。这种方法仅基于语言模式对单个文章进行分类，语言模式更接近地代表新闻阅读器的真实世界应用程序。传统的假新闻检测器基于文本结合源信息对文章进行分类，例如维基百科页面或网站。

“在我们的案例中，我们想要了解仅基于语言的分类器的决策过程是什么，因为这可以提供关于假新闻语言的见解，”共同作者Xavier Boix说，他是实验室的博士后Eugene McDermott教授Tomaso Poggio教授在脑与认知科学系(BCS)的脑，脑与机器中心(CBMM)。

“机器学习和人工智能的一个关键问题是你得到答案而不知道你为什么得到这个答案，”研究生和第一作者Nicole O'Brien '17说。“展示这些内部工作是迈向了解深度学习假新闻探测器可靠性的第一步。”

该模型识别出在真实或虚假新闻中更频繁出现的词汇集合 - 有些可能是显而易见的，有些则更为明显。研究人员表示，研究结果表明，虚假新闻中的微妙但一致的差异 - 有利于夸张和最高级 - 以及真正的新闻，更倾向于保守的词语选择。

“假新闻是对民主的威胁，”Boix说。“在我们的实验室中，我们的目标不仅仅是推动科学发展，而且还要利用技术来帮助社会......为用户或公司提供工具来评估新闻是假的还是假的，这将是强大的。不。”

该论文的其他合着者是CBMM的本科学生Sophia Latessa;和Georgios Evangelopoulos，CBMM的研究员，麦戈文脑研究所和计算与统计学习实验室。

限制偏见

研究人员的模型是一个卷积神经网络，训练假新闻和真实新闻的数据集。对于培训和测试，研究人员使用了一个名为Kaggle的流行假新闻研究数据集，其中包含来自244个不同网站的大约12,000个假新闻样本文章。他们还编制了一份真实新闻样本的数据集，其中使用了纽约时报的2,000多份和“卫报”的9,000多份。

在训练中，模型将文章的语言捕获为“单词嵌入”，其中单词表示为向量 - 基本上是数字数组 - 具有相似语义含义的单词更紧密地聚集在一起。在这样做的过程中，它捕获了三元组的单词作为提供某些背景的模式 - 例如，对政党的负面评论。给定一篇新文章，模型会扫描文本中的相似模式，并通过一系列图层发送它们。最终输出层确定每个模式的概率：真实或假。

研究人员首先使用相同的主题以传统方式训练和测试模型。但他们认为这可能会在模型中产生一种固有的偏见，因为某些主题往往是虚假或真实新闻的主题。例如，假新闻故事通常更可能包括“特朗普”和“克林顿”等字样。

“但这不是我们想要的，”奥布莱恩说。“这只是显示了在假新闻和真实新闻中强烈加权的话题。我们希望找到用于指示那些的语言的实际模式。”

接下来，研究人员在不提及“特朗普”一词的情况下对所有主题进行了模型训练，并仅对样本中的模型进行了测试，这些样本已经从训练数据中删除，并且确实包含“特朗普”一词。虽然传统方法的准确率达到93%，但第二种方法的准确率达到了87%。研究人员表示，这种精确性差距突出了使用培训过程中提出的主题的重要性，以确保模型能够将所学知识概括为新主题。

需要更多的研究

为了打开黑匣子，研究人员接着回顾了他们的步骤。每当模型对单词三元组进行预测时，模型的某个部分就会激活，具体取决于三元组是否更可能来自真实或虚假的新闻故事。研究人员设计了一种方法，将每个预测回溯到指定的部分，然后找到使其激活的确切单词。

Boix说，需要更多的研究来确定这些信息对读者的有用程度。将来，该模型可能会与自动事实检查器和其他工具相结合，为读者提供打击错误信息的优势。经过一些改进后，该模型还可以作为浏览器扩展或应用程序的基础，以提醒读者潜在的虚假新闻语言。

“如果我只是给你一篇文章，并在阅读时突出文章中的那些模式，你可以评估这篇文章是否或多或少是假的，”他说。“这有点像警告说，'嘿，也许这里有一些奇怪的东西。'”