我早期的研究兴趣是数据挖掘和机器学习领域。大约在 2000 年,我开始对使用文本数据的 Web 挖掘和机器学习感兴趣。这两个主题引导我找到了网上的文本。人们自然会想到评论,因为它们重点突出且组织良好,这对于数据挖掘非常有用。我也很快意识到情感分析本身就是一个完美的研究问题(由于我的数据挖掘背景,我将其称为观点挖掘)。它有如此多的应用,每个个人和组织都需要意见来做出决策。还有一系列具有挑战性的研究问题尚未被自然语言处理或语言学界解决。我们从 2003 年开始致力于这方面的工作,并在 KDD-2004(ACM SIGKDD 国际知识发现和数据挖掘会议)上发表了我们的第一篇论文。论文基本定义了基于特征或方面的情感分析和观点总结的框架,目前在业界和研究中得到广泛应用。 汤姆:虚假网站评论是一种有趣的应用程序,我一直在关注它。我注意到《纽约时报》最近报道了您在这方面的一些工作。
这种类型的文本分析研究似乎比大多数人想象的要困难得多。您能否从文本分析的角度告诉我们一些关于这个问题的信息,以及它与识别垃圾邮件等更简单的用例有何不同? Bing:确实,这是一个非常困难的问题。我的团队在 2006 年或 2007 年左右开始研究这个问题,因为我们 巴拿马电话号码表 意识到这是一个重要的问题,并且会变得越来越重要。当我们开始做的时候,我们发现这真的很难。主要困难在于,手动识别虚假评论即使不是不可能,也是非常困难的,因为制作虚假评论并将其冒充真实评论相当容易。垃圾邮件检测是一个更容易的问题,因为当您看到垃圾邮件时,您会立即识别出垃圾邮件。这意味着垃圾邮件和非垃圾邮件具有明显的差异,并且很容易为机器学习算法生成训练数据,以便生成预测模型并评估模型。 但对于假评论,如果写得很仔细,光看评论文字是很难识别出来的。

在极端情况下,这在逻辑上是不可能完成的任务。例如,人们可以为一家好餐厅撰写真实评论,并将其发布为一家差餐厅的虚假评论,以宣传差餐厅。如果不考虑评论文本本身之外的信息,就无法检测到该虚假评论,因为一条评论不可能同时是真实的和虚假的。 汤姆:您认为此类研究的一些应用是什么? Bing:评论托管网站或任何一般社交媒体网站都希望他们的评论和用户评论是值得信赖的。因此,他们对虚假评论检测算法感兴趣。所有使用评论或任何意见数据的文本分析系统也需要担心这个问题。社交媒体将继续存在。它的内容也越来越多地在应用程序中使用。 必须采取措施确保这一宝贵信息来源的完整性,以免其充满虚假观点、谎言和欺骗性信息。毕竟,企业和个人有强烈的动机为了利润和名誉而发布虚假评论。这样做既简单又便宜。