Instagram的DeepText是如何识别出负面评论的

更新时间：2017-07-07 14:08:55 点击次数：2832次

每个词在单独隔离时都至少有一个意思。但是，这个意思可能随着上下文环境甚至是时间的推移而改变。由中性词语构成的句子可能饱含敌意，比如“只有白人拥有权力”；同样地，貌似粗鲁的句子可能会在语境中表示中性的语意，比如这句“Fuck what, fuck whatever y’all been wearing”，它其实只是Kanye West的一句歌词而已。

通常人类都很善于分析这些语法，但机器就没那么轻松了。去年六月，Facebook推出一款文本分类引擎DeepText，帮助机器根据上下文情境解释单词。

DeepText采用了“词汇嵌入”的概念，模仿人脑语言区的工作方式。当系统遇到新单词时会像人类一样思考，并试图从上下文的其他单词推断含义，从而达到为评论分类并阻拦垃圾邮件的效果。

DeepText是用作内部沟通而开发出来的，它可以让Facebook的工程师快速整理大量的文本，创建分类规则，然后开发产品来帮助用户。

在了解了DeepText的强大功能之后，2012年被Facebook收购的instagram的高管们仿佛看到了一个机会，来应对instagram面临的一个非常棘手的问题:垃圾邮件。人们使用Instagram是为了拍摄照片，但是由于有人老是发微商广告，有人求互粉，还有人只是没完没了地重复“succ”这个词，很多人会选择不用instagram。

Instagram的步是招聘一组男性和女性，对平台上的评论进行分类，确定是不是垃圾邮件。人类训练机器来完成单调甚至是令人沮丧的任务，但是机器终会做得更好。

在受聘人员整理了大量的垃圾邮件后，四分之三的数据被输入到DeepText中。然后，Instagram的工程师们开始创建算法，试图对垃圾邮件进行分类。系统分析了每句话的语义，并把来源考虑进去。

然后，这些算法利用了五分之一的数据进行测试以观察机器与人类的匹配程度，这些测试数据并没有输入到DeepText。终，Instagram对这一结果感到满意，该公司于去年10月悄然推出了这款产品。随着算法的运行，垃圾邮件逐渐消失。

Instagram不会透露该工具减少了多少垃圾邮件，也不会揭秘该系统是如何运作的。因为向一个垃圾邮件发送者展示你的防御能力，他们会想出如何反击。但Kevin Systrom（Instagram的CEO）还是很高兴的。

事实上，他如此高兴以至于他决定了将DeepText应用到一个更复杂的问题上使用:消除负面评论。或者，更具体地说，消除那些违反Instagram社区准则的评论，或者再具体地说，正如该公司的一位发言人所说，“in spirit”。他说这些准则就像是为社会媒体平台制定的宪法。Instagram发布了一个1200字的公开版本，公开要求人们永远尊重他人，并且拥有一种更长的私人设置，员工可以使用它作为指导。

另外一个受聘团队开始工作。一个人查看评论，并确定是否符合准则。如果不符合，他就会将其归类为一种类似于欺凌、种族主义或性骚扰的行为。评分者都至少是双语者，他们分析了大约200万条评论，每条评论至少被评为2次。

训练后的DeepText可以将这些评论分为“霸凌”“种族歧视”“性骚扰”等类别。在本系统上线前，评估人员至少用了200多万条评论让它进行学习，而每一条评论至少学习两次，来保证系统的准确性。

目前系统仅能处理英语评论，但Instagram计划将垃圾消息过滤器扩展到9种语言，包括英语、西班牙语、葡萄牙语、法语、德语、日语、俄语、阿拉伯语和汉语。也就是说，它将会被更广泛地应用。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责，本站只提供参考并不构成任何投资及应用建议。本站是一个个人学习交流的平台，网站上部分文章为转载，并不用于任何商业目的，我们已经尽可能的对作者和来源进行了通告，但是能力有限或疏忽，造成漏登，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

上一篇：揭秘 DeepMind 的关系推理网络
下一篇：WebAssembly 系列（二）：JavaScript Just-in-time (JIT) 工作原理

Instagram的DeepText是如何识别出负面评论的

沙克云

定制

关于