眼前的推送看得津津有味，最后才发现是假新闻，好气啊

图片：Public Domain

自动信息推荐 / 新闻推荐机制，能避免假消息 / 假新闻的传播吗？

付鹏，ML/DL/NLP/推荐系统@今日头条

说一下结论，这个问题在推荐系统，或者邪气一点，叫人工智能层面，是多个问题的集合，而且对其处理和识别技术已经在 APP 中有所应用，但是暂时不能脱离人工。

Facebook 只是给出了一个公关稿，并没有详细说明，但是深挖下去，这个问题的坑深不可测。

假新闻其实有很多种：

很多时候，一篇文章雌雄莫辨，真假混杂。所以一般地，我们更愿意管这类文章叫做低质文章。

以上描述的几个类别，都是低质文章中“内容低质”的典型。低质文章还有“格式低质”，“行文低质”等等，和本题目无关，不做讨论。

对于不同类别的内容低质量文章，可以用不同的方法来进行审查和筛选。

对于空间范围有限的文章：

搞一个分类器加命名实体识别，局限一下推送范围即可。

对于时间范围有限的文章：

首先走分类器，辨别文章的时效属性。然后同数据库文章进行对比，来辨别是否是“旧闻”了。

对于一些真假莫辩的文章，可以说，人类不通过旁征博引和深入思考来证伪的文章，机器是更没办法识别出来的。

如 A 品牌在自己软文里重伤排行榜第一的 B 品牌有质量问题，对消费者不友好。即使 B 品牌在消费者中有口皆碑，机器不知道。

这种问题，文本特征搞不定，我们只能靠协同特征，通过观察用户的评论、顶踩、以及更 strong 的举报，来进行撤下和打压处理。

从机器学习上来讲，这是一类典型的 supervised learning 问题。

而且正负样本分布十分不均匀；

算法的正确性严重依赖样本的好坏；

所以审核人员在这个角度上必不可少。但是他们不会对所有可疑新闻进行审核，他们更大的作用在于给算法提供可靠的和更全面的训练集。

所以审核人员拿到的不是全量的可疑新闻，而是 sample 的一部分新闻。当然如何 sample 新闻以得到高效的训练集，是另一个问题了。