眼前的推送看得津津有味,最后才发现是假新闻,好气啊

知乎日报 付鹏 151℃ 评论

眼前的推送看得津津有味,最后才发现是假新闻,好气啊

图片:Public Domain

自动信息推荐 / 新闻推荐机制,能避免假消息 / 假新闻的传播吗?

付鹏,ML/DL/NLP/推荐系统@今日头条

说一下结论,这个问题在推荐系统,或者邪气一点,叫人工智能层面,是多个问题的集合,而且对其处理和识别技术已经在 APP 中有所应用,但是暂时不能脱离人工。

Facebook 只是给出了一个公关稿,并没有详细说明,但是深挖下去,这个问题的坑深不可测。

假新闻其实有很多种:

  • 违反客观事实的假新闻:《八旬老叟和八旬老妇竟然生出一个黑人宝宝》
  • 极大夸大其词的文章:《一米八大长腿,北美女神范这样养成》,打开看其实是凤姐的自拍照
  • 本来是真新闻,过了时效性仍在流出,变成了假新闻:天气预报本来说今天有雨,结果晴空万里 ——结果天气预报是两年前今天的天气预报
  • 掺杂假消息的真文章,常见于各种收钱软文,替雇主说话的同时编造事实中伤对手
  • 范围传播有限的新闻,若推送给了非范围内的用户,也可以视作假新闻:《人民大街今早八点至晚六点停水》

很多时候,一篇文章雌雄莫辨,真假混杂。所以一般地,我们更愿意管这类文章叫做低质文章。

以上描述的几个类别,都是低质文章中“内容低质”的典型。低质文章还有“格式低质”,“行文低质”等等,和本题目无关,不做讨论。

对于不同类别的内容低质量文章,可以用不同的方法来进行审查和筛选。

对于空间范围有限的文章:

搞一个分类器加命名实体识别,局限一下推送范围即可。

对于时间范围有限的文章:

首先走分类器,辨别文章的时效属性。然后同数据库文章进行对比,来辨别是否是“旧闻”了。

对于一些真假莫辩的文章,可以说,人类不通过旁征博引和深入思考来证伪的文章,机器是更没办法识别出来的。

如 A 品牌在自己软文里重伤排行榜第一的 B 品牌有质量问题,对消费者不友好。即使 B 品牌在消费者中有口皆碑,机器不知道。

这种问题,文本特征搞不定,我们只能靠协同特征,通过观察用户的评论、顶踩、以及更 strong 的举报,来进行撤下和打压处理。

从机器学习上来讲,这是一类典型的 supervised learning 问题

而且正负样本分布十分不均匀;

算法的正确性严重依赖样本的好坏;

所以审核人员在这个角度上必不可少。但是他们不会对所有可疑新闻进行审核,他们更大的作用在于给算法提供可靠的和更全面的训练集。

所以审核人员拿到的不是全量的可疑新闻,而是 sample 的一部分新闻。当然如何 sample 新闻以得到高效的训练集,是另一个问题了。

转载请注明:微图摘 » 眼前的推送看得津津有味,最后才发现是假新闻,好气啊

喜欢 (0)or分享 (0)
发表我的评论