删文机制的技术讨论

本文包含虚构,如有雷同,也许有巧合。主要讨论相关技术,读者请勿过度联想。 前两天,在某国某知名 app 上,大量网友使用不同方式接力转发一篇“发勺子的人”。然而无论网友用什么办法,图片、竖排、旋转还是译成其它语言,都旋发旋禁。之后有一篇评述此事件的文章“今天是XXXX诞生以来最荒谬的一天”广为流传。 关于此事,解读很多,其中不乏有大胆创新、思路开阔、老成谋国、演绎非凡的观点。我等既不大胆,也没有思路,年纪不老,更没有多少演绎能力,所做出的推测,原本是最无足奇的。不揣冒昧,以飨读者。 据野叟村言,某知名 app 长期与某某、某某知名学府合作,效唐朝大案牍术遗智,建造了一套“‘威行’风闻系统”。无论什么文章、图片,皆可实时显示其传播踪迹。使用机器学习技术,深入分析造成舆情的文章的文字特征与传播规律。 根据这套系统训练学习的结果,某些用户向来最喜欢分享某类文章;某些文章如果在初期具有某种传播趋势(比如被看到之后转发率极高),就很可能大规模传播。布希大统领有言“先发制人”。待到舆情形成,就已经晚了。这套系统可以在不识别文章内容的情况下,仅从文章传播规律分析,就预判内容是否可能造成舆情,予以预防性封禁,待人工审核定夺。比爱国者导弹什么的高到不知哪里去了。 以多种形式被传播的“发勺子的人”一文,就因读者一见即转,屡屡触发自动封禁。追究起来,只是机器系统的一次日常作业。人工审核者们只是系统的一个螺丝钉,滥放文章或许有责任,滥封文章集体无责任,看到机器系统报上来的文章,自然本着“应封尽封”的生存精神,一律拿下。所有网友殚精竭虑创作的图片艺术,只增加了他们几秒钟的工作量,就变成了晚间“今日舆情分析报告”里的一个数字。 有司根据“今日舆情分析报告”下令对此类消息一律放行,已经是几小时之后的事情了。“今天是XXXX诞生以来最荒谬的一天”就在这个时候发出,因而尽管转发众多,完全没有被删的迹象。 某计算机安全专家表示,这套基于传播规律的封禁系统虽然对于内容不敏感,封禁效率高,开销少,但仍然存在可被攻击的弱点。该专家构造弱点如下:假定存在一种机制,使得每个读者在转发时重新构造一条与原消息哈希摘要不同的消息,则该系统将无法追踪内容的转发,自然无法工作。当然,仅仅在转发时扰乱消息是不够的,消息必须在转发过程中保持人类可读。 对于这种攻击,假定消息以图片形式发出,有几种可能的实现方法。 图片添加随机扰动。在消息中醒目标示请读者在转发之前访问某网站以获取新的随机扰动图片。此种攻击的缺点在于,用于生成新图片的网站是其薄弱环节。 图片添加伪随机扰动,随机数种子在图片中附上。用户端安装软件自动解出随机数种子,反卷积得到原始图片,二次加扰后将新随机数种子附在新图片中发出。此种攻击的缺点在于,封禁系统一方得到这套算法后就可以轻易破解。 理想情况下,构造一种添加随机扰动的方法,在无穷多次添加扰动之后,信息仍然可读。目前还不知道有这种算法,它也许是存在的。 不可逆伪随机扰动。使用一种算法构建一组 mask:m1、m2、m3 乃至于 mN。N足够大,足够所有人转发使用。得到一张被 mask 的图片之后,并不知道 mask 本身是什么,也无法解出原图片,但可以依特定算法算出被 m(n+1) 所 mask 后的图片是什么。每个用户收到图片之后,向前迭代任意步后转发即可。这个的构造并不难,留给读者做思考题。因为 N 足够大,所以封禁系统一方不可能遍历所有可能 mask 并生成其哈希摘要。