订阅
纠错
加入自媒体

谁在椭圆形办公室发推:机器学习揭露川普推文的真实作者

一个小游戏

让我们玩一个小游戏。我会提供一条推特,你来猜猜作者是谁?

发推的是川普本人,还是他的一个助手?

别向下滚动太多,以免不小心看到答案!现在是第一条;谁写的,川普还是他的一个助手?

译者注:推特显示的是译者所在时区(东八区),换算到川普所在的华盛顿特区时间(西五区)需要减去13小时

这条比较简单。这条推文使用了单词“via”,明显指示了这是助手所发。它包含一个链接,另一个助手发推的迹象。它是在一天中午发布的,它很正式,不带感情:一切都指向助手。

是的,你猜对了,这条推是助手所发!好,再来一条:

这是川普所发,还是助手所发?同样,让我们综合一切迹象。这一条推文包含了更多感情,通常这是川普的标记。推文里有一个感叹号:这是川普的调调。记得换算时间,时间是6:30pm,工作日差不多结束了。所以,我们可以自信地猜测这条推文的作者是……

川普!是的,又猜对了!

关于弗林的推文

下面是一条重磅推文,整个项目就是因这条推文而起:

这条推文发布于2017年3月26日之后,如果你没忘记的话,这意味着这条推文没有真正发布者的标签。只能寄希望于我的模型了。事实上,这条推文的作者不怎么好猜。它包含“lied”、“guilty”、“shame”、“hide”这样饱含感情的单词——这可能显示川普是作者。另一方面,它又比较正式;语法很规整,同时包含一些超过平均长度的单词:这些又是助手代笔的迹象。它是在中午时刻发布的,又一个助手代笔的暗示。但它又很个人化,暗示是川普。那么我们的模型怎么看?

rf [ 0.23884372  0.76115628]ab [ 0.49269671  0.50730329]gb [ 0.1271846  0.8728154]knn [ 0.71428571  0.28571429]nb [ 0.11928973  0.88071027]gnb [ 0.9265792  0.0734208]lr [ 0.35540594  0.64459406]rf [1]ab [1]gb [1]knn [0]nb [1]gnb [0]svc [1]svm [0]lr [1]([1], [ 0.15384615,  0.84615385])

“rf”代表随机森林,它预测1,也就是川普,概率为76%(前7行显示概率,第一项为助手,第二项为川普;接下来9行显示预测:0表示助手,1表示川普)。“ab”是AdaBoost,同样预测川普,但是概率是51%对49%——一点也不自信。梯度提升模型更自信,87%的可能是川普。不过KNN并不赞同:71%的可能是助手。多项朴素贝叶斯预测川普,高斯朴素贝叶斯却预测助手。两种支持向量机器模型的意见也不一样:SVC预测川普,SVM预测助手(由于这两个模型构建的方式,它们无法输出概率估计,这是上半部分不包括它们的原因)。逻辑回归比较中庸,64%的可能是川普,36%的可能是助手。也就是说,6个模型预测川普,3个模型预测助手。

事实上,在花费数周事件阅读和分析数以千计的川普推文之后,我认为这条推文是一个协作撰写的最佳样本。从主题和情感的角度分析,它是100%的川普式推文。但从风格和语法的角度分析,它看起来又像是来自一个助手。在我看来,川普大概和多德一起起草了这条推文。川普告诉多德他想说什么,他想怎么说,然后多德实际编写了推文。这是我的最佳猜测。

这显示了这些模型并不是完美的,有不少不一致的地方;同时推文包含的信息对训练机器学习模型而言太少了。我最终的集成模型,在测试集上达到99%精确度的决策树,给出的最终预测是川普,概率为85%(上面的代码中的最后一行)。所以这就是我们最终的答案:川普。不是约翰·多德,川普的律师。所以他们声称是多德而不是川普写了那条推文,我们只能设想这是:

假新闻
<上一页  1  2  3  4  
声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号