誰在橢圓形辦公室發(fā)推:機器學(xué)習(xí)揭露川普推文的真實作者
一個小游戲
讓我們玩一個小游戲。我會提供一條推特,你來猜猜作者是誰?
別向下滾動太多,以免不小心看到答案!現(xiàn)在是第一條;誰寫的,川普還是他的一個助手?
這條比較簡單。這條推文使用了單詞“via”,明顯指示了這是助手所發(fā)。它包含一個鏈接,另一個助手發(fā)推的跡象。它是在一天中午發(fā)布的,它很正式,不帶感情:一切都指向助手。
是的,你猜對了,這條推是助手所發(fā)!好,再來一條:
這是川普所發(fā),還是助手所發(fā)?同樣,讓我們綜合一切跡象。這一條推文包含了更多感情,通常這是川普的標(biāo)記。推文里有一個感嘆號:這是川普的調(diào)調(diào)。記得換算時間,時間是6:30pm,工作日差不多結(jié)束了。所以,我們可以自信地猜測這條推文的作者是……
川普!是的,又猜對了!
關(guān)于弗林的推文
下面是一條重磅推文,整個項目就是因這條推文而起:
這條推文發(fā)布于2017年3月26日之后,如果你沒忘記的話,這意味著這條推文沒有真正發(fā)布者的標(biāo)簽。只能寄希望于我的模型了。事實上,這條推文的作者不怎么好猜。它包含“l(fā)ied”、“guilty”、“shame”、“hide”這樣飽含感情的單詞——這可能顯示川普是作者。另一方面,它又比較正式;語法很規(guī)整,同時包含一些超過平均長度的單詞:這些又是助手代筆的跡象。它是在中午時刻發(fā)布的,又一個助手代筆的暗示。但它又很個人化,暗示是川普。那么我們的模型怎么看?
rf [ 0.23884372 0.76115628]ab [ 0.49269671 0.50730329]gb [ 0.1271846 0.8728154]knn [ 0.71428571 0.28571429]nb [ 0.11928973 0.88071027]gnb [ 0.9265792 0.0734208]lr [ 0.35540594 0.64459406]rf [1]ab [1]gb [1]knn [0]nb [1]gnb [0]svc [1]svm [0]lr [1]([1], [ 0.15384615, 0.84615385])
“rf”代表隨機森林,它預(yù)測1,也就是川普,概率為76%(前7行顯示概率,第一項為助手,第二項為川普;接下來9行顯示預(yù)測:0表示助手,1表示川普)。“ab”是AdaBoost,同樣預(yù)測川普,但是概率是51%對49%——一點也不自信。梯度提升模型更自信,87%的可能是川普。不過KNN并不贊同:71%的可能是助手。多項樸素貝葉斯預(yù)測川普,高斯樸素貝葉斯卻預(yù)測助手。兩種支持向量機器模型的意見也不一樣:SVC預(yù)測川普,SVM預(yù)測助手(由于這兩個模型構(gòu)建的方式,它們無法輸出概率估計,這是上半部分不包括它們的原因)。邏輯回歸比較中庸,64%的可能是川普,36%的可能是助手。也就是說,6個模型預(yù)測川普,3個模型預(yù)測助手。
事實上,在花費數(shù)周事件閱讀和分析數(shù)以千計的川普推文之后,我認(rèn)為這條推文是一個協(xié)作撰寫的最佳樣本。從主題和情感的角度分析,它是100%的川普式推文。但從風(fēng)格和語法的角度分析,它看起來又像是來自一個助手。在我看來,川普大概和多德一起起草了這條推文。川普告訴多德他想說什么,他想怎么說,然后多德實際編寫了推文。這是我的最佳猜測。
這顯示了這些模型并不是完美的,有不少不一致的地方;同時推文包含的信息對訓(xùn)練機器學(xué)習(xí)模型而言太少了。我最終的集成模型,在測試集上達(dá)到99%精確度的決策樹,給出的最終預(yù)測是川普,概率為85%(上面的代碼中的最后一行)。所以這就是我們最終的答案:川普。不是約翰·多德,川普的律師。所以他們聲稱是多德而不是川普寫了那條推文,我們只能設(shè)想這是:

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月8日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身智能機器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題