拜臉書資料所賜,人類終於可以嘗試在電腦中模擬整個社會。這如果成功,威力將難以想像……
臉書在2004 年成立的時候,只是個讓大學生彼此聯絡的平臺;短短幾年之後卻已成為全球最大的社交網絡,幾乎每個人都會在上面分享照片、舉辦活動、發布無關痛癢的狀態更新,就連你爸媽也不例外。使用者會在朋友的貼文、商品品牌,或者在議題文章上「按讚」,藉此形塑自己的網路形象,並即時追蹤那些品牌、樂團、名流的最新動態。
臉書把這些按讚跟分享的動作稱為「社群」的基礎,當然,這也是該公司獲利的基礎。臉書提供資料,讓廣告商精準地把廣告放送給適合的目標受眾;而且推出應用程式介面(application programming interface,API)將使用者導向臉書上的各種應用程式,同時讓這些程式存取使用者的個人資料,量身訂做「更好的使用體驗」。
研究者偷看一下你的臉書頁面,就知道你在真實世界中的行為,而且你不會發現。你的每一次滑鼠捲動、每一個動作、按的每一個讚,臉書全都記得清清楚楚。你有哪些興趣、喜歡什麼東西、討厭什麼東西,全都可以量化。這表示臉書資料的生態效度(ecological validity)愈來愈高,愈來愈接近真實世界,因為它不是研究者問出來的,而是你自己留下的,不會像訪問資料那樣留下研究者不經意的偏誤。
也就是說,人類學與社會學的傳統被動質性方法還是很有用,但碰到那些可以用數位資料來量化的部分,就可以改用量化研究來提高通用性。以前只有銀行或電信公司才有人們的數位資料,而且這些機構都受嚴格監管,防止有人竊取個資。但社群媒體不一樣,幾乎沒有法律規定你能在上面看哪些使用者資訊,你想看多細都可以。
很多人都以為網路世界跟現實世界(in real life,IRL)是分開的,但社群媒體上的資料都是來自真實世界,無論是你對該季影集大結局的看法,還是週六晚上出去嗨的照片,全都是現實生活。說白一點,你的臉書資料就是你的真實資料。而且當手機與網際網路在生活中愈來愈常見,兩者就愈來愈接近。如今的分析師根本不需要做問卷了,只要能用演算法從客戶每天自己製造出的資料中尋找模式,就能拿到他要的答案,而且很多答案可能是他從來都沒想過的。
臉書使用者把生活中大小事全都放在同一個臉書的表格裡。我們既不用比對千百個資料集,也不必用複雜的數學找出資料的空白處,只要連上資料,就可以看到每個人即時更新的自傳。如果想要造一個系統從零開始觀察人類,你不太可能贏過臉書。
只要300 個「讚」,我們就比你配偶更了解你
事實上,吳悠悠(Wu Youyou,音譯)、科辛斯基、史蒂威爾在2015 年的研究就發現,電腦模型可以用臉書上的「讚」相當準確地預測人類行為。這個模型只要蒐集你的10 個「讚」,預測你行為時就比你的同事更準;如果有150 個「讚」,就比你家人更準;有300 個「讚」,就比你配偶更了解你。這有一部分是因為你跟朋友、同事、配偶、爸媽之間的關係會制約你的行為,他們通常只能都看到你的其中一面。
妳爸媽大概從來不知道你在凌晨三點嗑了兩顆搖頭丸之後會多瘋,你朋友可能永遠不知道你在老闆辦公室裡有多乖順拘謹,他們對你的印象都略有差異。但臉書看得到你的人際關係,躲在你的手機裡如影隨形,追蹤你在網路上看的網頁跟購買的東西,比家人朋友的判斷都更接近你的「真面目」。某些時候,電腦模型甚至比你自己更了解你的習慣,上述研究者不得不提出警告:「電腦判斷人格特質時比人類更準,心理評估、行銷、隱私等領域都將出現重大機會與嚴重挑戰。」
拜臉書資料所賜,人類終於可以嘗試在電腦中模擬整個社會。這如果成功,威力將難以想像,例如理論上你可以打造一個未來的社會,輸入族群衝突或貧富差距等問題,看看它如何演變,然後不斷回溯修正,直到找出減緩傷害的辦法。也就是說,你可以在這個模擬出來的電腦遊戲裡面尋找現實問題的出路。對我來說這酷爆了。科根提出的那個計畫讓我魂牽夢縈,想盡辦法要讓它成真。而且不光是我們在嗨,其他地方的教授聽到也興奮不已。科根在哈佛開完會後寄了一封電子郵件敘述與會人士的反應:「他們認為這會從此改變社會科學的遊戲規則,掀起整個領域的大革命」。可惜的是,雖然史蒂威爾與科辛斯基一開始也很興奮,科根卻說溜了嘴,講出劍橋分析有2,000 萬美元的預算。這個事實讓一切學術合作關係立刻嘎然而止。
科辛斯基在給科根的電子郵件上說,要合作的話先付50 萬美元,之後使用他們所有臉書資料時還要付50% 的「授權金」。這根本就是獅子大開口,當時他們的資料還沒有通過實地測試,而且預付的金額實在太高。尼克斯叫我拒絕,但科根擔心這會讓一項大好計畫胎死腹中,所以在我們拒絕科辛斯基之後的第二天,科根就說他要自己跟我們合作。科根的條件跟他最初開的一樣:他幫我們找到要蒐集的資料,劍橋分析以成本價購買,然後讓他拿這些資料做自己的研究。
科根說他有辦法用更多程式從臉書那裡找到資料,那些程式與史蒂威爾與科辛斯基有相同的好友資料蒐集權限。這讓我聽得有點起疑,擔心他是不是其實想暗中從那兩人的程式裡面偷資料。但科根堅決表示他會自己寫一個程式。「好吧,」我說「證明給我看,寫出程式拿資料來吧。」為了確保資料不是來自其他人的程式,我們給了科根一萬美元寫新程式,他不但同意,還不索取任何額外報酬,只要拿到的資料留一份副本給他就可以。
科辛斯基後來表示,當時如果談成,他將把我們付的臉書資料授權費捐給劍橋大學。但由於劍橋強烈否認它與任何臉書資料計畫有關,至今仍不知校方是否知情,也不知道它們會不會接受這項捐款。
性向測驗+ 臉書按讚,幾乎能100% 預測人類行為
一周後,科根寄了成千上萬份臉書資料給SCL。我們測了一下那些資料的價值是否足夠,結果發現超乎預期。裡面有成千上萬名臉書使用者的姓名、性別、年齡、所在地、狀態更新、按讚、朋友,幾乎等於他們的所有資訊。科根說,他的程式甚至還能擷取使用者的私人通訊。「沒問題了,」我說,「一起開始作吧!」
剛開始和科根合作時,我們想馬上建立一個機制來儲存蒐集到的臉書、點擊流、消費者資料,供心理學家、人類學家、社會學家、資料科學家,以及任何感興趣的學者使用。科根甚至讓我加入幾項穿著風格與審美喜好的欄位,用來作我在倫敦藝術大學的博士研究,我的指導教授聽到大概會很開心。我們想去世界各地的大學找人合作,不斷累積資料集,開始用模擬的方法來研究社會科學。像某些哈佛醫學院的教授就建議我們去存取他們數百萬名患者的基因圖譜,這點子就連我聽了都吃驚。
根要我想像一下,如果一個資料庫可以連結每個人的基因資料庫和他們當下的行為,它的威力會有多大。他非常興奮,有了基因資料庫我們就可以做很多重要的實驗,解開天性與教養之謎。我們知道自己站在歷史的轉捩點上。
我們用一個叫做Amazon MTurk 的小工作發包網站(micro-task)拿到第一批資料。這個網站原本是亞馬遜用來訓練該公司的電腦識別圖像的,它們找真人來幫圖片貼標籤,當成正確答案讓演算法學習,這樣電腦就愈來愈能辨認圖片中的各種東西。每貼一個標籤,亞馬遜就給一美分,吸引了成千上萬的人加入。
亞馬遜發現這大有商機之後,就在2005 年把MTurk 拿出來賣,稱其為「工人智慧」(artificial artificial intelligence),讓其他公司花錢請人在空閒時間做各式各樣的小工作,例如掃描收據、辨認照片等等,簡單來說就是讓人來作機器的工作。光MTurk 這個名字就是一個哏,它是Mechanical Turk 這種十八世紀機器的簡稱,當時這種箱子可以「自動」下西洋棋,觀眾看了都不可思議,但其實箱子裡躲了一個人,每一步都是他用特製的槓桿移動的。

(本文摘自克里斯多福.懷利著《Mindf*ck 心智操控【劍橋分析技術大公開】:揭祕「大數據AI心理戰」如何結合時尚傳播、軍事戰略,深入你的網絡神經,操控你的政治判斷與消費行為!》,野人文化提供)