2017年12月26日 星期二

數據、謊言與真相



前言:
難得的十二月鬧書荒,隨手挑本新書來讀。今年真是新知匱乏年呀(註一)。

註一:
或許不是新知匱乏,而是台灣沒落。前陣子到天龍書店看真的失落萬分,怎麼都沒新書。倒是簡體版的變好多。可能台灣願意買書的人口急速下降,致導翻譯書商意願變很低。這是種惡性循環,跟音樂一樣的狀態。台灣音樂死透了,要聽音樂請到spotify,apple music。音樂沒死只是取得的方式改變了。所以閱讀不會死,但要懂英文或簡體字了。時代的演變真的有好有壞,但我很不幸的就是被刷的那群人之一,該死的爛英文。孩子,先把英文練好先。能破解英文障礙代表你已學會如何「克服」問題的能力,其他事相較之下都輕而易舉。那我為何還沒學好,呃!?我已學會如何克服問題的技巧了,外加沒學生那種什麼都缺就是不缺時間的本錢。位階不同,誘因不足。

隨記:
P.18 Google在2009年推出Google 搜尋趨勢(Google Trends)。
P.19 我們在網路尋求知識時,留下的足跡,最後反而揭發驚人的真相。換句話說,人們搜尋資料,這種行為本身就是資訊。→對某事感到興趣就會用關鍵字去搜尋相關資料,而這個關鍵字就透露出你的本性。
P.21 Google 數據強大之處在於,人們會把自己可能不會告訴任何人的事,告訴這個大型搜尋引擎。→所以結婚前一定要偷看另一半的電腦,看他搜尋了那些關鍵字。至少妳不會想跟一隻雞(gay)結婚,但如果他很有錢或很會賺錢的話倒可容忍,然後拿他的錢去外面偷吃,各取所需。
P.23 「風暴前線」(Stormfront),美國很受歡迎的白人民族主義網站。
P.33 大數據本身就是一個籠統的概念→不可能精確,但大致正確會比完全錯判、看走眼好上非常多
P.64 中產階級雙親家庭比較擅長教養出容易相信別人、有紀律、堅持不懈、專注並具組織力的小孩。→相對貧窮家庭而言,另外貧窮家庭不止基因低於平均值的劣勢,在物質上也屈於惡劣。故低階人口大多只是待淘汰者,能爬上來者大多只有運氣差掉下去的天資優秀者,而且要很明顯的優秀(需額外克服物質、知識水準、同儕排斥等劣勢)另外就是運氣,在極大數量下要創造奇蹟是很容易的事。而這種人在上層也保不久很快就被其他人獵食掉了。
這時會思考窮人需要被拯救嗎?就自然法則來看是不值得,就感情來看是需要,就我來看來是不關我的事,我又在漫遊在文字中了。
P.76 pornHub是最受歡迎的色情網站之一。→根本是最大的色情網站吧!!

P.86 Google 工程師設計出查詢相關性的Google Correlate。可以隨時隨地查看所追蹤的任何數據系列,並查看與該數據集最相關的的Google搜尋。→查了一下bitcoin,發現似乎具有預測性,在2013年引起眾人的關注,經過三年造就今日的價格。

P.145 即使大多數調查都是匿名,但人們還是希望保持自己的良好形象。這就是所謂的「社會期許偏誤」(social desirability bias)。
P.148 人們沒有誘因跟調查說真話→想想對問卷說謊是蠻具有誘因,填寫完美自我是多麼讓人自我陶醉的事呀。
P.204 臉書不是數位誠實豆沙包,而是跟朋友吹噓自己的生活多麼美好的社會媒體。
P.207 當人們一片譁然抗議自己不爽看到朋友在臉書上生活細節時,私底下卻還上臉書窺探朋友生活的所有細節。→就說人具有極大黑暗面,喜歡偷窺別人在幹什麼。所以偷窺狂其實是真情流露。可惜我窗外都是不穿依的裸樹....
P.256 開始分析成堆的數據前,卻一點道理也沒有。→看到統計結果具有很明顯的顯著性,但說不出為什麼。統計學之所以強大是因為繞過未知的原理,先得到結果。然後再用結果去找原理。這是多麼出色的工具呀!!繞過原理,先得到結論再用結論去找原理。也可證明我們的認知是充滿錯誤,導致正面的推論常常撞到銅牆鐵壁而過不去。
P.270 相關性(correlation)與因果關係(causality)→卡路里與體重是相關性,而糖和體重才是因果性。錯覺來自於1g油脂=9大卡,1g糖=4大卡。所以推論油脂是增肥主因。但問題是不健康才是主因(不健康才會讓身體想額外儲備脂肪,體重增加),而不健康的原由通常是糖造成。糖跟香煙一樣是被誤導的商品,讓人以為有益(或無害)。所以這兩者的區別是存在很大的難度,尤其是常識最容易讓你誤判。宗教更過分,知道是詭道還更上一層的包裝起來。把因果變成自己的論點,用因果關性偷度相關性。真是道高一尺魔高一仗呀!!說道者就是最大的惡魔。
P.271 遺漏變數偏誤(omited-variable bias)→吃素為何讓人更長壽?「吃素」這事指的是單一變數(因子),而其實根本只是偏誤。能吃素的大多是家境好,才有錢有閒去搞純素的食物料理來吃。那吃素的為何讓人更長壽?答案是他是有錢人。
P.271 我們如何更準確地建立因過關係?到目前為止最廣受認可的做法就是,利用一種隨機對照實驗(randomized controlled trial,RCT)。→利用隨機性質,消除實驗組與對照組環境差異。真的很出色的奇想。
P.274 大數據讓隨機對照實驗,也就是可以找到真正因果關係的方法,變得更容易進行。
P.274 隨機對照實驗已經更名為「A/B測試
P.278 A/B測試如此重要的一個根本原因是:人們是不可預測的。我們的直覺往往無法預測人們會如何回應。
P.282 根據我們的生活經驗就能判斷答案是什麼,那麼測試就不會有價值。但事實上,我們不了解人性,所以測試才這麼有價值。
P.318 維度的詛咒(the curse of dimensionality)→皇帝是萬中選一,這是從結果來看。其實第一名與二、三名的落差不大(註二),只在於運氣。而運氣怎麼用?成語:萬事俱備,只欠東風。先要滿足條件(當上候選人),運氣才會在其中隨機挑出一位。好像有點偏離這維度的詛咒意思,主要是在說統計會出現的假訊號問題,因為隨機亂統計也是能出現顯著的對比,但那只是剛好出現的現象,因為樣本數永遠小於母體,必然出現的巧合。試問大數據下的無限組合中能製造多少巧合?答案也會是無限個。假設每個人都是一個維度(一個變數),在因緣際會誤解太常發生就說明了維度的詛咒是多麼常見。而作者也嘗試利用大數據找關鍵字頻率變化與股市波動的關聯性,結果徒然無功。這只是刑求統計罷了,你不能反過來使用統計,統計是後驗,而不能當論點本身。你必須先有一個很棒的假設(邏輯論點),然後透過統計驗證,這才能有效的篩掉大部分的巧合(維度的詛咒)

註二:王與寇
在我們印象中項羽是個壞人、李建成是個無能的太子,但想想能爭天下第一的真的具有這麼大的缺陷嗎?還是歷史是贏家的狗奴才寫的,媚上才能升官發財,照史實的會沒有小雞雞。嗯,史官真為難,只有兩個選項選一:心中有雞雞 或 身上有雞雞。

心得感想:
作者糾結在能用大數據預測川普當選是很荒謬的事,因為希拉蕊總人數票是贏川普,如果大數據預測是川普當選,那整個統計才有問題。川普贏在遊戲規則,又不是贏在數量。而且那數量差在統計學上是算在誤差值,也就是大數據無法明確預測出川普與希拉蕊誰會獲勝。最多就到,川普未如媒體預測的不可能發生的事。
原來大家都很虛偽,尤其在鏡頭前從來都不會說出真心話。也就是只能從他的行為知道他的本意。川普知道這個落差,常常說出荒謬但符合觀眾心中的話。美國優先,這句話讓美國人心裡高興死了,但嘴上說川普是個混蛋,外加一句世界和平(虛偽)。
本書在討論名校精英時(P.311)讓人蠻驚訝。原來不是名校教出精英,而是精英本質就是精英。測試的方法是差幾分上名校和分數到卻選擇別的學校(證明資質相差無幾),而事後統計這兩組人的成就差異,發現沒有明顯的落差。優秀的人到那都還是優秀呀!!所以別怪運氣不佳,而是要體悟,我原來不是天才的事實。然後從這基礎去思考人生抉擇。
本書結論:大數據無法幫你找到女朋友,也無法幫你找到股市黑馬,或許能找到獨角獸,貴的莫名其妙的怪獸吧。所以大數據不是全能的東西,只是有優有缺的解答工具。

[2017年12月27日 鴿子觀察]
最近有一隻很惱人的鴿子停在我的窗邊,趕不走。從外觀來看是隻老年鴿,毛無光澤眼袋大又扁灰,但動作還是很敏捷和很會小聰明。身為人類的我一直感到被羞辱,因為抓不到,讓牠覺得我莫可奈何。但昨天用了一些心機和耐心的等待,守簾待鴿(30分鐘)還是徒抓到了。我刻意的用塑膠袋綁起來只露頭,然後關在黑暗的廁所五個小時。我想依照人類來看,這樣做會具有很大的心理陰影,五個小時不知對方會如何處置你的恐懼是無限上升。然後在晚上帶到山上野放。心想怕了吧,玩弄小聰明的笨鳥。但今天中午還是飛到我窗邊。暗,這什麼道理??鴿子大腦結構跟人類完全不同,只有一句話是合理,鳥為食亡是千真萬確的事(我想人為財死也是真言)。很奇妙的體驗,生物之間的差異性會如此的大。牠的小聰明水準會讓我誤以為牠有智能,但可能只是本能反應。如果牠有智能就會產生感受,尤其是恐懼這種很明確的情緒。而事實上牠沒有情緒。觀察別的生物就發現極大差異的存在,所以星際大戰中的外星人反應會跟地球人一樣??這真是嚴重的錯誤假想。
[2017年12月28日 有機體與無機體的運算力對比]
當發現鴿子是無情緒生物後讓我驚訝萬分,長久以來我認為生物具備某種程度的思考力,而思考力代表著會有七情六慾。而實際上思考力與感情是分離開來(即使是有機體),而從狗就得證這論點,他們的鼻子敏感度是人百倍起跳(有人估到100萬倍)。但沒被自己體味和環境鼻味給薰死是不合理的,如果狗不具備感受力,只有判斷力?那整個邏輯也就合理了。情感只有人類才具有的能力!!絕大多生物都沒有演化出來的能力,人類還真自作多情。
[2017年12月29日 壞訊號]
台灣鄉民繁殖力驚人的壞訊號(對我而言是好訊號,對手越多笨蛋我才有利),當人們越可憐就越會陷入惡性循環,越來越悲慘。人民智慧會成長,可能只是錯覺。窮人之所以窮就是思維就是向更窮的選擇。宗教都是要你先破財才能招財,旁觀者知道是詐騙,迷信者相信那是真理。這群廢物就是不肯認真學習,懶成豬,窮只是活該。
《工商時報 2017/12/29 A18版》

[2017年12月29日 言語的層次性]
最近因為太悶了,常到各網站看鄉民們的言論。有些很有意思的題目,像物理公式討論如何融入交易,有些人還真認真討論,有些人並不知道那是金礦還停在嘲諷。例如混沌理論(註三)被當垃圾在罵時,我真的也笑了。為何有人明明找到了金礦,卻沒能力辨視。人生真的很有意思。懂的人不管怎麼說,不懂的人就是永遠不能理解。同樣的文字傳達出來的意含並不是一樣。用比較簡單的例子:「運氣」。多少人能聽懂我在文字中的運氣是指「具因果但不可測」、「隨機」等意含呢?大多數人還是覺得運氣是天注定的東西,可靠做好事來改運、可花錢消災。嗯,我又犯蠢了,手癢癢又去沒營養的地方流連了。

[2017年12月29日 鴿子行為再思]
我一直在想為何這隻鴿子會異於其他鴿子,貪婪、敏捷、執著。其他鴿子都中規中舉,就這隻死纏爛打。把我窗戶當他的領域會排擠其他鴿子,想想可能是我造成的。因為我把咖啡渣倒在窗台上,就這惡棍鴿吃最多咖啡渣。讓他各種狀態變得極為靈敏,欲罷不能。咖啡真是個可怕的物質,用過就會上癮。完全清醒狀態是一種戒不掉的東西。或許我該撒辣粉在窗台,哈。

註三:混純效應
是熵的變化過程,無序狀態到最終的漩渦力。這是一種概念,是心法的基柱之一。其中蘊含著隨機漫步和趨勢理論。bitcoin的價格走勢就是其代表,從看不出好壞到最後非線性的極端發展。




書籍資料:
書名:數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目
原名:Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are
作者:賽斯‧史蒂芬斯—大衛德維茲
原文作者:Seth Stephens-Davidowitz
譯者:陳琇玲
出版社:商周出版
出版日期:2017/12/07
閱讀價值:中

沒有留言:

張貼留言