用經濟學看AI時代-Google首席經濟學家的觀點

在2018年的時候,個體經濟學教科書作者,同時也是Google首席經濟學家,哈爾.范里安(Hal.Varian)在美國經濟研究院發表了一篇文章叫做“人工智慧,經濟學以及工業組織”(ARTIFICIAL INTELLIGENCE, ECONOMICS, AND INDUSTRIAL ORGANIZATION)非常有趣,於是我打算寫一篇文章簡述這篇文章如何以經濟學家的觀點來看AI產業。

有關Google的經濟學家我在另一篇文章“經濟學家與矽谷科技公司”有提到過,我就不再贅述,但是這篇文章以范里安在Google工作的實際經驗加上他本人身為專業經濟學家的觀點,提供給了我們研究經濟學卻對於科技並不太熟悉的人他本人的洞見。

經濟學家眼中的機器學習

對於機器學習的理解,我個人大部份的理解都是來自於吳恩達在Coursera的一門課叫做“機器學習”。基本上范里安對於機器學習的看法著重在辨識圖片的處理,但是我個人跟吳恩達一樣採用的是1959年Arthur Samuel的定義: 「機器學習是一門研究如何不需要特別設計程式就能讓電腦自己學習的研究領域。」,這樣的定義其實更為廣泛而不單單只是限制在視覺辨識上面。

對於經濟學家,尤其是理論經濟學家裡面,最感興趣的其實是一種稱為對抗機器學習(adversarial machine learning)的分支,這種機器學習其實主要是拿來設計贏得遊戲以及最佳化策略的例如最近的Alpha Go。基本上就是讓電腦自己跟自己模擬出來的策略去做比較,然後自己從自己身上學習。經濟學家之所以會對於這個領域產生濃厚的興趣在於近半個世紀,個體經濟學對於賽局理論其實非常沈迷,而這種機器學習可以幫我們歸納出更多可能的賽局理論策略。然而,我覺得使用機器學習來歸納賽局理論有他的方顯,原因在於賽局理論其實包含對於對手心理的理解,事實上,加州理工學院的行為經濟學家,柯林.卡麥爾,在2014年與他的同事們發表了一篇文章叫做“Chimpanzee choice rates in competitive games match equilibrium game theory predictions.”當中把人類、電腦以及日本動物園的黑猩猩去測試賽局理論,發現事實上黑猩猩跟電腦的覺都符合傳統賽局理論預測的“奈許均衡”(Nash Equilibrium),然而,人類卻不太一樣,更符合卡麥爾提出的行為賽局理論。如果單純使用機器學習來模仿賽局,我們要如何設定參數來讓機器學習能夠模擬人類情緒呢?就算機器學習能夠模仿人類因為特定行為而做出的決策好了,他能夠分析這些決策後面的行為嗎?這是我認為機器學習在賽局理論運用上面的一大挑戰就是了。

不過,從經濟學家的觀點,我們最想知道的其實就是如果機器學習是一門產業,那麼這個產業需要的生產要素是什麼?當然,你可以放進去越多越好,越多越精準。例如吳恩達提出監督式學習以及非監督式學習,但是經濟學家喜歡注重在基本的生產要素,如同基本的總體經濟模型Solow-Swan模型把所有生產要素簡化為勞動、資本以及科技一樣,而這個模型從大學到博士班都會碰到,可以說是基本中的基本,那麼什麼是AI產業的基本生產要素呢?

范里安認為機器學習的基本生產要素不外乎三樣:

1.可以拿來訓練的資料

2.演算法

3.硬體設備

那麼知道了生產要素了以後,經濟學家要研究的問題就是如何最有效率的方式來非配稀少的資源,但問題來了,什麼是稀少資源呢?或者換句話來說,這三樣裡面最重要的是什麼呢?

AI產業的稀少資源

很多人可能第一個反應是設備,例如要怎麼處理大量的資料,Amazon花了幾十億美元打造超級電腦處理資料,Google也有著大量的設備來處理裡這些資料,正常人去哪裡找到這些CPU(中央處理器)、GPU(圖形處理器)以及TPU(張量處理器)?

然而,范里安認為其實這個資源一點也不稀少,原因在於許多雲端運算公司願意把這些設備以及低的價格來出租給人們使用。傳統公司上面,處理這些東西的花費的確巨大,然而隨著Amazon Web Services、 Google Cloud Platform或者 Microsoft Azure Cloud這些雲端計算的服務出現,設備其實是最不花錢的資源。

那麼演算法呢?范里安認為隨著世界的大學開始教授機器學習,其實演算法不會是個太過稀少的資源,而且大部份有用的演算法都是以開源程式設計的,演算法其實不是太過稀少的資源。而事實上,上述的那些公司也都有提供演算法來幫助其他有需要的人來分析,其實這不算是稀少資源。

真正稀少的資源其實是資料,或者更準確來說,是可以拿來訓練的資料。大部份的大公司都不缺資料,事實上每間公司都有著大量的資料。然而,可以拿來訓練的資料卻是少之又少,因為生產可以訓練用的資料是一項非常勞力密集的工程,我想有過處理過總體經濟學資料的人都能夠體會這句話是什麼意思。而更可怕的是一間公司的部門不同,因此資料會產生異質性(idiosyncratic)。舉例來說,一間零售公司他可能需要銷售的資料庫,於是他需要一個系統可以搜集所有的銷售資料,並且上傳到資料庫。但問題來了,你還有庫存的資料、物流的資料 、甚至是消費者資訊的資料,要如何統整以及會集會是整個AI產業最貴以及勞力最為密集的部分。而一但你能完成這一塊,你就能把這些資料放到范里安說的“資料倉庫”(data warehouse)透過上述的以算法以及硬體來做處理。

以經濟學的角度,真正有趣的在於處理資料的成本,在以前,演算法以及硬體還是公司必須自己搞到手的情況下,建造自己的資料中心會是固定成本,龐大而且需要砸下許多的資本。然而現在使用租賃的方式,這種反而成為了變動成本,公司可以根據自己的需求來調整,而不需要膽症心驚地去計算事前要投入多少金錢。范里安認為這種雲端計算租賃的方式單純以經濟學的角度來講,一來可以說是AI產業與傳統產業最大的區別處,二來可以說是比起擁有個人資料中心經濟效益更大的方式,原因在於變動成本可以使得業者透過需要多少買多少的方式來創業而不需要浪費許多不必要的成本。

資源從何而來?

那麼,我們已經知道了資料是最稀少的資源了,有什麼方式取得這些稀少的資源呢?范里安以自身經濟學家以及Google員工的身份提供了以下幾個方法:

1.企業營運的副產品:在企業經營的每一天,都會產生資訊以及資料,而這些資料你可以當作營運當下產生的副產品,而且是與企業管理最直接相關的。事實上,機器學習的知名競賽網站,Kaggle,就是許多公司提供自己企業的資料讓人設計適當的程式來幫自己解決企業上面需要解決的問題。

2.網頁抓取(Web Scraping):這是抓取網頁資料最為廣泛的方法了,然而,這種方法有很多法律上面哪些資料可以被使用哪些資料不可以被使用的爭論。而對於那些不想或者不會自己抓取網頁資料的人,有些網站例如Common Crwal已經幫你抓好了,可以自己去下載你想要的網頁資料。

3.提供服務:這個技巧是所有大公司都很愛做的,也就是提供免費服務給人,讓人們免費提供資料給自己。例如Google一開始設計語音辨識的時候,完全沒有任何語音的資料,於是他們免費提供基本的語音服務讓使用者使用,例如使用者說“必勝客,台南,勝利路”,他可能會列出一連串相近的電話號碼然後使用者就可以自己選擇正確的,而這些資料就會回饋給Google來完善語音服務。同樣的知名案例就是每一次都要辨識“我不是機器人”的辨認字母演算法,reCAPTCHA,其實人家只是要你幫忙辨識字母讓演算法更為完善而已。

4.人工標記資料:雖然聽起來沒啥特別的,但是最實在,事實上已些公司例如Mechanical Turk就真的專門找便宜人工來幫忙處理資料的。

5.從擁有者身上買資料:顧名思義,直接找有資料的人買資料。事實上,如果有研究金融資料的人會對這個很熟悉,例如跟一些券商買資料分析選擇權交易客群有時候價格會高達幾十萬美金。

6.共享資料:在學術上面其實很常見,許多人都會把自己的資料放到網站上面去跟大家分享。例如​Open Images Dataset​就有幾百萬比圖像資料,完全公開提供人們去做研究。而有些共享資料之所以要公開可能是因為法規規定,例如有些經濟學期刊就規定作者要把自己的資料放上去,又或者飛機的黑盒子。

7.政府資料:這個我想研究總體經濟學的應該很熟悉,例如行政院主計處,又或者研究美國總經的就是FRED,當然,還有許多非經濟部門的資料就是了。

8.雲端公司:許多雲端公司其實會提供免費資料,例如:​Google Public Datasets​、​Google Patents Public Dataset​ 或者是 AWS Public Datasets​.

9.電腦自己產生資料:例如上述提到的Alpha Go這種讓電腦自己跟自己對戰,產生資料然後記錄下來,通常在對抗性的機器學習比較會出現這種資料類型。

資源本身的市場

好了,我們已經知道資料從何而來,但是我們經濟學家還有一個問題很想知道:資料的市場為何?

基本上資訊科學的人常常用下面圖一的資訊金字塔來說明資料類別:最底的是資料,往上的是訊息(例如書籍、文件),在往上則是知識(例如勞工、市場),最後則是行動。事實上,資訊以及知識的市場已經非常發達了,但是收集資料的市場,無論在法規或者發展上面都還是有待加強的,而這也提供了許多的機會給資料這一塊市場。

圖一:資料金字塔

很多人都說資料是新的石油,但他們其實唯一的共通點在於都需要經過加工才能使用,而對於經濟學家而言,更重要的在於石油是私有財,它存在競爭性,也就是說一個人他擁有的油井,另外一個人不可能同時使用,相反的,資料是公共財,例如我使用聯準會的資料根本不影響你使用聯準會資料的權益,他不存在任何的競爭性。

對於研究資料市場的經濟學而言,研究誰壟斷資料要著手的部分跟石油不一樣,我們其實不需要研究到底誰“擁有”資料,而是要研究誰可以“接觸”資料,傳統經濟學家認為應該設定財產權才能讓市場更有效率,例如最有名的寇斯定律。

但是在資料市場上面,范里安認為不應該設定這種財產權,而是應該要讓越多人可以接觸資料越好,至於誰擁有資料?並不重要。打個比方,歐洲最近一直在爭論“誰擁有自動駕駛車的資料?”,其實更好的問題在於“誰可以接觸自動駕扯車的資料以及要如何使用這些資料?”。如果越多人可以接觸這些資料,那麼自動駕駛車輛只會越安全,原因在於每個不同背景的人可以根據自己的專業以及知識來以不同的角度分析同一批資料,如果這些資料的接觸權許可只被鎖定在特定利益團體,可能反而對於自動車輛的安全發展是不利的。

以經濟學家的角度來看,資料市場的經濟學可能會是一門完全不同的領域,而要如何界定隱私權或者是資料使用許可之類的問題或許可以是未來有趣的研究議題之一。

討論完資料的市場,我們接著來談談經濟學家再談生產要素的時候不可忽略的邊際報酬(decreasing marginal return) 。對於沒碰過經濟學的,這個概念就是你可以盡量把生產要素投進去你的生產線裡面,然後你會發現,到了某一個時候,每投資一單位的生產要素,儘管還是有得到一些產出,但是比例相對而言下降了。比方說,你如果工作一個小時可以獲得200塊錢的績效,你工作做第二個小時你拿到了420塊錢,第三個小時你拿到了660塊錢,但是到了第四個小時你只拿到880,第五個小時你只拿到1080,第六個小時你只有1260,沒有錯,你多工作還是有多賺的,但是你第一個小時到第三個小時這段期間,你每投入一個小時的努力,你每個小時賺到的錢是增加的(0到1每小時200,1-2每小時220,2-3每小時240)。然而,在第三個小時以後,你雖然還是有賺到錢,然而每個小時賺到的錢是減少的(3-4每小時220,4-5每小時200),而從第三個小時開始,我們稱為邊際效益遞減效應,通常所有的原物料都有這種特性,雖然你多投入還是會賺錢,但是你每一單位賺到的產出會減少,而在他減少以前你應該把這個原物料丟去別的生產流程裡面讓它不至於遞減。

而資料呢?資料做為原物料也會有邊際效益遞減嘛?答案是肯定的。例如史丹佛大學使用演算法(如圖二)來辨識狗狗分類的系統就發現當你資料提供的越多,事實上,雖然精準度提高了,但是你的提高速率是遞減的。

圖二:狗狗品種辨識準確度,來源:http://vision.stanford.edu/aditya86/ImageNetDogs/

好了,既然已經理解了AI這個產業的生產要素了,讓我們移動到AI產業本身吧。

經濟學家的AI產業鏈

現代工業起源可以說來自於亨利福特的工廠分工,福特把工廠的崗位分成不同的細節,而每個一細節都專精在自己擅長的部分,雖然每個崗位都不清楚彼此在做什麼,但是整合起來,他們創造了福特的T型車帝國。而身為經濟學家,我們想問的是,AI產業有可能有這樣的分工嘛?他能這樣整合嗎?一個在未來創業的創業家要如何運用AI產業鏈呢?范里爾提出他認為有可能的產業鏈如下:

1.在Kickstarter募資

2.在Linkedin上面找人

3.在Google,Amazon,MicroSoft這種雲端服務公司找雲端計算以及網絡連結

4.使用例如Linux,Python,Tensorflow之類的開源軟體

5.透過Github管理這些軟體

6.跨國找各國的工程師以及分工幫你把你想做的細節

7.放到Kaggle去提供獎金競賽讓人幫你用機器學習的方式完成

8.使用Skype,Hangouts,Google Docs之類的事物作為團隊溝通的工具

9.透過Nolo來把法務文件搞好

10.透過QuickBooks來把會計的部分處理好

11.用AdWords,Bing,Facebook來行銷

12.用Salesforce來處理消費者關係

13.使用ZenDesk來提供使用者支援

一整套完整的產業鏈從募資到你對於使用者個技術資源就這樣誕生了,當然這只是一個粗略的名單,但是你可以看到一個產業鏈的行程,事實上,范里爾認為未來的新創以及企業發展透過這種產業鏈只會越來越蓬勃發展而以,你不需要是一個工程師,你不需要是一個專才,你只要知道要如何運用產業鏈以及有著一個可以運作的企劃,那你就能輕鬆的創業。范里爾認為,未來的創業會越來越標準化,事實上,矽谷已經有許多公司透過上述的一個或者多個模式來創業了,然而透過這個研究出一個商業模型可以說是經濟學家未來的研究風向之一。

AI產業將如何定價?

好了,我們已經有原物料以及產業模型了,下一個重要的問題在於價格又將如何制訂呢?范里爾認為在一個AI的世代裡面,價格可能會變成經濟學家常說的價格區別定價法(price differciation)。為什麼會這樣?原因很簡單,因為比起傳統企業,AI更能夠依照每個人的需求而根據他的需求來制定他可以以及願意購買的價格。

根據經濟學教科書,這種價格區別(又稱為價格歧視)大概有三大類:

第一類價格歧視:價格完全客製化,每個人的定價完全不同

第二類價格歧視:根據每個人的偏好,行為來做出不同的定價。例如同樣都是訂飛機,喜歡商務艙服務跟經濟艙服務的人價格不同,喜歡前幾個月訂的人以及出國前三天才訂的價格也不同

第三類價格歧視:根據不同的團體來定價,例如博客來鑽石會員跟黃金會員在會員日的時候折扣完全不同

事實上,第一類價格歧視幾乎是辦不到的,但有趣的在於第二類價格歧視以及第三類價格歧視。范里爾認為在機器學習的幫助之下,第二類跟第三類價格歧視的差別會變得不大,最大的差別會在於人的團體是自己分的還是機器學習幫你分的。傳統的機器學習如果單純透過觀察資料來試圖透過人類的消費行為來分組並起耊蹦物同價格可能會比較困難,但是范里爾認為透過一種名為多臂吃角子老虎(multi-armed bandit)的演算法,這是可以辦得到的。

而對於非經濟學專業的人而言,價格歧視聽起來很糟糕,感覺好像很不公平,為什麼同樣的產品要是用不同的價格。未來的AI社會會不會加大不停等?事實上許多經濟學家都同意價格歧視可能反而比起單一公定價格更好的,原因在於他更可以提供適合的價格給適合的人進而促進市場效率,事實上,2017年的時候,兩位經濟學家DellaVigna 以及Gentzkow 在一篇名為“Uniform Pricing in US Retail Chains“就記錄了事實上單一定價的後果反而讓窮人相對富人而言要比起以前付出更多的錢,或許AI市場的定價模式反而對於窮人會是更有利的。

AI市場的商品

已經討論完生產模式以及定價了,讓我們來聊一聊商品吧。AI市場的商品將會是如何,又如何改變經濟學家對於商品的認知呢?

首先是經濟學理論常常提到的規模報酬(Return of Scale),也就是當商品越大的時候,通常平均成本會越低,而這可以從供給面以及需求面來分析。

首先是供給面,AI的商品跟傳統商品最大的區別在於軟體是會更新的,但是其他商品例如傳統汽車或者傳統電視買的當下跟買的20年以後差別不大只會不斷折舊而已。然而像是特斯拉或者是網路電視好了,你買的商品會不斷的更新,不斷地變強,而隨著你買的品牌不斷個開發以及更新,你身為消費者是可以透過生產者更新設備以及技術獲利的,而你甚至不需要重新買一台新的,而這就是供給面規模報酬如何透過AI產業而放大。

然而經濟學家就會踏入而有趣的問題來了,我買的車子跟電視到底買的是商品,還是服務?我們要如何區分購買車子的價格以及購買更新車子App這項服務的價格?我們要如何設計服務以及產品的價格使得消費者滿意?而這些可以是未來經濟學家研究的議題之一。

至於需求面呢?范里爾認為需求面主要來自於所謂了網絡效益(network effect),也就是當越多人使用你這一套機器學習或者AI的時候,你的產品會越強大。使用者喜歡使用那些許多人使用的系統,而開發者也喜歡透過開源平台找得到的開源程式碼來寫程式。在未來,你會看到越來越多的程式碼以及機器學習產生同值性,而很多的大公司只會越來越壟斷市場而已。但這其實並非AI產業才有的現象,例如汽車產業,大部份人也是去找知名品牌,零售,代理商等等,其實這不是AI產業才會出現的現象就是了。

最後,范里爾提到了AI產業其實在商品設計上面會需要特別注意的或許是“透過製作來學習”(learning by doing)。你會看到許多的公司其實有豐富的資料,問題在於沒有人有經驗如何來使用這些資料,而當這間公司的商品越多的時候,他就越能夠完善他的服務以及設備。同樣的,我已特斯拉為例子,當使用者越多的時候,特斯拉就越能發展出以前沒想到以及不知道如何使用的資料,畢竟特斯拉還是一間新創公司,他對於汽車產業的資料要如何使用還不熟,但是隨著”透過製作來學習“,你可以期待他的商品慢慢的成長茁壯。

AI產業的問題

最後,讓我們來談談AI產業可能會有的問題吧。

以經濟學家而言,最可能產生的問題其實有兩個:第一是壟斷,第二是政策。

讓我們先來談壟斷,如果把AI看成賽局理論的話,我們知道根據經濟學理論,當重複而且無限次的賽局被執行的時候,最佳的策略其實就是一報還一報,也就是你對我好,我就對你好。而AI產業很可能會有的問題在於,當AI產業發展到極致的時候,會不會出現儘管企業本身沒有壟斷的意圖,但是AI策略卻互相密謀壟斷?而如果真的這樣,那麼誰要背鍋?

當每間公司都採用AI來定價的時候,會不會變成賽局理論預測的均衡點:完全沒有削價競爭?這對於生產者而言當然是再好不過了,但是對於消費者而言呢?消費者可能會完全沒有紅利,那麼誰要來保護消費者呢?而政府機關又要如何介入呢?范里爾沒有答案,但我想會是一個未來可以研究的議題。

另一方面是政策,尤其是隱私權。一開始我們談到了資料是AI時代的稀少資源,那我們就以個人資料的隱私來做為結尾吧。當資料市場成熟的時候,隱私權會變成一個很重要的問題,而這個問題其實會取決於政府如何界定誰來保護隱私權。

打個比方,美國以及英國對於ATM有問題的時候誰要負責有不同的法律定義。在英國,一旦ATM壞掉,消費者一旦認定ATM有問題,那他必須要提出證明來證明銀行有問題,否則就假定銀行是沒問題的。而在美國,同樣的情形,會先假定銀行有問題,除非他能提供證明來舉證消費者是錯的。在這樣的情況下,美國的銀行其實花很多的錢來ATM的安保議題以及設置監控攝影機,而英國則是不在乎。

同樣的,隱私權問題也是一樣,政府必須要界定到底隱私權是誰的問題,假設是消費者自己不小心而公司不用負責,那麼公司根本沒有義務也沒有意願去維持消費者的隱私,然而如果政府制定法律使得隱私權必須由公司來保護,那麼許多的公司一定會有意願來保護消費者的隱私權。

但問題在於誰要承擔隱私權洩漏的風險?范里爾認為或許未來可以有保險公司專門承保這方面的風險,而公司或許可以透過轉移的手段把隱私權洩漏的風險以合理的價格來轉移到保險公司上面。當然,這方面的道德風險以及逆向選擇問題又是未來經濟學家可以研究的地方了。

最後,當AI社會發展到極致的時候,一個消費者能不能夠要求有解釋權?例如他能不能要求公司提供為什麼自己被拒絕貸款?為什麼你們家的演算法認為我適合這個廣告?而什麼樣的解釋才是合理的?例如我如果拿一張照片問一個人說:「你怎麼認出這個是你爸?」然後你回答:「因為我看過很多我爸的照片。」這樣的解釋算合理嗎?而政府又要設定怎樣的政策避免歧視發生呢?例如AI如果判定黑人在數據顯示更喜歡買價格較低的房屋,白人買的房屋較貴,而推薦黑人顧客買低價的房屋算歧視嗎?如果單純解釋說這是演算法推算出來的,企業有責任嗎?這些都是未來經濟學家可以思考的問題。

結論:美麗新世界?

我想我自己閱讀的心得在於范里爾眼中的AI社會以及產業其實是一個美麗的新世界,無論從原物料到商品,似乎每個人都會受益。同樣的,這也提供許多研究領域給未來的經濟學家,我們可能會需要一個完全不同的模型來預估這樣新的產業。

在這樣的美麗新世界,最大的原物料是資料,創業非常簡單,每個人都能夠享受獨有的價格,大家買的商品都會不斷的進步,太好了。然而,我個人對於AI社會的貧富差距比較在意。沒有錯,人人都可以輕鬆獲得資料以及創業,但前提是要有知識,而我們要如何保證這樣的知識能夠使得窮人受益?以台灣來講,偏鄉的孩子對於科技的認知其實遠遠劣於都市的孩子,每個人都用一樣的教材在學習論語孟子,但是都市的人已經在學習怎麼寫Python,使用Google Trend了,而鄉下的還在快樂學習鄉土語言,這種差距只會越來越大而已。

有些人會說,事實上有很多MOOC可以公開學習,窮人的小孩也很容易學習。這我同意,但就跟資料一樣,問題不在於誰能夠學習,而是在於誰能夠有機會接觸去學習,從來不知道這些平台的存在要如何去從這些平台學習?

范里爾描述的AI社會讓我想到赫胥利筆下的美麗新世界:每個人都得到自己想要的,每個人都很快樂,大家都有更好的物質生活。然而,不同的人被分為alpha,beta,gamma等不同的級別,一切都是天生下就註定的,既不需要閱讀也不需要探索,只要照著既定的程序走大家都會很快樂。我想,每種社會都會有自己的問題,而經濟學家的作用就在於如何解決以及觀察這些問題吧。但總歸來講,我對於這篇文章還是抱持著正面的態度。

By一個熱愛科技的經濟學家

One thought on “用經濟學看AI時代-Google首席經濟學家的觀點

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *