
文: 恒大研究院 沈明輝 劉宸
人工智能(Artificial Intelligence,簡稱AI)嵌入多個生活場景,被寄望為下一輪技術革命。微觀層面,機器翻譯、資訊分發和輔助駕駛等AI應用已讓人類生活更美好。宏觀層面,AI能替代繁瑣、重復人類工作,提升資源配置效率并減少生產損耗,其被寄望為經濟增長新引擎。
人工智能前景判斷:1)技術層面:短期或不及預期,長期仍有望引爆新一輪技術革命。2)產業層面:短期看商業模式,中期看公司技術研發,長期看基礎研究突破。
人工智能是模擬人類思維和行為的系統,當前處于弱AI時代。人工智能旨在模擬人類思考方式、行為規劃和學習能力,最終像人類一樣感知周邊環境并且做出反應。當前人工智能處于僅能解決特定問題且往往扮演輔助角色的弱AI時代。
人工智能螺旋式發展,經歷三個時期:1)起步時期:1956年達特茅斯會議提出人工智能概念,計算機性能和數據量制約AI發展。2)專家系統時期:“知識庫+推理機”實現AI商用化,臺式機性能提升終結專家系統。3)深度學習時期:2006年Hinton論文開啟當前深度學習時代。
人工智能已是新風口,技術是核心驅動力。2017年全球AI融資超150億美元,谷歌、亞馬遜、蘋果以及百度、騰訊等中美科技巨頭紛紛布局。算法、算力和數據是AI發展的核心驅動力:深度學習算法使AI邁入數據驅動時代,互聯網孕育海量的多維度數據,GPU并行計算能力為“大數據+神經網絡”提供算力。
人工智能產業鏈分為基礎層、技術層和應用層,中國產業布局偏好技術成熟、應用性強的領域,對需要長周期、基礎研究的芯片的關注度小。
1)基礎層提供算力和“操作系統”。芯片賽道,GPU仍是人工智能首選,產業格局呈三足鼎立,AI專用芯片中國企業存彎道超車機會。開發框架賽道,“開源+巨頭支持”是主流模式,TensorFlow、Torch等各有所長。
2)技術層解決具體類別問題。語音識別負責語音轉文本,技術和行業格局趨于成熟,但智能音箱等消費級產品或已侵蝕Nuance等頭部企業先發優勢。自然語言處理實現機器“聽得懂”,技術成熟度較低,市場分散且未形成頭部企業,新入局者仍有機會。計算機視覺實現機器“看得懂”,靜態物體識別趨于成熟,安防廠商、互聯網巨頭和創業公司是主要玩家。
3)應用層解決實踐問題。目前AI產品普遍是人類輔助者,自動駕駛或是下一個重量級市場。語音場景,智能音箱流量入口屬性使科技巨頭群雄逐鹿,生態整合決定發展前景。安防場景,視頻結構化、人臉比對助力警務管理,誤報率、動態人臉監控仍是短板。金融場景,應用于身份認證、征信風控和投顧理財。醫療場景,應用于醫學影像、輔助診療和語音電子病例,騰訊覓影已篩查400多例早期食道癌病例。自動駕駛場景,主流系統處于輔助駕駛級別,谷歌、特斯拉和百度領跑中美自動駕駛賽道。
1 人工智能:已融入多個生活場景,未來有望引爆新一輪技術革命
1.1 人工智能已嵌入多個生活場景,被寄望為下一輪技術革命
1.2 前景判斷:短期或不及預期,長期仍充滿希望
2 概念、標準與分類:人類思維和行為的模擬,目前仍處于弱人工智能時代
2.1 概念:人類思維和行為的模擬
2.2 標準:圖靈測試
2.3 分類:弱AI、強AI和超強AI
3 人工智能的“前身今世”:螺旋式發展,深度學習開啟新浪潮
3.1 起步時期:達特茅斯會議提出人工智能概念,人機對話小程序ELIZAL令人驚艷
3.2 專家系統時期:“知識庫+推理機”組合實現人工智能商用化
3.3 深度學習時期:Hinton論文開啟人工智能新浪潮,Alphago戰勝人類世界冠軍
4 技術+政策+資本助力行業發展,Alphago引爆行業風口
4.1 新風口:未來十年人工智能或使全球GDP增長12%
4.2 算法+算力+數據:行業發展的核心驅動力
4.3 政策+資本:行業發展的沃土
4.4 Alphago:引爆風口的催化劑
5 人工智能產業鏈:基礎層+技術層+應用層,中國基礎層存不足
5.1 產業鏈初探:基礎層+技術層+應用層
5.2 產業鏈布局:中國偏好技術成熟、可應用性強的領域
6 基礎層:芯片+開發框架
6.1 芯片:GPU帶來算力革命性突破,未來發展瞄準AI專用芯片
6.2 開發框架:“開源+巨頭支持”模式,百度推出Paddle-Paddle
7 技術層:語音識別+自然語言交互+計算機視覺
7.1 語音識別:正確率提升推動商業化,消費級產品或打破市場格局
7.2 自然語言處理:實現機器“聽得懂”,技術成熟度仍較低
7.3 計算機視覺:實現機器“看得懂”,安防廠商、科技巨頭和創業公司機會并存
8 應用層:智能語音+安防+金融+醫療+自動駕駛
8.1 智能語音:人工智能時代的流量入口,科技巨頭群雄逐鹿
8.2 AI+安防:智慧安防助力警務管理,動態人臉識別仍存不足
8.3 AI+金融:人工智能助力金融服務效率,身份認證、風控和投顧是三大應用場景
8.4 AI+醫療:醫學影像、輔助診療和語音電子病例是主要應用場景,騰訊覓影已篩查400多例早期食道癌病例
8.5 自動駕駛:未來或顛覆全球汽車產業鏈,谷歌、特斯拉和百度領跑自動駕駛賽道
1 人工智能:已融入多個生活場景,未來有望引爆新一輪技術革命
1.1 人工智能已嵌入多個生活場景,被寄望為下一輪技術革命
人工智能落地于多個場景,讓人類生活變得更加美好。目前不少智能手機應用已經嵌入人工智能技術,如機器翻譯、智能分發、圖片美化、智能語音等,汽車也裝載了輔助駕駛系統。機器翻譯降低了不同文化間交流的門檻,智能分發實現了“千人千面”的資訊分發,智能語音讓人機互動方式從鍵盤轉變為語音,輔助駕駛讓人類駕駛汽車變得更加輕松、容易。
人工智能有望成為全球經濟增長的新引擎,因此被視作是互聯網之后的新一輪技術革命。人工智能促進經濟增長的影響機制存在于以下方面:
替代固定、繁瑣和標準化工作,釋放勞動力,既緩解人口老齡化時代勞動力短缺,也提升勞動生產率,如機器翻譯替代部分翻譯的工作,智能分發替代部分編輯的工作,智能語音替代部分客服助手工作,未來的自動駕駛將替代駕駛員工作。
提升資源配置效率,如智能分發將資訊、廣告等信息資源精準投放給需求用戶。
減少社會生產中的損耗,如自動駕駛避免了疲勞駕駛、違反交通規則等所產生的交通事故。
基于上述三大機制,人工智能將使基于場景的微觀領域創新傳導至宏觀經濟領域,技術進步提升社會生產率,打開新的增量空間,人工智能因此被寄望為新一輪技術革命。

1.2 前景判斷:短期或不及預期,長期仍充滿希望
新技術革命依賴人工智能技術水平提升,奇點是業界和學界討論焦點。以新技術革命來定位人工智能意味著其不僅需要覆蓋更多的應用場景,而且需要更高的智能程度。因此人工智能有了“奇點”概念:奇點是一個時刻,過了該時刻,人工智能的智能化程度將指數式上升,且擁有自我完善能力,超越人類智慧,預測技術發展奇點是人工智能領域關注焦點。
對技術發展來說,短期將不及預期,長期仍有望引爆新一輪技術革命,當前技術發展水平看自動駕駛。此輪以數據驅動的人工智能發展浪潮(詳見第4部分)存在部分硬傷:1)數據驅動意味著計算機無法理解規則關聯的內在機理,因此缺乏人類的推理能力和常識認知能力。2)深度學習必須以海量數據作為訓練集,缺乏人類快速提取特征能力(如看iphone一眼后就可以認出它),因此訓練速度受到制約。此外,摩爾定律逐漸失效讓計算機數據采集、處理和存儲能力短期內趕超人腦存疑,且生命科學對人腦運作機理的探索速度比計算機科學發展要慢得多,數據驅動的人工智能發展路徑短期內難以被替代。因此人工智能短期內很難大規模替代人類工作,短期技術發展程度和速度或不及預期,但是長期來看人工智能始終處于螺旋上升通道中,未來仍然有望引爆新一輪技術革命。面向特定領域的弱AI仍是當前技術發展重點,自動駕駛市場規模大且匯聚技術、人才和資本,自動駕駛的技術能力和商業化程度是當前觀察人工智能技術發展水平的重要指標。
對產業發展來說,短期看商業模式,中期看公司技術研發,長期看基礎研究突破。短期來說,產業爆發需要將現有的技術條件更好地與應用場景結合,創新服務模式來滿足原有產品所難以滿足的需求,例如今日頭條的“千人千面”精準分發和智能音箱的人機語音互動。中期來說,企業層面的研發能力是關鍵,技術研發將提升和優化技術水平,解決產品中的技術痛點,如計算機視覺企業能否提升復雜環境下動態人臉識別準確度將直接決定智能安防的應用程度。長期來說,產業發展依賴算法、芯片等領域基礎研究突破,此輪人工智能浪潮正是源于深度學習理論的突破(詳見第3部分)。
2 概念、標準與分類:人類思維和行為的模擬,目前仍處于弱人工智能時代
2.1 概念:人類思維和行為的模擬
人工智能(Artificial Intelligence,簡稱AI)是“模擬”人類思維和行為的系統。人工智能對人類的“模擬”包括思考方式、行為規劃和學習能力等范圍,最終目的是像人類一樣感知周邊環境并且做出反應。

2.2 標準:圖靈測試
圖靈測試是判定機器智能與否最悠久、最經典的方法。人工智能是“模擬”人類思維和行為的系統,但是模擬能力本身就是一個連續的光譜,模擬能力只有超過某個標準,系統才會被認為是智能的。1952年,圖靈在《計算機械與智能》(Computing Machinery and Intelligence)一文中提出了“圖靈測試”來驗證機器有無智能:如果一臺機器能夠與人類展開交流,且有超過30%的人無法在規定時間內識別出與自己交談的是人還是機器,那么這臺機器就具有智能。圖靈測試提出至今已超過60年,不過目前機器僅在短時長和細分領域的測試中通過了圖靈測試。后來的計算機科學家也提出了其他界定人工智能的標準,包括能否實現語音識別、機器翻譯、文本的自動摘要或者寫作、戰勝人類的國際象棋冠軍、自動回答問題。

2.3 分類:弱AI、強AI和超強AI
當前人工智能世界處于弱人工智能時代,人工智能還無法擁有人類的推理、規劃和學習等能力,超強人工智能僅存于哲學層面。為區分人工智能的智能程度,人們提出了弱人工智能(Artificial Narrow Intelligence,簡稱ANI)、強人工智能(Artificial General Intelligence,簡稱AGI)和超強人工智能(Artificial Superintelligence,簡稱ASI)三個分類。當前人工智能處于弱人工智能的發展階段,系統僅能解決某個特定問題,且往往扮演輔助工具的角色。例如,AlphaGO僅限于利用“大數據+深度學習”來推算圍棋每一步獲勝的概率,但是并不了解每一步背后的原理。強人工智能仍然無法實現,人工智能尚無法擁有人類推理、規劃和學習能力,超強人工智能甚至只能從哲學和科幻角度進行探討。

3 人工智能的“前身今世”:螺旋式發展,深度學習開啟新浪潮

3.1 起步時期:達特茅斯會議提出人工智能概念,人機對話小程序ELIZAL令人驚艷
興起:達特茅斯會議提出人工智能概念,人工智能迎來第一輪繁榮期。1956年達特茅斯會議,麥卡錫(John McCarthy)、明斯基(Marvin Minsky)、羅切斯特(Nathaniel Rochester)和香農(Claude Shannon)等首次提出“人工智能”術語。此后,麻省理工大學、卡內基梅隆大學等學府均建立人工智能實驗室,美國國防高級研究計劃署投入了大筆研究資金,研究者也樂觀認為“二十年內機器將能完成人能做到的一切”。
標志事件:人機對話小程序ELIZA面世,智能交互能力令人驚艷。資金投入和人才涌入產生了一批顯著成果,其中人機對話小程序ELIZA是第一款人機對話程序。Eliza被設計成一個可以通過交談幫助病人完成心理恢復的精神治療醫師,程序模擬人的反應來回答用戶問題。
衰落:計算機技術制約早期人工智能發展,明斯基的《語義信息處理》催生行業拐點。樂觀情緒伴隨著早期人工智能,但研究始終受制于當時技術瓶頸:計算機性能制約了早期程序的應用、程序處理的對象少且復雜性低、機器無法讀取足夠數據來實現智能化。1968年,明斯基在《語義信息處理》(Semantic Information)一文中指出了人工智能的局限性:人們對語言的理解不是來源于語法和語義,而是來自常識,人工智能無法擁有該能力,也就不可能實現人的智能。明斯基的論文直接導致美國政府大規模削減人工智能研究經費。
3.2 專家系統時期:“知識庫+推理機”組合實現人工智能商用化
興起:專家系統XCON為DEC公司每年節省數千萬美元,人工智能迎來新一輪繁榮。專家系統是基于知識的智能計算機程序系統,其內部根據該領域大量的專家知識與經驗進行推理和判斷,即利用“知識庫+推理機”來模擬專家決策。1968年第一臺專家系統DENDRAL面世,其可用于推斷化合物的可能分子結構。1980年卡內基梅隆大學為DEC公司設計了專家系統XCON,每年可為DEC省下超過4000萬元經費,人工智能商業化帶動了新一輪產業熱潮。
標志事件:日本斥資8.5億美元研發第五代計算機。專家系統使人工智能商業化落地,并且誕生了Symbolics、Lisp Machines、IntelliCorp和Aion等軟硬件公司,日本甚至斥資8.5億美元用以研發第五代能夠像人一樣推理的計算機。
衰落:蘋果和IBM臺式機性能超過Symbolics等廠商生產的通用計算機,專家系統逐漸淘汰。專家系統復雜而精密,使其造價和維護費用居高不下,然而功能卻僅限于極其狹小的領域,1987年蘋果和IBM公司生產的臺式機性能都超過了Symbolics等廠商生產的通用計算機,徹底終結了此輪以專家系統主導的人工智能浪潮。
3.3 深度學習時期:Hinton論文開啟人工智能新浪潮,Alphago戰勝人類世界冠軍
興起:2006年Hinton提出了神經網絡Deep Learning算法,開啟了深度學習在學術界和工業界的浪潮。Hinton的深度學習打破了傳統BP神經網絡的短板:1)多隱層的人工神經網絡具有優異的特征學習能力,從而有利于可視化或分類。2)人工神經網絡的訓練難度可通過“逐層初始化”來克服。
標志事件:Alphago戰勝人類世界冠軍,微軟語音識別錯誤率降至5.5%。深度學習算法使人工智能獲得突破性進展:在圍棋領域,2016年3月基于深度學習算法的AlphaGo成為了第一個擊敗人類圍棋世界冠軍的人工智能程序,2016年末2017年初該程序以Master為賬號與中日韓數十位職業圍棋高手對弈,連續60局無一敗績。在語音識別領域,深度學習突破了技術瓶頸,大幅降低語音識別的錯誤率,2017年微軟轉錄Switchboard語料庫錄音的錯誤率已降至5.5%。

4 技術+政策+資本助力行業發展,Alphago引爆行業風口
4.1 新風口:未來十年人工智能或使全球GDP增長12%
人工智能已成新風口,未來十年或使全球GDP增長12%,以FAAG和BAT為首的科技巨頭均涉獵人工智能,其中不少企業布局了全產業鏈。
市場規模:從全球來看,根據賽迪研究院估算,2018年AI市場規模預計達2697.3億元,且呈加速增長態勢?!督洕鷧⒖紙蟆方y計國內外20家權威機構預測數據,未來十年AI將使全球GDP增長12%,近10萬億美元。從中國來看,根據國務院發展規劃,2020年、2025年和2030年中國AI核心產業規模將分別超1500億元、4000億元和10000億元,并且帶動數萬億規模的相關產業。
巨頭布局:中美科技巨頭均涉足人工智能產業,Facebook、Amazon、Google、Mircrosoft和百度甚至布局了芯片、技術平臺/框架、消費級產品和行業解決方案的人工智能全產業鏈。其中,智能音箱Echo、智能超市Amazon go、TensorFlow系統、小冰聊天機器人、Watson、Apollo、DuerOS均已成為行業內的現象級產品。


4.2 算法+算力+數據:行業發展的核心驅動力
4.2.1 算法:從傳統機器學習到人工神經網絡,深度學習大幅提升機器學習能力
人工智能算法經歷了基于既定規則系統、傳統機器學習和深度學習三個時代:
基于既定規則系統:人類搭建智能背后的邏輯關聯,即人工提取特征,并且構建特征之間的“IF…THEN…”關聯規則。
傳統機器學習算法:由機器構建邏輯關聯,即人工提取特征后,由機器根據輸入的特征和分類構建“IF…THEN…”關聯規則,其本質是實現特征學習器功能。傳統機器學習算法(如支持向量機和決策樹)的擴展性較差,適合小數據集,其始終難以模擬現實世界的特征規律。
深度學習算法:特征提取和規則構建均由機器完成。深度學習是一個復雜的、包含多個層級的數據處理網絡,根據輸入的數據和分類結果不斷調整網絡的參數設置,直到滿足要求位置,形成特征和分類之間的關聯規則。因此,深度學習由海量數據驅動,如支撐圖像識別的數據庫ImageNet是一個百萬量級圖片數據集。人工神經網絡是最典型的深度學習算法,深度學習的隱含層數量將決定網絡的擬合能力。


4.2.2 數據:互聯網孕育大數據時代,為深度學習提供外部支撐
互聯網造就了大數據時代,海量、多維度數據為機器學習提供了養料。數據驅動是深度學習算法區別于傳統機器學習的關鍵點,因此深度學習算法需要以海量大數據作為支撐。人工神經網絡算法起源于20世紀40年代,此輪興起一定程度上源于互聯網帶動數據量爆發?;ヂ摼W生產并存儲大量圖片、語音、視頻以及網頁瀏覽數據,移動互聯網更是將數據拓展到線下場景,線下零售消費、滴滴打車等數據豐富了大數據維度。灼識咨詢數據顯示,全球結構化數據從2013年的0.8ZB增長至2017年的2.3ZB,非結構化數據從2013年的3.6ZB增至2017年11.3ZB,兩者復合增長率分別為30.2%和33.1%,預計2022年將達到18.9ZB和55.7ZB。

4.2.3 算力:GPU芯片提供高效計算能力,加速深度學習訓練
“大數據+多層神經網絡”需要高速和大規模算力作為支撐,GPU芯片彌補了CPU在并行計算上的短板,大規模、高速率的算力加速了深度學習訓練。“大數據+多層神經網絡”意味著深度學習需要利用數據進行擬合,即不斷地迭代、試錯以挖掘最優的關聯規則,因此深度學習需要以算力作為支撐。
CPU芯片:擅長邏輯控制和串行計算,大規模和高速率計算能力不足。從CPU芯片架構來看,負責存儲的Cache、DRAM模塊和負責控制的Control模塊占據CPU的大部分,而負責處理計算的ALU僅占據了很小一部分,因此CPU難以滿足大規模和高速率的計算需求。
GPU芯片:擅長并行計算,加速深度學習訓練。GPU芯片最初用于電腦和工作站的繪圖運算處理,對圖片每個像素的處理是類型統一但數量眾多的工作,負責計算的ALU單元占據了GPU架構大部分,GPU可一次執行多個指令算法。以英偉達的GPU芯片為例,Tesla P100和Tesla V100的推理學習能力分別是傳統CPU的15倍和47倍。2011年GPU被引入人工智能,并行計算加速了多層人工神經網絡訓練。


4.3 政策+資本:行業發展的沃土
政策的密集出臺和資本的頻頻介入為人工智能行業發展提供了沃土,使技術逐漸轉化為商業實踐。




4.4 Alphago:引爆風口的催化劑
AlphaGO戰勝李世石九段標志人類最后棋類智力堡壘的失守,人工智能行業熱度被徹底引爆。早在1997年,IBM“深藍”就戰勝了世界冠軍卡斯帕羅夫,但是圍棋比國際象棋難了6-9個數量級,圍棋也因此被視作是人類棋類智力的最后堡壘。2016年3月AlphaGO戰勝李世石九段點燃了人工智能的熱度,AlphaGO使人們意識到人工智能技術的發展水平遠甚于人類預期,人力資本和資金開始大規模涌入。2017年10月,DeepMind推出AlphaGO Zero,AlphaGO Zero在沒有人類經驗情況下通過自我對弈實現自我學習,這意味著部分領域的人工智能不需要人類經驗就能實現智能化。
5 人工智能產業鏈:基礎層+技術層+應用層,中國基礎層存不足
5.1 產業鏈初探:基礎層+技術層+應用層
人工智能產業鏈分為基礎層、技術層和應用層。基礎層提供算力和算法,技術層致力于解決不同類別問題,應用層將技術應用于商業場景。
基礎層:包含硬件和軟件,分別提供算力和算法框架。人工智能技術層由芯片和算法框架組成,芯片主要為深度學習的訓練和推理提供運算能力,算法框架是人工智能開發的“操作系統”,為開發者提供編程環境和算法模塊。目前中國企業尚未深度涉足基礎層,芯片研制和生產以及算法框架設計基本由國外巨頭壟斷。
技術層:致力于解決具體類別問題,語音識別、自然語言處理和計算機視覺是主要方向。技術層開始使用機器學習和深度學習算法來解決具體的語音或圖像問題,并且根據問題導向劃分為語音識別、自然語言處理和計算機視覺三大技術方向,識別準確率等技術能力指標是技術層關注焦點。
應用層:將技術運用于商業場景,模擬人類以解決實踐問題。應用層將語音識別、自然語言處理和計算機視覺直接應用于實踐產品,如金融、醫療、安防等領域。應用層由“技術水平+用戶體驗”雙輪驅動,且用戶體驗更為關鍵,產品能否洞察人性、迎合用戶需要將決定產品成敗。目前人臉識別認證、安防視頻搜索和智能音箱已邁向成熟,而自動駕駛、醫療影像診斷等產品處于探索期。

5.2 產業鏈布局:中國偏好技術成熟、可應用性強的領域
5.2.1 中美對比:中國側重技術層和應用層,美國側重基礎層
對比中美AI產業鏈布局(2017年7月前),中國偏好技術相對成熟的應用層和技術層(如語音識別和計算機視覺),而美國對需要長周期、基礎研究的芯片和技術平臺的關注度明顯超過中國。
企業分布(2017年7月):中國技術層和應用層AI企業數與美國差距較小,而基礎層差距尤為明顯。中國芯片、技術平臺企業數僅為美國42.4%和24.3%,而技術層和應用層差距較小,技術相對成熟的語音識別和計算機視覺的企業數為美國的150%和76.8%,仍處于探索期的自然語言處理僅為美國的36.5%。
累計融資規模(截止2017年7月):中國在語音識別、計算機視覺和智能無人機領域的累計融資規模超過美國,芯片融資規模差距明顯。中國人工智能融資同樣投向了技術相對成熟、可應用性強的領域,如語音識別、計算機視覺、智能機器人、自動駕駛的融資規模超過了美國,而芯片企業融資僅為美國的4.3%。
累計融資事件數(截止2017年7月):中美應用層融資事件均超基礎層和技術層,美國芯片領域融資事件數已比肩應用層。中美在無人機、智能機器人和自動駕駛領域融資事件數明顯超基礎層和應用層,表明技術層的通用技術需要根據細分應用場景進行再開發,使產品有效結合技術和用戶體驗,這為小型企業切入人工智能提供機會。



5.2.2 中國融資事件分析:大市場且技術成熟領域受資本追捧
市場規模和技術成熟度是中國AI投資關注焦點。為了解近2年AI領域投融資狀況,我們分析IT桔子AI融資數據庫中2017年至今且金額過億的融資事件(共92筆),發現中國AI投資偏好未發生改變,即應用層和相對成熟的技術層的融資事件數依舊超過基礎層。此外,市場規模和技術成熟度是決定融資能力的核心因素:
大市場的細分領域被資本追逐。自動駕駛、AI+醫療和計算機視覺融資數明顯超過其他領域,其中自動駕駛和AI+醫療市場規模大,計算機視覺通用性強,應用場景覆蓋新零售、安防等多個領域。
技術趨于成熟且已有產品落地的領域是投資熱點。在金額超過5億人民幣的中國企業融資事件中,計算機視覺占據9筆,且合計金額超200億元,語音識別占據3筆。自動駕駛和AI芯片處于研發初期,因此芯片領域僅寒武紀獲得過億美元融資,自動駕駛領域則有多筆資金投向了海外企業。

6 基礎層:芯片+開發框架
6.1 芯片:GPU帶來算力革命性突破,未來發展瞄準AI專用芯片
人工智能引入GPU突破CPU并行計算短板,GPU、FPGA和ASIC各有優劣。“大數據+人工神經網絡”的人工智能模式將海量數據切割進行并行計算,這需要芯片作為硬件支撐。目前市場上的人工智能芯片主要有GPU、FPGA和ASCI三類。
GPU:通用性強,但功耗高,目前仍是人工智能芯片首選。GPU全稱圖形處理器(Graphics Processing Unit),起初是專用于圖像運算的微處理器。人工智能訓練有大量浮點計算和矩陣計算,GPU計算的內部并行度高,GPU恰好突破了CPU在并行計算上的短板,為深度學習帶來革命性變化。GPU通用性強,不過功耗相對較高。
ASIC:人工智能專用芯片,功耗低,但研發門檻高。ASIC全稱專用集成電路(Application-Specific Integrated Circuit)。與GPU的通用性截然相反,ASIC特點是專用性,ASIC根據任務和算法量身定制芯片,結構上節省大量沒有使用的邏輯實現,同等工藝下執行速度超過其他類型芯片,且能耗更低。不過,ASIC芯片無法更改任務目標,適用的算法相對有限,研發周期明顯長于其他類型芯片。Google的TPU與寒武紀的NPU是ASIC的典型代表。
FPGA:介于GPU和ASIC之間,提供邏輯可設計的電路平臺。FPGA全稱現場可編程門陣列(Field Programmable Gate Array),其折中于通用型芯片GPU和專用型芯片ASIC之間,用戶可根據需要設計邏輯,支持重復編程。FPGA使用靈活,用戶可隨意組合邏輯功能,且無需介入芯片布線和工藝,效率略高于GPU(GPU乘法器和加法器數量固定,應用環節可能造成功能浪費)。FPGA功耗小于CPU,但是大規模開發難度大,總體性價比不占優。

6.1.1 GPU市場格局:Intel、AMD和NVIDIA三足鼎立,NVIDIA領跑AI賽道
GPU芯片技術發展歷史悠久,行業巨頭技術先發優勢明顯。GPU市場呈現Intel、AMD和NVIDIA三足鼎立格局,尚無中國廠商有能力參與市場競爭。從JPR提供的2017Q4數據來看,在PC GPU市場,Intel市占率達到67.4%,AMD和NVIDIA則瓜分了剩余的市場份額,市占率分別達到18.4%和14.2%;在獨立GPU市場,NVIDIA以66.3%市占率占據第一大市場份額。
NVIDIA推出多款面向人工智能的GPU芯片,領跑AI賽道。2016年4月NVIDIA推出了面向人工智能設計的GPU——Tesla P100,2017年5月推出了升級版——Tesla V100,將深度學習訓練速度提升了約2.4倍。



6.1.2 FPGA市場格局:Xilinx、Altera占據主要市場份額,Intel并購布局
FPGA核心玩家是Altera、Xilinx,其中Altera被Intel天價收購。與GPU相似,FPGA市場同樣出現寡頭壟斷趨勢,市場份額由Altera、Xilinx瓜分。2016年Xilinx、Altera的FPGA市占率分別達到54%和36%,剩余10%市場份額由Microsemi和Lattice等廠商占據。2015年6月,Intel宣布以167億美元價格收購第二大FPGA廠商Altera,豐富AI芯片產品線。

6.1.3 谷歌TPU領跑ASIC,寒武紀NPU是新生力量
ASIC行業格局未定,谷歌TPU引爆人工智能專用芯片熱潮,寒武紀NPU嘗試彎道超車。
谷歌TPU:內在需求驅動谷歌研發TPU。2011年谷歌測算發現,如果用戶每天使用3分鐘谷歌提供的語音搜索服務,谷歌的數據中心就必須擴大兩倍,深度學習的海量數據處理需求驅動谷歌研發更高效的芯片。大約在2015年,谷歌在內部數據中心上線了TPU芯片(Tensor Processing Unit)。TPU為機器學習量身定制,每個操作執行所需晶體管數量更少,因此提升了深度學習效率。根據谷歌發表的論文,TPU平均比當前GPU或CPU快15-30倍,性能功耗比高出約30-80倍。
寒武紀NPU:避開傳統芯片紅海市場,發力智能芯片旨在彎道超車。寒武紀脫胎于中科院學術團隊,主要面向人工智能專用芯片,目前已是中國芯片領域的獨角獸企業。寒武紀瞄準了智能芯片,避開Intel、AMD等巨頭壟斷的傳統芯片市場,嘗試利用技術迭代來實現彎道超車。寒武紀有智能處理器IP、MLU智能芯片和軟件開發環境三條產品線,分別面向終端、云端和開發者。NPU芯片是寒武紀核心產品,目前已推出了1A、1H8和1H6三款產品,其中華為首款AI手機芯片麒麟970已集成寒武紀1A,并在華為Mate 10中實現大規模商用。

6.2 開發框架:“開源+巨頭支持”模式,百度推出Paddle-Paddle
6.2.1 開發框架鏈接軟硬件,降低AI使用門檻
人工智能開發框架為AI開發、深度學習提供了軟件環境,降低AI應用門檻幫助開發者進行高效訓練和推斷。芯片提升了底層硬件支持,不過硬件和軟件之間需要鏈接紐帶,人工智能開發框架即是人工智能開發和應用的“操作系統”。人工智能開發框架主要功能包括為開發者提供編程環境和硬件工具庫、根據開發需要分配GPU等硬件資源,其最終目的是為開發者提供模塊化、通用、靈活的軟件環境,使開發者只需要關注高層結構,無需注意底層瑣碎問題,降低人工智能開發和使用門檻。
6.2.2 市場格局:開源平臺普遍背靠互聯網巨頭,百度推出PaddlePaddle
TensorFlow、Torch、Caffee、CNTK等主流框架各有所長,百度推出國內首個開源框架PaddlePaddle。目前最主流的人工智能開發框架有TensorFlow、Torch、Caffee、CNTK等,主要面向深度學習開發,各平臺在穩定性、調試難度、執行速度、內存占用等方面各有所長。2013年百度宣布其深度學習開源平臺PaddlePaddle在開源社區Github及百度大腦平臺開放,PaddlePaddle是首個國內企業推出的開源框架。
“開源+巨頭支持”是人工智能框架的主流模式,巨頭介入或為內部應用和搭建“框架-硬件”產業鏈條的雙重需求。主流人工智能框架均采用開源模式,但是普遍由科技巨頭支持,TensorFlow和CNTK由谷歌和微軟研發推出,Torch和MXNet分別被Facebook和亞馬遜推薦(作為公司的主要深度學習框架,且為生態系統開發提供軟件代碼、文檔和投資)。我們認為“開源+巨頭支持”模式或源于以下原因:1)人工智能仍處于發展初期,開源框架有助于推廣,且有利于知識溢出和行業發展。2)開源框架仍然需要不斷進行技術迭代和開發體驗優化(如由李沐及社區貢獻者開發的MXNet框架就因為API文檔和自定義教程過于簡單而難以滿足開發者需要),這些均需要雄厚資金的支持。3)谷歌、亞馬遜、百度等科技巨頭布局開源平臺一方面源于企業內部深度學習應用需要,擁有開發框架知識產權可以避免后續發展受制于人,另一方面則可建立“框架-硬件”產業鏈條,借力開源框架推廣自身的人工智能業務,進而帶動后續的AI芯片和AI云服務業務(自己研發平臺對自己產業鏈上下游產品支持度更好)。

7 技術層:語音識別+自然語言交互+計算機視覺
7.1 語音識別:正確率提升推動商業化,消費級產品或打破市場格局
7.1.1 語音識別正確率已提升至95%,顛覆人機交互模式仍需技術進一步提升
深度學習將語音識別正確率提升至95%,不過顛覆人機交互模式仍有待于語音識別正確率提升。語音識別(Auto Speech Recognize,簡稱AS)是機器將語音轉化為相應文本或命令的技術。從發展歷史來看,語音識別經歷了2個技術階段:1)GMM計算概率分布-HMM決策判斷:GMM是高斯混合模型,HMM是隱馬爾可夫模型,兩者結合將語音識別正確率提升至約80%,不過該正確率仍然難以滿足商業化需要。2)深度學習:2011年深度學習技術被引入語音識別,語音識別正確率突破了技術瓶頸(2017年識別正確率已達95%),Siri、Google Assistant、Echo等一系列商業化產品隨之涌現。不過,95%的正確率僅能滿足偶爾使用需求,語音徹底取代鍵盤成為最常用人機交互模式仍有待于正確率的進一步提升。
語音識別可分為“降噪-特征提取-解碼”三個環節,深度學習提升“特征-單詞”映射正確率。語音識別首先對輸入的語音信號進行清洗,然后將信號切割成若干片段并抽取辨別單詞的語音特征,最后根據深度學習生成的語音模型將提取特征映射到單詞。

7.1.2 市場格局:行業格局已初步形成,消費級產品助力科技巨頭后發制人
作為人工智能領域相對成熟的技術,語音識別市場格局已初步形成。根據中國語音產業聯盟數據,2015年Nuance和科大訊飛分別占據全球和中國語音市場的頭把交椅。
Nuance是全球最大的語音識別廠商,2015年全球市場份額達31.6%。Nuance語音識別技術被用于蘋果Siri,旗下產品Dragon Drive(車載語音識別)用于奔馳、雷克薩斯、豐田、榮威等眾多汽車品牌。
科大訊飛是中國智能語音產業的領導者,2015年中國市場份額達 44.2%。科大訊以訊飛超腦、AIUI為內核打造了AI開放平臺,面向教育、城市、汽車、醫療和家居等多個場景,其在電信、金融、能源、交通、政府等主流行業的市場份額達到80%以上。
技術趨于成熟且消費級產品出現為行業格局帶來變數,谷歌、蘋果、亞馬遜以及百度、阿里等中美科技巨頭目前在語音識別賽道增長迅猛。Nuance和科大訊飛在技術上的先發優勢使其占據了大量市場份額,不過隨著語音識別技術趨于成熟,行業發展重心從基礎技術研發轉向產品應用,谷歌、亞馬遜和蘋果等互聯網巨頭的消費級產品或將顛覆現有的市場格局,Echo、Google Assistant等消費級產品的誕生驅動科技巨頭涌入語音市場,科技巨頭的人才和資本優勢以及消費級產品積累的數據將侵蝕Nuance和科大訊飛的基礎技術優勢,傳統頭部企業市占率或進一步下滑。

7.2 自然語言處理:實現機器“聽得懂”,技術成熟度仍較低
7.2.1 自然語言處理實現機器“聽得懂”,語言規則復雜性制約技術成熟度
自然語言處理主要解決機器“聽得懂”問題,機器翻譯、問答系統和文本摘要是其主要應用場景。自然語言處理(Natural Language Processing,簡稱NPL)主要解決機器“聽得懂”問題,即理解人類語言和文字,是人工智能的核心分支之一。自然語言處理也是人機互動閉環的關鍵技術,計算機首先需要使用語義理解技術來分析用戶輸入的語言,進而調取知識庫,最后生成語言輸出給用戶。自然語言處理主要應用于以下領域:
機器翻譯:機器翻譯將一種自然語言翻譯到另一種自然語言,其不僅包含了兩種語言間詞和短語的映射,而且需要根據上下文的語境表征并結合自然語言知識圖譜(基于海量數據訓練)進行適當推理,最后給出最合適、自然的翻譯結果。
問答系統:問答系統旨在使計算機像人類一樣用自然語言與人進行交流,即人們向計算機提問并獲取關聯度較高的答案。問答系統目前已廣泛應用于聊天機器人、智能客服、智能手機助手。
文本摘要:文本摘要通過閱讀文字段落進而將其中的核心內容提煉出來。文字摘要已有廣泛的應用場景,如新聞標題和關鍵詞的提煉,也包括谷歌、百度等搜索引擎的優化,實現搜索的“所見即所得”,提升用戶搜索的準確率。
語言的不確定性、不可預測性、長尾現象和非線性關聯使自然語言處理的技術成熟度較低。自然語言處理的技術成熟度明顯遜于語音識別和計算機視覺,其在技術上主要面臨以下挑戰:1)詞法、句法、語義、語用和語音的不確定性。2)新的詞匯、術語、語義和語法的不可預測性。3)數據不充分的長尾現象,即數字資源難以覆蓋全部語言現象。4)語義知識的非線性關聯,即語義關聯難以用簡單數學模型描述。以“我們把香蕉給猴子,因為它們熟透了”和“我們把香蕉給猴子,因為它們餓了”兩句為例,其中的“它們”需要結合猴子和香蕉屬性進行推理。

7.2.2 市場格局:市場較為分散,新入局者仍有機會
技術發展水平制約自然語言處理頭部企業誕生,新入局者仍有機會。語言規則復雜性以及技術的低成熟度使自然語言處理領域尚未誕生覆蓋所有細分領域且占據市場多數份額的龍頭企業。目前,自然語言處理產品可分為3類:1)細分領域技術應用:人工智能律師Ross、百度和谷歌翻譯。2)消費級平臺產品:如Alexa語音助手和小度在家等,不過僅限于資訊了解、鬧鐘設定、任務提醒等簡單功能。3)面向B端的產品解決方案:如Duroes、谷歌和三角獸等,但是功能和應用場景仍然相對有限。因此,受制于技術水平和語義規則復雜性,自然語言處理市場相對分散,新入局者仍有機會獲取一定的市場份額。

7.3 計算機視覺:實現機器“看得懂”,安防廠商、科技巨頭和創業公司機會并存
7.3.1 計算機視覺實現機器“看得懂”,靜態物體識別技術趨于成熟
計算機視覺實現了計算機“看得懂”,人臉識別、OCR和圖像結構化是其主要應用場景。計算機視覺是用計算機模擬人眼對目標進行識別、跟蹤和測量,并且對圖形進行處理,即實現計算機“看得懂”。計算機視覺處理過程包括預處理、分割、特征提取和分類四個環節:預處理主要對圖像傳輸過程中的退化進行改善(如亮度、色彩和對比度),切割將圖像分成互補重疊而又具有各自特征的子區域,特征提取描繪邊緣的方向密度分布,分類根據算法模型給出類型結果。計算機視覺可用于以下領域:
人臉識別:基于人的臉部特征信息進行身份識別,用于門禁考勤、身份認證、人臉對比等。
文字OCR:計算機讀取印在或寫在紙上的字,實現文字的快速錄入。
圖像結構化:提取圖片或視頻中的人、車、物,使得圖片和視頻的信息可以被計算機搜索和查詢,并對車輛及車輛行為、人體屬性及其行為進行分析。
靜態物體識別技術趨于成熟,監督學習和推理能力是計算機視覺技術的主要短板。從技術成熟度來看,生物特征(人臉、指紋和瞳孔)和靜態物體識別較為成熟,動態圖像識別難度較大。從圖像識別技術瓶頸來看,1)現有技術難以解決光線過爆和過暗問題。2)圖像識別分類主要依賴監督學習(利用標記訓練數據來推斷分類),即機器學習需要手工標注物體特征,數據標注的體量和數量受限使計算機可識別的物體種類有限。3)現有技術仍然由數據驅動,因此計算機視覺技術缺乏基于常識的推理能力。


7.3.2 市場格局:2020年中國市場規模預計725億元,安防廠商、互聯網巨頭和創業公司機會并存
計算機視覺2020年市場規模預計達725億元,安防廠商、互聯網巨頭和創業公司是主要玩家。根據智研咨詢的數據,2017年計算機視覺市場規模為40億元,2020年市場規模預計達725億元。國內計算機視覺的玩家有三類:1)???、大華等安防廠商:安防影像分析的市場需求驅動此類企業的技術研發。2)互聯網巨頭:以百度為首的互聯網巨頭在數據獲取上有明顯優勢,且以收購或并購形式擴大技術優勢。3)創業公司:包括商湯科技、依圖科技和曠視科技等企業,普遍以細分領域為發力點。



8 應用層:智能語音+安防+金融+醫療+自動駕駛
8.1 智能語音:人工智能時代的流量入口,科技巨頭群雄逐鹿
智能語音或將成為人工智能時代的流量入口,以FAAG和BAT為代表的科技巨頭均發力智能語音技術。智能語音主要通過“語音識別+自然語言處理”作為媒介來調取后端應用,從而為用戶提供服務。隨著語音識別和自然語言處理技術的日趨成熟,人機互動方式將逐漸從文字轉變為語音,智能語音或將成為人工智能時代的流量入口。因此,以FAAG和BAT為代表的科技巨頭均發力智能語音技術,推出了Siri(蘋果)、Assistant(谷歌)、Alexa(亞馬遜)、Cortana(微軟)、DuerOS(百度)、騰訊叮當(騰訊)等產品,以占據下一輪技術迭代的風口。主流智能語音已覆蓋了日常信息查詢、影音娛樂、個人助手、生活服務、智能家居控制等功能,實現人、物和服務的互通互聯。
手機、車載設備和智能音箱是智能語音的硬件載體,其中主打家庭場景的智能音箱已成新風口。目前,手機、車載設備和智能音箱是智能語音技術的主要硬件載體,分別面向移動場景、駕駛場景和家庭場景。其中,主打智慧家庭的智能音箱已成眾多科技巨頭布局重點:1)智能音箱是家庭IoT設備(Internet of things)的控制器,智能音箱未來有望帶動同一廠商其他家庭IoT產品的消費量(如冰箱、空調等)。2)作為家庭生活的流量入口,智能音箱將為廠商提供家庭生活的行為數據,進一步支撐數字營銷和產品研發。2017年全球智能音箱出貨量達3000萬臺,2019年預計達8500萬臺,2018Q2亞馬遜和谷歌合計占據了70%的智能音箱市場份額。作為消費級人工智能產品,用戶體驗、功能覆蓋的優先級高于技術水平,因此智能音箱的生態整合能力是未來發展的關鍵,流量入口的“網絡效應”將取決于平臺能否接入更多種類的應用、設備以及更多數量的用戶。




8.2 AI+安防:智慧安防助力警務管理,動態人臉識別仍存不足
千億視頻監控市場使“AI+安防”落地,智能安防的視頻結構化、人臉比對功能助力警務管理。2018年中國視頻監控市場規模預計達1192億元,千億市場和政府網格化管理的雙重驅動力使“AI+安防”落地。借助于計算機視覺技術,人工智能能夠對視頻數據進行實時結構化處理,不僅使警務人員對視頻內容進行快速檢索,而且還可自動將抓拍人臉與數據庫進行比對,提供黑名單預警、人員布控、人臉檢索、大庫比對等智能化應用,對嫌疑人員進行實時布控,警務管理效率明顯提升:
案例一:2016年某地公安引入大華股份的警務方案后,警情同比下降46%,落地侵財破案率達到72%,入戶盜竊破案率達到61%,扒竊破案率高達90%。
案例二:某搶劫案偵破需要對來自500多個監控點的長達250個小時視頻中的50萬人流進行分析,傳統人力查閱至少需要30天時間,且極易遺漏關鍵信息,而??低暼斯ぶ悄芤曨l分析技術僅5秒就找到了犯罪嫌疑人。
案例三:襄陽市襄城區曾發生搶劫案,接警后嫌疑人照片被導入曠視(Face++)智能安防人臉識別系統比對搜索,民警迅速鎖定了涉案人員。
“AI+安防”目前受制于誤報率和復雜多變的應用環境,動態人臉監控尚未大規模運用。目前動態人臉識別準確率無法達到100%,導致系統頻頻誤報干擾正常警務工作,使不少公安部門棄用動態人臉識別。此外,現有人臉識別未形成數據閉環(缺乏自主學習和自主標注功能),千萬人口級城市仍然存在數十萬的人臉盲點。



8.3 AI+金融:人工智能助力金融服務效率,身份認證、風控和投顧是三大應用場景
重復度高、數據標準化和數據處理量大使金融成為人工智能落地場景,智能身份認證、智能征信風控和智能投顧理財是AI+金融典型應用。資料歸檔等固定程序工作以及客戶、行業數據整合優化均可被人工智能取代,節省人力和物力,并且提升金融服務效率。目前“AI+金融”主要集中在以下三個方面:
智能身份認證:基于計算機視覺的人臉識別使得用戶遠程開戶、刷臉支付成為現實,助力金融機構遠程獲客和數字營銷,優化了用戶體驗,且人臉信息較難復制和盜取特點提升了金融服務的安全性。目前智能身份識別技術較為成熟,已廣泛應用于銀行和券商開戶、業務辦理以及新零售等場景。
智能風控:人工智能技術可助力金融行業形成標準化、模型化、智能化、精準化的風控系統。傳統風控依靠地推式實地考察和人工資質核實,效率低且存在委托代理風險,而智能風控可實現實時、智能征信和審批,提升放貸效率。對個人用戶來說,多維度用戶數據(如通話記錄、短信信息、購買歷史和社交網絡信息)通過自然語言處理可轉化為用戶特征畫像,進而根據評分模型評估個人信用。對企業用戶來說,智能征信風控可挖掘企業間關聯以及企業子母公司、上下游、競爭對手和高管等深度信息,最后使用機器學習來評估企業還款能力。以京東金融為例,其基于人工智能開展放貸業務效率比傳統金融機構提升了70倍,成本降低了30%。智能風控技術已經較為成熟,未來數據數量與質量將決定風控效果。
智能投顧:智能投顧通過特定算法模型管理帳戶,結合投資者風險偏好、財產狀況與理財目標,為用戶提供自動化的資產配置。AI+投顧有以下優勢:1)挖掘用戶個性化需求,彌補投資顧問在深度了解客戶方面的不足。2)結合用戶需求以及生命周期等特征,提供“千人千面”的定制化資產配置。從行業格局來看,智能投顧已孕育了諸多知名公司,2017年Betterment在美國的AUM(Asset Under Management,簡稱AUM)達80億美元,中國則誕生了理財魔方、摩羯智投和金貝塔等頭部企業,分別主打國內資產配置、“銀行+人機結合”和“基金+社交跟投”,不過智能投顧尚處于技術探索期,技術仍在不斷改良和優化。


8.4 AI+醫療:醫學影像、輔助診療和語音電子病例是主要應用場景,騰訊覓影已篩查400多例早期食道癌病例
人工智能賦能醫生,提升診療能力和工作效率破局醫療服務痛點。人口老齡化加劇、慢性疾病增長使大眾對醫療服務需求日益增加,而區域醫療資源分布不均,醫生培養周期長,優質醫療服務供不應求等醫療服務痛點使其成為AI應用場景。目前AI+醫療主要集中在醫學影像、輔助診療和語音電子病歷三大領域:
醫學影像:AI+醫學影像利用計算機視覺技術來模擬醫生讀片,篩選出有潛在疾病的影像片子并且指出病灶所在位置。傳統人工讀片模式速度慢,讀片量有限,且基層醫院醫生受限于知識結構難以發現早期病變。AI+醫學影像助力疾病早期篩查,提高患者生存率。
輔助診療:AI+輔助診療是讓計算機學習醫療知識和診療案例,幫助醫生診療推理疾病原因,并且給出可靠的診斷治療方案。AI+輔助診療彌補了社區醫院、村診所等基層醫療衛生機構在診療能力方面的短板,提升基層醫療效率,降低患者的就醫成本。以精神疾病為例,中國人均精神科專家不足發達國家10%,檢查率僅9%,人工智能輔助診療可將診斷效率提升69%。
語音電子病例:語音電子病例利用語音識別技術將醫生語音直接轉成電子文字病例。撰寫病例往往占據醫生大量時間,根據香港德信的調查,50%中國住院醫生每天用于寫病例時間超4小時,有部分醫生甚至超7小時。語音電子病例大幅節約醫生在患者病程、手術記錄等電子文本的錄入時間,使醫生專注于醫患交流。

科技巨頭紛紛入局,騰訊覓影已篩查400多例早期食道癌病例。2016年10月百度推出了“百度醫療大腦”,2017年3月阿里云發布醫療操作系統“ET醫療大腦”,2017年8月騰訊推出AI醫學影像產品“騰訊覓影”。騰訊覓影已在全國100多家三甲醫院落地,覆蓋食管癌、肺癌、糖尿病視網膜病變、乳腺癌、結直腸癌和宮頸癌六種疾病的早期篩選,篩查出高風險病變3.7萬例。以食管癌為例,由于缺乏足夠認知和有效篩查手段,中國早期食管癌檢出率低于10%,而騰訊覓影對早期食道癌發現準確率高達90%,截止2018年9月已篩查400多例早期食道癌病例。
AI+醫療仍處于發展初期,缺乏高質量標注數據是AI+醫療面臨的主要挑戰。醫療服務特殊性使其對產品識別準確性要求高,因此數據標注準確性尤為關鍵,且醫學影像需要訓練數據量大,僅騰訊覓影食管癌篩選系統就使用了10萬張不同級別醫生雙盲隨機循環標注的醫學影像作為訓練數據。
8.5 自動駕駛:未來或顛覆全球汽車產業鏈,谷歌、特斯拉和百度領跑自動駕駛賽道
自動駕駛通過“感知-認知決策-控制執行”模擬人類駕駛,主流自動駕駛系統處于L2、L3級技術水平。自動駕駛是依靠人工智能、視覺計算、雷達、監控裝置和全球定位系統協同合作,讓計算機在沒有任何人類主動操作情況下,自動安全地操作機動車輛。自動駕駛通過“感知-認知決策-控制執行”三個環節來模擬人類車輛駕駛流程,感知環節主要由傳感器檢測周邊障礙物和道路環境,認知決策環節根據云端算法、地圖和數據進行行為決策與路線規劃,控制執行環節負責最后的車輛行駛。根據SAE(國際自動機工程師學會)定義,自動駕駛分為L0-L5六級,L4、L5是無人駕駛階段,汽車可在限定環境或全部環境下去自動完成駕駛任務,L1、L2和L3是輔助駕駛階段,汽車可完成縱向、轉彎和加減速等操作,但是仍然需要人類駕駛員隨時接管車輛。目前,包括特斯拉AutoPilot在內的自動駕駛系統均處于L2、L3級,百度“阿波龍”則是全球首款量產的L4級自動駕駛巴士。
自動駕駛或顛覆全球汽車產業鏈,谷歌、特斯拉和百度領跑中美自動駕駛。自動駕駛的顛覆性影響存在于以下方面:1)自動駕駛使車輛不再受駕駛員心理和情緒干擾,減少違反交通犯規和人為疏忽所造成的交通事故。NHTSA(美國國家公路交通安全管理局)報告顯示,特斯拉在引入AutoPilot后,每百萬英里交通事故數從1.3降至0.8。2)自動駕駛將節省人工駕駛的時間成本,根據科技智庫RethinkX估計,美國在汽車駕駛上花費了1400億小時,這部分時間釋放的生產力將使GDP增長1萬億美元。3)共享出行將成為現實,私家車保有量減少將大幅降低溫室氣體排放。汽車行業巨大市場規模以及自動駕駛顛覆性影響讓科技巨頭紛紛入局自動駕駛,目前谷歌、特斯拉和百度分別領跑中美自動駕駛賽道:
谷歌:先發優勢明顯,測試里程、傳感器制造設計和全自動駕駛均領先其他廠商。谷歌是科技巨頭中最早布局自動駕駛的企業,2009年谷歌就創建了自動駕駛項目,2012年谷歌獲得了美國第一張自動駕駛測試牌照。先發優勢已形成了技術上領先:1)測試里程遠超其他廠商:截止2018年8月谷歌自動駕駛測試里程數已達900萬公里。2)擁有自己設計制造的自動駕駛硬件傳感器:包括激光雷達、視覺傳感器等。3)公路測試完全自動駕駛:2017年末谷歌路測完全自動駕駛,即測試車輛中沒有駕駛員掌握方向盤。2016年12月,谷歌自動駕駛Waymo脫離谷歌母公司Alphabet獨立運作,開啟了商業化進程,目前已經在美國菲尼克斯推出了600輛無人出租車供志愿者試用。
特斯拉:AutoPilot商業化早,且用戶體驗好,但技術存風險。特斯拉AutoPilot是最早商業化且受關注程度最高的自動駕駛技術,2015年特斯拉為Model S開啟了AutoPilot功能。從技術能力來看,AutoPilot處于L2、L3級。從用戶體驗來看,AutoPilot操作簡單,對道路環境的寬容度高,且能及時、準確處理變道和插隊情況。不過,AutoPilot發生了多起因未能識別障礙物而發生的車禍,技術仍然存在巨大風險。2016年5月美國弗羅里達州一位車主使用自動駕駛時發生事故死亡,同年1月AutoPilot在中國京港粵高速上因未能識別道路清掃車而發生撞擊致死事故。
百度:自動駕駛研發明顯領先騰訊和阿里,商用型L4級自動駕駛客車“阿伯龍”已量產下線。百度是中國自動駕駛賽道最早的入局者,百度啟動自動駕駛項目、成立自動駕駛事業部、獲得T3牌照和推出自動駕駛平臺的時間節點均領先于騰訊和阿里。2018年7月百度自動駕駛技術已進入商業化階段,百度和金龍客車推出的首款商用型L4級自動駕駛客車“阿伯龍”正式量產下線,將在北京、雄安、深圳和日本東京等地進行商業化運營。


