被嚴重低估的蘋果AirPods和語音產品如何落地？精選

由 36氪於 31/03/2017 發表收藏文章

圖片來源：pic.36krcnd.com

編者按：本文來自微信公眾號“矽谷密探”（ID：SVS-007），作者嚴肅，內容來自《AI嚴肅説》專欄，圍繞“如何打造中國的Echo”這個問題和聲智科技創始人兼CEO陳孝良聊了聊。
陳孝良在中科院聲學研究所獲博士學位，創業前在中科院聲學所擔任副研究員（副教授）。

https://pic.36krcnd.com/201703/31034726/ls9u1z5knbfcusvd!heading

圖片來源：pic.36krcnd.com

（聲智科技創始人兼CEO陳孝良）
為什麼語音重要？

人類用語音來交互至少十幾萬年，語音作為人類交流最自然的方式，比文字和圖像更具天然的優勢。

如果説從用鼠標操作枱式機進化到更接近人性的手指操作智能手機是一個大的飛躍，那麼新一代的語音交互服務將是一個更大的飛躍。

https://pic.36krcnd.com/201703/31034726/w011psgd8q4p9xt6!heading

圖片來源：pic.36krcnd.com

想象一下你可以通過語音來完成自己想要完成的事情，這多麼符合人類懶惰的天性。也許你還不習慣對着一個硬件説話，但是新一代人會天然適應這一交互，一切都會如此的自然。

語音交互是未來實現AR的必經之路

把時間尺度再拉大一點，如果我們相信增強現實設備（AR）是未來的科技趨勢，那麼語音也是一種AR時代必備的交互方式。

無論增強現實設備是不是一個始終在線的設備，語音喚起和控制都會是一個比較便捷的交互方式，而語音結合手勢識別等其他交互方式會讓增強現實設備使用更加靈活（就像電話比電視更早發明）。

實際上微軟的Hololens就已經搭載了語音識別功能，在未來語音交互很大概率會成為增強現實產品的標配。
語音產品可能帶來商業模式的顛覆

説到語音產品，陳孝良認為，目前的使用場景分兩種，一種是近場語音（手機語音交互，嘴巴貼近麥克風交互）這種識別率達到90%以上，而遠場語音（3-5米、車載環境下、智能家居環境下）的識別其實不高，很多連50%的識別率都達不到，所以市面上的語音產品體驗並不好。

亞馬遜的Echo是遠場語音的成功典範，Amazon Echo系列產品在2016年賣出了超過650萬台，而在2015年則是170萬台，而預計2017年超過1000萬台。銷量激增的背後是 Echo 正迅速從早期用户的小眾圈子進入大眾市場，Echo被寄予厚望，有望成為一代智能設備的中樞。

https://pic.36krcnd.com/201703/31034726/gmmsr8jv29ncfwe8!heading

圖片來源：pic.36krcnd.com

（Echo系列產品）

Echo的成功，最恐慌的其實是Google。因為未來如果人們日益習慣語音和語音助手這種方式，而不再是去使用傳統的搜索服務，搜索引擎將會被取代。

以搜索引擎為代表的廣告市場將不再是主流。以後更大的可能是會出現一種基於消費和服務的交易模型，消費者只需要在自己需要某類服務的時候才需要付費。這可能會是類似於真正的個性化推薦的服務，比搜索引擎更精準，轉化率更高。

某個角度上説，掌握了Alexa這類語音助手的企業將是新時代的Google，是服務和流量的入口。類似聲智科技做的這類語音前端硬件產品也會是個百億美元的市場，而新生態下的應用層也會有新的巨頭。
説到這裏，歷史又有些許的相似，這讓探長想起了當年以廣告為主要商業模式的Google推出免費的Android手機系統，在移動市場上將以賣軟件授權為主的微軟直接打趴。核心原因是微軟並沒有找到在移動端適合自己的商業模式，這是一種商業模式對另一種商業模式的無情碾壓。

如今Google卻面臨了同樣的威脅，以賣貨和交易為主的Amazon推出語音產品Echo，而實力雄厚的Google雖然也緊追不捨推出了競品Google Home，但Google Home如何賺錢是Google未必想明白了的問題。

被忽視的AirPods和聰明的蘋果

而近場語音的王者則是蘋果，iPhone上的Siri雖然是個雞肋產品，但是蘋果一直在近場語音上不斷佈局，Siri不斷在迭代，還集成到了蘋果桌面端Mac操作系統上，蘋果顯然會不斷地改進Siri直到找到合適的用户場景。
蘋果在近場語音上的另外一個重要佈局則是AirPods。

AirPods讓我想起了科幻電影《Her》，在這部影片中，剛失戀的男主角西奧多與人工智能談起了戀愛。男主把人工智能系統裝進了一個小巧的無線耳機中，每天都戴着它上下班、搭乘地鐵、逛街、去海邊，這樣一來便可以隨時隨地與她談情説愛。

https://pic.36krcnd.com/201703/31034726/cn9okxk8j0g1q9cs!heading

圖片來源：pic.36krcnd.com

（《Her》劇照，男主帶着耳機）

這個名為薩曼莎的人工智能系統善解人意，擁有迷人的聲線，能幫男主解決很多生活問題，而AirPods結合Siri目前也能幫你解決一些簡單的問題，而未來如果人工智能有了質的飛躍，不排除人人都會有一個自己的“薩曼莎”，從此不怕失戀。

而蘋果在這裏也有自己清晰的商業模式，就是賣設備。

https://pic.36krcnd.com/201703/31034726/vt0qdbuaci3cxkni!heading

圖片來源：pic.36krcnd.com

近期市場調研公司Slice Intelligence發佈的美國無線耳機市場線上銷售顯示，短短的一個月內，蘋果AirPods就異軍突起佔據了美國無線耳機26%的市場份額。

不直接做新硬件

在Amazon之前，Google和微軟早早就在研究人工智能技術，為什麼在語音交互上會被半路出家的亞馬遜給超越？

亞馬遜則在一開始就將軟件和硬件結合起來研究，Amazon Echo做了五年，研發出了自己的核心技術——用於遠場識別的麥克風陣列，並且讓Echo落地在了智能音箱這個已經有需求的硬件產品上。

Echo並沒有直接創造一個新硬件，而是在已有的硬件品類上加上語音識別功能，並且切實的解決了遠距和重噪環境下的語音識別問題。而Google微軟此前的研究一直停留在算法、深度學習這些軟件層面的交互上。語音交互的落地要解決的是真實場景下的語音識別，這要求考慮説話者與機器的距離，要讓説話者在屋子任何位置下的語音命令都能被機器識別。這又牽扯到對噪聲、混響、回聲等干擾聲音的處理，這是光靠軟件所解決不了的。“遠場語音交互技術的一個瓶頸是聲學，而這也是我們核心的技術優勢”，陳孝良表示。

https://pic.36krcnd.com/201703/31034726/x1qpy4scz2ixg8xi!heading

圖片來源：pic.36krcnd.com

（AirPods是一盤很大的棋）

在AirPods上，蘋果也重複了和Amazon同樣的邏輯，AirPods作為藍牙耳機本身就是具有功能性的設備，而未來結合Siri等語音助理將使得AirPods更加強大。

當然還有一點很重要，蘋果和亞馬遜賣貨的能力都很強，這也是Google的劣勢。
要尊重硬件的週期

Amazon Echo是Amazon旗下的Lab126研發的，他們之前也推出了Kindle和Fire Phone等產品。Echo項目是2010年末啟動，Amazon Echo也不是最初的名字，而是Amazon Flash，甚至2014年發貨前夕還是這個名字。

https://pic.36krcnd.com/201703/31034726/39szwq5b5z39zrc9!heading

圖片來源：pic.36krcnd.com

（Lab126全家桶）

Amazon Echo整個研發過程用了幾年時間，如今有上千人的團隊在改進產品。舉一個例子，Echo的響應速度剛開始是5秒，後來壓到1.5秒，再後來就是1秒以內（這是平均響應時間）。

實際上智能音箱產品需要解決聲學 + 喚醒 + 識別 + 控制類的語義理解 + 語音合成等難題。硬件前端涵括麥克風陣列、降噪算法、芯片、硬件平台等，而云端包括語音識別和語義理解、語音數據，同樣內容上要提供音樂、天氣、短信、通話等應用工具。

中文的喚醒和識別就是個很大的技術挑戰，中文混雜以及地方方言更是需要持續優化，而數據積累和數據標註也需要時間和廣度，還需要對特定場景（比如導航）進行優化，這些都需要較長時間的積累和研發，即使是有大量技術積累而實力雄厚的Google也至少兩年時間才做出Google Home。
關注十倍以上效率提升的場景

人工智能要落地，必須要落地到實際場景和產品中。

語音產品要落地，也必須要帶來較好的效率的提升和用户體驗的提升。需要去尋找新的用户場景，或者是去改善已有的交互方式，或者是取代已有的交互方式。

歷史經驗表明，一個新的交互方式要取代另一種交互方式，必須是要有十倍以上效率的提升。這也恰好解釋了為什麼Siri在手機上基本是雞肋，因為觸屏的交互在大部分場景下已經能夠很好的滿足用户需求了。語音在智能手機上要想發揮作用，必須找到觸屏交互不能很好解決的場景。

聲智科技前期主要面向智能音響領域，同時逐步拓展智能安防、智能醫療、機器人等領域的客户。在聲學模組基礎上，聲智科技還打造了智能音響的一體化語音交互方案，包含硬件與雲端服務。
陳孝良表示非常看好將語音產品應用於以下領域：

智能硬件：非常看好傳統硬件的品類升級，比如智能耳機和智能音箱。又比如筆記本和電視上加上語音功能，可以想象的一個場景是，通過遙控器來控制電視機來選電視欄目或者電影效率遠遠低於直接語音輸入。

智能安防：簡單的説，可以給所有的攝像頭加上麥克風陣列，增加語音模塊。

智能醫療：語音在這個領域有諸多應用，一個例子是電子病歷，簡單的説就是醫生在診斷過程中語音輸入便可以直接形成病歷。另外一個例子是醫學檢測有些是通過聲音檢測來完成，那麼直接加上語音模塊既能完成交互又可以檢測，可以淘汰掉屏幕等交互方式。
教育：可以將麥克風陣列應用於多媒體教室，另外一個應用領域則是遠程家教。

智能玩具：具有語音交互功能的玩具更吸引孩子們的注意，但是考慮到玩具成本以及孩子的習慣，單麥識別算法是當前比較適合的方案，例如360兒童機器人，360故事機等

汽車市場：在手和眼鏡都被佔據(no hands no eyes)條件下，語音是個最好的交互方式，汽車上的語音產品是兵家必爭之地。

語音將成為下一代智能設備重要的交互方式是一個確定的事情，隨着行業的進步，更優質的語音產品將會更低成本進入生活方方面面，為我們的生活和工作帶來更多便利。