[釘科技專訪]假如用“春風(fēng)十里”形容速度之快,用在人工智能領(lǐng)域應(yīng)該再合適不過(guò)。CB Insights數(shù)據(jù)表明,2016年,人工領(lǐng)域的共有涵蓋13個(gè)種類的超過(guò)1600家公司獲得了超過(guò)90億美元的融資?!稙蹑?zhèn)指數(shù):全球人工智能發(fā)展報(bào)告2016》則顯示,2016年,全球每10.9個(gè)小時(shí)誕生一家人工智能企業(yè)。
市場(chǎng)并不缺乏概念炒作者,但技術(shù)的發(fā)展更需要應(yīng)用和落地,在釘科技看來(lái),從相關(guān)分支切入,再在細(xì)分領(lǐng)域產(chǎn)品化,單點(diǎn)滲透,或許是在現(xiàn)階段突破市場(chǎng)的最好方式。
自2012年涉足領(lǐng)域,搜狗就專注于自然交互和深度計(jì)算,以語(yǔ)言為核心,展開(kāi)以文字和語(yǔ)音為主的交互方式。去年8月,搜狗推出知音引擎,力圖讓用戶獲得更自然的語(yǔ)音交互。時(shí)隔一年,搜狗聽(tīng)寫推出,主打語(yǔ)音實(shí)時(shí)轉(zhuǎn)文字功能。為更深入了解產(chǎn)品及其背后的戰(zhàn)略構(gòu)想,釘科技與另幾家媒體小伙伴對(duì)搜狗語(yǔ)音交互技術(shù)中心總經(jīng)理王硯峰進(jìn)行了專訪。
搜狗語(yǔ)音交互技術(shù)中心總經(jīng)理 王硯峰
搜狗聽(tīng)寫:解放雙手,用嘴寫作
國(guó)內(nèi)的職業(yè)寫手以及記者等媒體從業(yè)人員的總數(shù)接近6500萬(wàn),即便面對(duì)龐大的人口總數(shù),也并不能被作為小眾,這也正是搜狗聽(tīng)寫主推的用戶群體。
記者常常面臨這樣的問(wèn)題:每天要應(yīng)付多個(gè)不同場(chǎng)合的采訪工作,稿件又需要即時(shí)撰寫發(fā)布,這就代表,即便是在從一地到另一地的路上,也要爭(zhēng)分多秒。不過(guò),面對(duì)時(shí)長(zhǎng)不短且可能有雜音、地方口音干擾的錄音材料,有時(shí)也會(huì)感到無(wú)所適從。
職業(yè)寫手倒是不需要打一槍換一個(gè)地方,不過(guò),這類人通常與鍵盤有著更長(zhǎng)時(shí)間的接觸,“指尖疲勞癥”或許比記者更甚,但是,從椅子到沙發(fā),從沙發(fā)到床的“陣地”轉(zhuǎn)換,并不能解決這種“痛楚”。
針對(duì)上述痛點(diǎn),搜狗聽(tīng)寫從以下五個(gè)方面入手:一是長(zhǎng)時(shí)語(yǔ)音聽(tīng)寫,即連續(xù)錄音+實(shí)時(shí)轉(zhuǎn)文字;二是文本錄音同時(shí)保存,無(wú)縫對(duì)齊;三是支持重點(diǎn)標(biāo)注;四是只是邊聽(tīng)邊改;五是支持多客戶端同步,可以用網(wǎng)頁(yè)端進(jìn)行比較重要的編輯工作。細(xì)節(jié)上,還支持自動(dòng)加書名號(hào)等操作。
如此,記者就可以在場(chǎng)景方便的情況下隨時(shí)整理資料甚至撰寫稿件,而職業(yè)寫手,更是可以躺在床上,或者望著窗外,寫作只需要?jiǎng)觿?dòng)嘴。
王硯峰表示,事實(shí)上,搜狗聽(tīng)寫不僅是專門為文字工作者定制的應(yīng)用,也是每個(gè)人都會(huì)需要的應(yīng)用,比如,語(yǔ)音便簽、社交分享這些功能就是很普遍的需要。搜狗希望在產(chǎn)品上做出不一樣的地方,幫助用戶切實(shí)解決問(wèn)題,并且通過(guò)差異點(diǎn),同時(shí)體現(xiàn)在技術(shù)和產(chǎn)品方面的能力。
搜狗知音:屬性開(kāi)放,持續(xù)升級(jí)
搜狗聽(tīng)寫,依托的是去年8月發(fā)布的“知音”語(yǔ)音交互引擎。當(dāng)天,搜狐網(wǎng)絡(luò)大廈電梯里的LED屏還在播放搜狗十周年生日的一段視頻。
王硯峰表示,“知音”在語(yǔ)音識(shí)別、語(yǔ)音糾錯(cuò)、知識(shí)圖譜信息整合能力及多輪對(duì)話理解方面具有技術(shù)優(yōu)勢(shì)。而這種優(yōu)勢(shì),在搜狗方面看來(lái),得益于輸入法及搜索積累下來(lái)的大量數(shù)據(jù)對(duì)于其語(yǔ)義理解能力的錘煉。
聽(tīng)寫產(chǎn)品與知音引擎相隔一年,這一年,被王硯峰描述為“知音努力學(xué)習(xí)的一年”。王硯峰表示,過(guò)去一年,語(yǔ)音識(shí)別技術(shù)服務(wù)了更多用戶。2015年5月份,每年會(huì)有5500萬(wàn)的語(yǔ)音DAU。2016年1月份,增長(zhǎng)到1.25億。今年5月份已經(jīng)達(dá)到了2.6億的規(guī)模。這個(gè)過(guò)程,也是知音在大數(shù)據(jù)的基礎(chǔ)上自主學(xué)習(xí)的過(guò)程。
據(jù)了解,今年5月份,搜狗語(yǔ)音的核心技術(shù)在應(yīng)用方面取得了突破,在GMIS大會(huì)上,語(yǔ)音跟人工速記進(jìn)行了五輪PK,最終的結(jié)果是4:1完勝。因?yàn)楫?dāng)時(shí)現(xiàn)場(chǎng)的網(wǎng)絡(luò)問(wèn)題,導(dǎo)致其中有一場(chǎng)的粵語(yǔ)識(shí)別沒(méi)有聯(lián)網(wǎng)。搜狗方面表示,到現(xiàn)在為止,機(jī)器的識(shí)別能力跟普通的速記相比已經(jīng)取得了本質(zhì)性的領(lǐng)先。在這樣的過(guò)程中,機(jī)器本身有處理速度的好處,還有知識(shí)的好處,普通的速記不太可能知道那么多的專業(yè)術(shù)語(yǔ),不太可能知道那么多的英文。在這個(gè)過(guò)程中,機(jī)器是充分的把自己的處理速度、處理能力,以及對(duì)知識(shí)的權(quán)威性發(fā)揮出來(lái)。這是聽(tīng)寫產(chǎn)品得以在今年發(fā)布的底氣。
后續(xù)會(huì)著力解決兩個(gè)方面的問(wèn)題,王硯峰如是說(shuō):一是遠(yuǎn)場(chǎng),因?yàn)榻换ゲ豢赡芫窒抻谑謾C(jī)這類個(gè)人屬性較高的終端;二是降噪,包括環(huán)境中的聲音干擾,包括地方口音對(duì)識(shí)別準(zhǔn)確度的影響都屬于這一范疇。
至于知音引擎的發(fā)展方向,王硯峰說(shuō),知音在一定程度上會(huì)以O(shè)S的形式存在,為不同類型的終端產(chǎn)品賦能。
智能硬件:技術(shù)落實(shí),把握入口
開(kāi)放的屬性,這是知音引擎誕生時(shí)就具備的。開(kāi)放,就是在出行等垂直領(lǐng)域的延伸,為相關(guān)合作伙伴提供語(yǔ)音交互支持,向更多的終端入口進(jìn)行布局。畢竟,人工智能或者語(yǔ)音交互作為技術(shù),終究需要實(shí)際的載體。
手機(jī)等終端,特別是電視以及車載系統(tǒng),都是搜狗所關(guān)注的品類。從去年開(kāi)始,搜狗進(jìn)行了AI技術(shù)的輸出,跟小米、魅族等手機(jī)廠商合作。在傳統(tǒng)的家電領(lǐng)域,跟各個(gè)行業(yè)的龍頭合作,電視是跟創(chuàng)維合作,白電跟海爾合作等等。
賦能合作伙伴之外,搜狗也試圖憑借自身實(shí)力,在智能終端領(lǐng)域延伸出方向。從大方向上,王硯峰表示,搜狗自主推出的終端產(chǎn)品前期會(huì)集中在可穿戴設(shè)備和智能家居上,手機(jī)、電視不是現(xiàn)階段所考慮的,而硬件的產(chǎn)出,有可能會(huì)選擇與第三方合作。
當(dāng)被問(wèn)到是否會(huì)考慮進(jìn)軍當(dāng)前比較火爆的智能音箱市場(chǎng),王硯峰給出了自己的判斷,沒(méi)有被“繁榮”的現(xiàn)象所影響,王硯峰很冷靜的表示:相對(duì)于手機(jī)、電視等終端,音箱產(chǎn)品由于交互性(屏幕)方面的短板,并不具備獨(dú)特性或者說(shuō)不可替代性,從需求上來(lái)看,量級(jí)優(yōu)勢(shì)也不明顯,也就不足以釋放技術(shù)能力或者說(shuō)承擔(dān)“用戶教育”的功能,因此暫時(shí)不會(huì)考慮推出相關(guān)的自主產(chǎn)品。
- QQ:61149512