[釘科技編譯] 綜合《thesouthafrican》和《theverge》消息:微軟開(kāi)發(fā)了一種新的圖像字幕算法,該算法在某些有限的測(cè)試中準(zhǔn)確性超過(guò)了人類(lèi),據(jù)稱(chēng)其將被合并到該公司用于視力障礙者的應(yīng)用程序“Seeing AI”及其更大的Office產(chǎn)品系列中。
圖像字幕技術(shù)滿(mǎn)足了諸如為圖像創(chuàng)建替換文本的任務(wù),該功能對(duì)于增加可訪(fǎng)問(wèn)性特別重要。微軟AI團(tuán)隊(duì)的軟件工程經(jīng)理Saqib Shaikh在新聞發(fā)布會(huì)上說(shuō):“理想情況下,每個(gè)人都將在文檔、網(wǎng)絡(luò)、社交媒體中為所有圖像添加替代文本,因?yàn)檫@使盲人可以訪(fǎng)問(wèn)內(nèi)容并參與互動(dòng)。但是,人們沒(méi)有。因此,有一些應(yīng)用程序使用圖像標(biāo)題作為替代文本的方式”。
微軟表示,新算法效果是當(dāng)前算法的兩倍,對(duì)于使用諸如微軟 Seeing AI之類(lèi)的應(yīng)用的用戶(hù)來(lái)說(shuō),這將意味著極大改善用戶(hù)體驗(yàn)。
Seeing AI利用計(jì)算機(jī)視覺(jué)為視障人士描述通過(guò)智能手機(jī)攝像頭看到的世界。微軟算法不僅能夠識(shí)別人和物體,還能夠識(shí)別物體之間的關(guān)系,這意味著該算法能夠?qū)⒛橙嗣枋鰹椤白谝巫由匣蜃x書(shū)”。
在9月份的一篇論文中,新算法在一個(gè)被稱(chēng)為 "nocaps "的圖像字幕基準(zhǔn)測(cè)試上取得了有史以來(lái)最高的分?jǐn)?shù)。nocaps基準(zhǔn)測(cè)試由超過(guò)166000個(gè)人類(lèi)生成的字幕組成,描述了從Open Images Dataset中提取的約15100張圖片,這些圖片涵蓋了從運(yùn)動(dòng)到假日抓拍,再到美食攝影等等的一系列場(chǎng)景。 (釘科技綜合《thesouthafrican》和《theverge》消息編譯)
- QQ:61149512