一騎絕塵 商湯科技44篇論文入選CVPR 2018
全球計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議) 即將于六月在美國(guó)鹽湖城召開(kāi),本屆大會(huì)總共錄取來(lái)自全球論文979篇。CVPR作為計(jì)算機(jī)視覺(jué)領(lǐng)域級(jí)別最高的研究會(huì)議,其錄取論文代表了計(jì)算機(jī)視覺(jué)領(lǐng)域在2018年最新和最高的科技水平以及未來(lái)發(fā)展潮流。CVPR官網(wǎng)顯示,今年有超過(guò)3
2018-05-10 16:51:48
來(lái)源:釘科技??

全球計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即IEEE國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議) 即將于六月在美國(guó)鹽湖城召開(kāi),本屆大會(huì)總共錄取來(lái)自全球論文979篇。CVPR作為計(jì)算機(jī)視覺(jué)領(lǐng)域級(jí)別最高的研究會(huì)議,其錄取論文代表了計(jì)算機(jī)視覺(jué)領(lǐng)域在2018年最新和最高的科技水平以及未來(lái)發(fā)展潮流。

CVPR官網(wǎng)顯示,今年有超過(guò)3300篇的大會(huì)論文投稿,錄取的979篇論文,比去年增長(zhǎng)了25%(2016年論文錄取783篇)。這些錄取的最新科研成果,涵蓋了計(jì)算機(jī)視覺(jué)領(lǐng)域各項(xiàng)前沿工作。CVPR 2018包括21場(chǎng)tutorials、48場(chǎng)workshops,并且有來(lái)自全球各地超過(guò)115家企業(yè)將入駐今年CVPR工業(yè)展覽。

商湯科技、香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室以及其他商湯科技聯(lián)合實(shí)驗(yàn)室共有44篇論文被本屆CVPR大會(huì)接收,其中包括口頭報(bào)告論文3篇(錄取率僅62/3300 = 1.88%),亮點(diǎn)報(bào)告論文13篇,論文錄取數(shù)量相較于CVPR 2017的23篇又有大幅度提高,成績(jī)斐然。全球領(lǐng)先的科研成果展示了商湯科技智能視覺(jué)領(lǐng)域強(qiáng)大的人才儲(chǔ)備、科研底蘊(yùn)和創(chuàng)新能力。

商湯科技CVPR 2018錄取論文在以下領(lǐng)域?qū)崿F(xiàn)突破:大規(guī)模分布式訓(xùn)練、人體理解與行人再識(shí)別、自動(dòng)駕駛場(chǎng)景理解與分析、底層視覺(jué)算法、視覺(jué)與自然語(yǔ)言的綜合理解、物體檢測(cè)、識(shí)別與跟蹤、深度生成式模型、視頻與行為理解等。這些新穎的計(jì)算機(jī)視覺(jué)算法不僅有著豐富的應(yīng)用場(chǎng)景,使得更多的智能視覺(jué)算法能應(yīng)用于日常生活之中,還為后續(xù)研究提供了可貴的經(jīng)驗(yàn)和方向。

大規(guī)模分布式訓(xùn)練

代表性論文:Oral – 深度增強(qiáng)學(xué)習(xí)自動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

111.png

本文致力于解決深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)設(shè)計(jì)問(wèn)題,與一般人工的結(jié)構(gòu)設(shè)計(jì)不同,本文提出了一種高效算法,通過(guò)強(qiáng)化學(xué)習(xí)來(lái)自動(dòng)設(shè)計(jì)最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)通常需要大量專家的知識(shí)和試錯(cuò)成本,并且甚至還需要一些靈感,每年僅有幾個(gè)重要的網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計(jì)出來(lái),因此,人工設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)難度極高的工作。近期的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)搜索的算法通常需要巨大的計(jì)算資源(數(shù)百塊GPU,近一個(gè)月的訓(xùn)練),并且生產(chǎn)的模型可遷移性不強(qiáng),難以做到真正的實(shí)用化。 

本文提出了一種基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)設(shè)計(jì)算法,通過(guò)“網(wǎng)絡(luò)塊”的設(shè)計(jì)思想,讓搜索空間大大降低,并且使設(shè)計(jì)的網(wǎng)絡(luò)具有非常強(qiáng)的可遷移性。同時(shí),本文使用“提前停止”和分布式架構(gòu)來(lái)加速整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)過(guò)程,達(dá)到了百倍于之前算法的速度(32塊GPU,3天的訓(xùn)練)。實(shí)驗(yàn)表面,其生成的網(wǎng)絡(luò)結(jié)構(gòu)在CIFAR數(shù)據(jù)集上達(dá)到并且超越人類設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)的精度,并且其結(jié)構(gòu)可以遷移到大規(guī)模的ImageNet數(shù)據(jù)上,取得良好的性能。

人體理解與行人再識(shí)別

代表性論文:Oral – 基于組一致性約束條件的行人再識(shí)別

222.png

行人再識(shí)別是新一代智能安防系統(tǒng)中的重要組件之一。給定一幅行人圖像,行人再識(shí)別要求跨不同攝像頭,對(duì)同一行人基于其視覺(jué)外觀進(jìn)行準(zhǔn)確匹配和識(shí)別?,F(xiàn)有深度學(xué)習(xí)算法通常使用過(guò)于局部的約束損失函數(shù)進(jìn)行行人特征學(xué)習(xí),因而不能精確的學(xué)習(xí)行人圖像之間的視覺(jué)相似度。本文針對(duì)該問(wèn)題提出一種新穎的組一致性約束條件,并通過(guò)連續(xù)條件隨機(jī)場(chǎng)對(duì)該約束條件進(jìn)行建模。將該連續(xù)條件隨機(jī)場(chǎng)加入深度神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)該深度模型的端對(duì)端訓(xùn)練。實(shí)驗(yàn)結(jié)果表明該一致性條件在訓(xùn)練與測(cè)試中均能夠大幅度提升最終視覺(jué)特征的魯棒性與判別性,實(shí)現(xiàn)高精度的行人再識(shí)別。

自動(dòng)駕駛場(chǎng)景理解

代表性論文:

Spotlight – 極低延遲的視頻語(yǔ)義分割

333.png

本文關(guān)注面向自動(dòng)駕駛場(chǎng)景的視頻實(shí)時(shí)語(yǔ)義分割問(wèn)題,雖然近年來(lái)圖像語(yǔ)義分割取得很大的進(jìn)展,但是對(duì)于面向視頻的語(yǔ)義分割任務(wù)仍然存在挑戰(zhàn)。其主要困難在于:1)視頻需要更多的計(jì)算量;2)許多實(shí)時(shí)的應(yīng)用如自動(dòng)駕駛需要實(shí)現(xiàn)低延遲性。

本文致力于解決這兩方面的難題,同時(shí)盡可能的保證分割的精度。在視頻分割問(wèn)題中,鄰近幀之間的語(yǔ)義標(biāo)簽的變化相對(duì)較小,因此不必每幀都使用一個(gè)完整的網(wǎng)絡(luò)來(lái)提取語(yǔ)義標(biāo)簽。基于這種認(rèn)識(shí),本文提出了一個(gè)如圖所示的語(yǔ)義分割的框架,把整個(gè)網(wǎng)絡(luò)分為高層部分和低層部分,低層部分消耗較少的計(jì)算;本文的框架只在關(guān)鍵幀運(yùn)行完整的網(wǎng)絡(luò)來(lái)提取高層特征進(jìn)行語(yǔ)義分割,而在其他幀則從上一個(gè)關(guān)鍵幀傳播特征來(lái)進(jìn)行語(yǔ)義分割。相應(yīng)的框架由兩部分組件構(gòu)成:1)關(guān)鍵幀調(diào)度模塊,以及2)特征跨幀傳播模塊,其都基于低層特征進(jìn)行相應(yīng)的計(jì)算,因此相對(duì)完整的網(wǎng)絡(luò)計(jì)算量小很多。同時(shí)為了減少延遲,在檢測(cè)到當(dāng)前幀為關(guān)鍵幀時(shí),使用了一個(gè)低延遲的調(diào)度策略。本文提出的方法在兩個(gè)數(shù)據(jù)集上均驗(yàn)證了我們方法的有效性,取得了較低延遲并保持精確的分割精度。

Spotlight – 基于單視圖的立體匹配

444.png

面向自動(dòng)駕駛場(chǎng)景的單目深度估計(jì)方法,通常利用一個(gè)視角的圖像數(shù)據(jù)作為輸入,直接預(yù)測(cè)圖片中每個(gè)像素對(duì)應(yīng)的深度值,這就導(dǎo)致了現(xiàn)有方法通常需要大量的帶深度信息標(biāo)注的數(shù)據(jù)。近期的研究提出了在訓(xùn)練過(guò)程引入了幾何約束的改進(jìn),但是在測(cè)試過(guò)程仍然缺乏顯式的幾何約束。本文提出把單目深度估計(jì)分解為兩個(gè)子過(guò)程,即視圖合成過(guò)程以及雙目匹配過(guò)程,通過(guò)這樣分解之后,使得所提出的模型既可以在測(cè)試階段顯式地引入幾何約束又可以極大的減少對(duì)帶深度標(biāo)注數(shù)據(jù)的依賴。實(shí)驗(yàn)證明,本文提出的方法僅利用少量的深度數(shù)據(jù)就可以在KITTI數(shù)據(jù)集上超過(guò)之前的所有方法,并首次僅靠單目圖像數(shù)據(jù)就超過(guò)了雙目匹配算法Block Matching,進(jìn)一步推動(dòng)了單目深度估計(jì)技術(shù)的落地。

底層視覺(jué)算法

代表性論文:Spotlight – 基于深度增強(qiáng)學(xué)習(xí)的普適圖像復(fù)原

555.png

本文提出了一種新穎的深度學(xué)習(xí)圖像復(fù)原方法。大部分已有復(fù)原算法僅面向解決某類特定的圖像復(fù)原問(wèn)題,因而對(duì)各種不同類別的降質(zhì)圖像缺乏普適性。針對(duì)該問(wèn)題,本文提出的RL-Restore算法先訓(xùn)練一系列針對(duì)不同降質(zhì)圖像的小型神經(jīng)網(wǎng)絡(luò);同時(shí)設(shè)計(jì)一種評(píng)價(jià)圖像復(fù)原質(zhì)量的獎(jiǎng)勵(lì)函數(shù),使用增強(qiáng)學(xué)習(xí)算法學(xué)習(xí)如何將這些小型神經(jīng)網(wǎng)絡(luò)進(jìn)行合理組合。針對(duì)不同的降質(zhì)圖像,獲得不同的復(fù)原算法組件的組合,實(shí)現(xiàn)對(duì)復(fù)雜降質(zhì)圖像的有效復(fù)原。

視覺(jué)與自然語(yǔ)言的綜合理解

代表性論文:Spotlight – 面向視覺(jué)問(wèn)題回答的對(duì)偶視覺(jué)問(wèn)題生成

666.png

針對(duì)開(kāi)放式視覺(jué)問(wèn)答(Open-ended VisualQuestion Answering)中訓(xùn)練數(shù)據(jù)過(guò)少的問(wèn)題,本文提出了一種“可逆問(wèn)答網(wǎng)絡(luò)”。該模型可以通過(guò)重組不同模塊,使一組模型同時(shí)完成“問(wèn)題回答”和“問(wèn)題生成”兩種互逆的兩個(gè)任務(wù)。該模型通過(guò)充分利用視覺(jué)問(wèn)答和視覺(jué)問(wèn)題生成的對(duì)偶性,提升模型對(duì)于有限訓(xùn)練數(shù)據(jù)的利用效率。該方法采用兩個(gè)任務(wù)同時(shí)訓(xùn)練同一模型,使網(wǎng)絡(luò)能夠?qū)?wèn)題和圖片之間的聯(lián)系有更深的理解,從而在問(wèn)題生成和問(wèn)題回答兩個(gè)任務(wù)上都取得了更好的精度和效果。

人臉識(shí)別與人臉?lè)治?/strong>

代表性論文:

Poster – 超越人臉識(shí)別的人臉解離特征空間學(xué)習(xí)

777.png

本文同時(shí)解決人臉識(shí)別、屬性分類和任意人臉生成這三個(gè)問(wèn)題。大多數(shù)人臉特征學(xué)習(xí)的工作通常能夠讓網(wǎng)絡(luò)學(xué)習(xí)得到一個(gè)具有極強(qiáng)身份或?qū)傩詤^(qū)分度的特征,以應(yīng)用于人臉識(shí)別、屬性分類等任務(wù);或者學(xué)習(xí)一個(gè)具有全局信息的特征,以應(yīng)用于人臉生成和編輯等應(yīng)用。為什么不能學(xué)習(xí)到一個(gè)完備的特征空間并使得語(yǔ)義信息高度區(qū)分化,進(jìn)而實(shí)現(xiàn)一個(gè)特征能夠完成所有的任務(wù)呢?本文提出了一個(gè)信息蒸餾與驅(qū)逐網(wǎng)絡(luò)的框架,只使用身份ID作為監(jiān)督信息,學(xué)習(xí)到了一個(gè)同時(shí)具有極強(qiáng)信息區(qū)分度且包含全局信息的稠密凸特征空間。在LFW、LFWA和CelebA等數(shù)據(jù)集上的實(shí)驗(yàn)表明,人臉在該特征空間下的投影具有極高的身份、屬性識(shí)別能力,且該空間內(nèi)的任意一個(gè)點(diǎn)均具有較強(qiáng)的身份和屬性語(yǔ)義,并可生成具有該語(yǔ)義的人臉圖像。

Poster – 基于邊緣感知的人臉關(guān)鍵點(diǎn)定位

888.png

本文提出一種基于邊緣感知的人臉關(guān)鍵點(diǎn)檢測(cè)算法,將人臉邊緣線所描述的結(jié)構(gòu)信息融入到關(guān)鍵點(diǎn)檢測(cè)中,極大地提升了算法在大側(cè)臉、夸張表情、遮擋、模糊等極端情況下的檢測(cè)精度。文章主要解決了兩大問(wèn)題:1. 人臉關(guān)鍵點(diǎn)在各個(gè)數(shù)據(jù)集間歧義性,定義不一致問(wèn)題。文章通過(guò)捕捉對(duì)于人臉更通用的邊緣線信息,將其作為人臉到關(guān)鍵點(diǎn)的中間媒介,使得不同數(shù)據(jù)集即使存在關(guān)鍵點(diǎn)差異,仍然可以相互輔助訓(xùn)練。2. 復(fù)雜情況下關(guān)鍵點(diǎn)檢測(cè)精度問(wèn)題。本文首先通過(guò)消息傳遞結(jié)合對(duì)抗學(xué)習(xí)得到高精度的邊緣線檢測(cè)結(jié)果,再將邊緣線信息多語(yǔ)義層次地融合到關(guān)鍵點(diǎn)檢測(cè)中,使得算法在復(fù)雜情況下的魯棒性大幅提升。

另外,文章還提出了一個(gè)新的人臉關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)集Wider Facial Landmarksin-the-wild (WFLW),包含10,000 張帶有98點(diǎn)和6屬性標(biāo)注的人臉數(shù)據(jù),旨在幫助學(xué)界更有效的評(píng)估關(guān)鍵點(diǎn)算法在各種條件下的魯棒性。

物體檢測(cè)、識(shí)別與跟蹤

代表性論文:

Spotlight – 基于孿生候選區(qū)域網(wǎng)絡(luò)的高性能視覺(jué)跟蹤

999.png

本文提出一種基于端到端深度學(xué)習(xí)框架的高性能單目標(biāo)跟蹤算法?,F(xiàn)有的單目標(biāo)跟蹤算法通常較難兼顧性能和速度,僅能在某一指標(biāo)占優(yōu)。本文利用孿生(Siamese)網(wǎng)絡(luò)和區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network),構(gòu)建了一種高速高精度的單目標(biāo)跟蹤算法。兩個(gè)子網(wǎng)絡(luò)通過(guò)卷積操作升維,統(tǒng)一在一個(gè)端到端的深度神經(jīng)網(wǎng)絡(luò)框架里。訓(xùn)練過(guò)程中,算法可以利用擁有密集標(biāo)注(VID)和稀疏標(biāo)注(YoutubeBB)的數(shù)據(jù)集進(jìn)行訓(xùn)練。相較于現(xiàn)有方法,稀疏標(biāo)注的數(shù)據(jù)集大大增加了訓(xùn)練數(shù)據(jù)來(lái)源,從而可以對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行更充分的訓(xùn)練;區(qū)域候選網(wǎng)絡(luò)中的坐標(biāo)回歸可以讓跟蹤框更加準(zhǔn)確,并且省去多尺度測(cè)試耗費(fèi)的時(shí)間。實(shí)驗(yàn)方面,本文提出的跟蹤算法能在160幀速度下達(dá)到VOT2015和VOT2016數(shù)據(jù)集上目前的先進(jìn)水平。

Poster – 快速的端到端多角度文字檢測(cè)與識(shí)別方法

000.png

本文首次提出了端到端的多角度文字檢測(cè)與識(shí)別方法。文字檢測(cè)與識(shí)別(OCR)是計(jì)算機(jī)視覺(jué)領(lǐng)域的經(jīng)典問(wèn)題,過(guò)去的做法將文字檢測(cè)與識(shí)別看做兩個(gè)問(wèn)題分別解決。本文提出了一個(gè)端到端的方法同時(shí)進(jìn)行文字檢測(cè)與識(shí)別,驗(yàn)證了這兩個(gè)任務(wù)相輔相成,共同監(jiān)督網(wǎng)絡(luò)訓(xùn)練可以讓這兩個(gè)任務(wù)取得更好的精度。由于兩個(gè)任務(wù)共用一個(gè)特征提取的網(wǎng)絡(luò),速度也是分別進(jìn)行文字檢測(cè)與識(shí)別的兩倍左右。同時(shí)本文也提出了RoIRotate操作,其擴(kuò)展了RoIAlign,可以應(yīng)用于旋轉(zhuǎn)物體的檢測(cè)。本文在多個(gè)數(shù)據(jù)集上超過(guò)了現(xiàn)有方法。

深度生成式模型

代表性論文:Poster – 基于特征裝飾的實(shí)時(shí)零點(diǎn)風(fēng)格遷移

011.png

目前針對(duì)圖像風(fēng)格化的實(shí)時(shí)應(yīng)用,大多需要針對(duì)特定的風(fēng)格圖來(lái)設(shè)計(jì)特定的風(fēng)格遷移模型;如果需要實(shí)現(xiàn)對(duì)于任意風(fēng)格圖的遷移,計(jì)算復(fù)雜度和遷移效果大多不能得到保證。本文提出一種實(shí)時(shí)零點(diǎn)圖像風(fēng)格遷移模型,實(shí)現(xiàn)對(duì)于任意風(fēng)格圖像的多尺度高質(zhì)量風(fēng)格化遷移。該方法基于名為風(fēng)格裝飾器的特征遷移網(wǎng)絡(luò)結(jié)構(gòu),可以容易地嵌入圖像重構(gòu)網(wǎng)絡(luò)中來(lái)達(dá)到多尺度的風(fēng)格特征遷移。該網(wǎng)絡(luò)結(jié)構(gòu)使得生成的風(fēng)格化圖像充分表達(dá)風(fēng)格圖中的具體紋理模式,同時(shí)保留原圖中的語(yǔ)義信息。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)對(duì)各種類別的風(fēng)格圖都有較高的風(fēng)格化能力,并且可以有效擴(kuò)展到多風(fēng)格遷移和視頻風(fēng)格遷移等應(yīng)用中。

最新文章
1
3i與科沃斯的“全球首款”爭(zhēng)議背后:清潔電器進(jìn)入創(chuàng)新慢周期?
2
康佳G9Pro新品電視9月23日晚20點(diǎn)正售開(kāi)啟,多重好禮福利大放送
3
年底新旗艦手機(jī)中,一加13將獨(dú)家搭載24GB LPDDR5X內(nèi)存?
4
三大面板企業(yè)國(guó)慶將放假,減產(chǎn)應(yīng)對(duì)連跌三月的液晶面板價(jià)格?
5
TCL首超三星登頂Mini LED電視出貨榜,中國(guó)電視高端化戰(zhàn)略見(jiàn)效?
6
享受以舊換新補(bǔ)貼盛宴之時(shí) 也應(yīng)思考補(bǔ)貼停止后該怎么辦?
7
高通收購(gòu)英特爾,達(dá)成雙贏?
8
高光時(shí)刻之后 蘋果今年還可能有這些新品
9
中國(guó)智能音頻眼鏡線上最新銷量:華為第一 獨(dú)攬60.3%份額
10
iPhone 16 Pro系列首發(fā)翻車:用戶實(shí)測(cè)觸摸屏失靈
11
中國(guó)移動(dòng)開(kāi)展公益守護(hù)行動(dòng)推進(jìn)“數(shù)字惠民”
12
容聲516WILL養(yǎng)鮮冰箱領(lǐng)“鮮”上市 打造“果蔬生長(zhǎng)莊園”
13
官宣:容聲冰箱牽手養(yǎng)鮮生活大使姜妍,516WILL冰箱同步首發(fā)
14
激光顯示,海信十年劍成
15
洗碗機(jī)增長(zhǎng)幾近“失速” 認(rèn)知普及將助力行業(yè)提速
16
小空間投影終級(jí)形態(tài)——極米神燈Sunlight來(lái)了!全光譜吸頂燈更護(hù)眼
17
2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周期
18
下一代工業(yè)智能終端:重新定義制造業(yè)的未來(lái)
19
價(jià)格戰(zhàn)的烽火將撲向更大功率的機(jī)型
20
三折還不夠?消息稱三星計(jì)劃 2025 年推出卷軸屏手機(jī),展開(kāi)后屏幕可達(dá) 12.4 英寸
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512