“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同。”這兩句詩(shī)形象地概括了移步換形、造化萬(wàn)千的廬山風(fēng)景,廬山的一峰一嶺一丘壑,游人所處的位置不同,看到的景物也各不相同。人類視覺(jué)感知的一個(gè)關(guān)鍵點(diǎn)是將視覺(jué)場(chǎng)景解析為物體,并進(jìn)一步解析為物體的各個(gè)局部,從而形成部分 - 整體層次結(jié)構(gòu)。結(jié)構(gòu)化視覺(jué)作為人們?nèi)菀桌斫獾纳窠?jīng)網(wǎng)絡(luò)語(yǔ)言,對(duì)于大腦的推理決策活動(dòng)提供著基礎(chǔ)支撐。
場(chǎng)景的結(jié)構(gòu)化,通俗理解就是將我們所看到的一草一木,一樓一隅進(jìn)行抽絲剝繭,疊層解刨分析。場(chǎng)景結(jié)構(gòu)化描述是對(duì)場(chǎng)景的語(yǔ)義化理解,場(chǎng)景分割可以完成場(chǎng)景圖像中視覺(jué)要素的識(shí)別、檢測(cè)和分割,通過(guò)部分 - 整體層級(jí)結(jié)構(gòu)誘導(dǎo)出豐富的語(yǔ)義概念和關(guān)系,從而在解釋和組織視覺(jué)信息方面,以及視覺(jué)感知和推理的泛化方面發(fā)揮著重要作用。
智慧眼場(chǎng)景理解引擎,依托于星辰人工智能中臺(tái),基于深度學(xué)習(xí)算法構(gòu)建了多層神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制來(lái)分析和理解圖像,可以從大規(guī)模數(shù)據(jù)中學(xué)習(xí)逐漸抽象的層次化特征,從而建立場(chǎng)景圖像到語(yǔ)義類別的映射,使計(jì)算機(jī)能夠充分理解場(chǎng)景內(nèi)容進(jìn)行推理活動(dòng)。
場(chǎng)景理解引擎具有預(yù)訓(xùn)練、輕量級(jí)、時(shí)序性特點(diǎn)。
預(yù)訓(xùn)練
利用大規(guī)模無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練的預(yù)訓(xùn)練模型有著非常好的泛化性,只需在小規(guī)模標(biāo)注數(shù)據(jù)上進(jìn)行微調(diào),就可以在相應(yīng)任務(wù)上有所提高。場(chǎng)景理解引擎依托于AI底層基座星辰人工智能中臺(tái),涵蓋圖像應(yīng)用各類場(chǎng)景模型,囊括智慧眼底層算法,支持可視化的模型效果評(píng)估,海量GPU資源分布式訓(xùn)練,預(yù)置模型調(diào)參及作業(yè)建模方式、自研高精度模型,不必從頭開始構(gòu)建,可以節(jié)省用戶大量時(shí)間和成本。
輕量級(jí)
為了達(dá)到高精度的視覺(jué)感知,目前市場(chǎng)上的場(chǎng)景算法傾向于使用較大較深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致計(jì)算復(fù)雜度高、場(chǎng)景分割速度慢、限制了智能引擎在自動(dòng)駕駛、視頻監(jiān)控、移動(dòng)平臺(tái)等場(chǎng)景中的應(yīng)用。場(chǎng)景理解引擎基于快速和輕量級(jí)智能引擎,可以有效解決碎片設(shè)備之間的差異,不同訓(xùn)練框架的差異,實(shí)現(xiàn)快速的在端側(cè)部署運(yùn)行。
時(shí)序性
面對(duì)非靜態(tài)的場(chǎng)景圖像,視頻中的物體由于拍攝角度、快速運(yùn)動(dòng)和部分遮擋等原因常常表現(xiàn)得模糊和多樣,這使得對(duì)視頻結(jié)構(gòu)化分析難度較大。場(chǎng)景理解引擎利用多維循環(huán)神經(jīng)網(wǎng)絡(luò)、概率圖模型和注意力機(jī)制等算法,可以通過(guò)挖掘時(shí)序上下文信息中的時(shí)序連續(xù)性提升場(chǎng)景分析精度,以云邊協(xié)同視頻結(jié)構(gòu)化分析方法,在突發(fā)事件預(yù)警、上報(bào)、響應(yīng)、指揮等各個(gè)環(huán)節(jié)實(shí)現(xiàn)及時(shí)有效的可視化指揮,滿足突發(fā)事件現(xiàn)場(chǎng)實(shí)時(shí)圖像傳送和視頻會(huì)商的快速響應(yīng)需求。
場(chǎng)景理解引擎在泛安防、金融、醫(yī)療、工業(yè)、政務(wù)等領(lǐng)域得到廣泛應(yīng)用。
在醫(yī)療領(lǐng)域,一方面,根據(jù)醫(yī)學(xué)檢測(cè)圖識(shí)別腫瘤、皮膚、心臟以及眼科等疾病,輔助醫(yī)生高效完成診斷,提升基層醫(yī)療機(jī)構(gòu)診斷水平。另一方面,通過(guò)使用細(xì)粒度場(chǎng)景識(shí)別理解模型,計(jì)算機(jī)視覺(jué)、傳感器和視頻流讓很多安全性應(yīng)用在臨床和居家環(huán)境中變?yōu)榭赡?,為醫(yī)護(hù)工作者擴(kuò)展了監(jiān)測(cè)病人的能力,包括ICU中的患者監(jiān)測(cè)、診所中的行為監(jiān)測(cè)、異常事件監(jiān)控等。
在交通領(lǐng)域,針對(duì)目標(biāo)模態(tài)多變、類型多樣、動(dòng)靜混存的復(fù)雜場(chǎng)景,場(chǎng)景理解引擎通過(guò)對(duì)視頻/圖像資源進(jìn)行深度學(xué)習(xí)分析,形成抽象、歸納、分析的結(jié)果,對(duì)人、車、物、行為等進(jìn)行智能判斷。
智慧眼承建的長(zhǎng)沙市交通運(yùn)輸局TOCC項(xiàng)目,通過(guò)“視頻+AI”形成了一套強(qiáng)大的交通視覺(jué)感知系統(tǒng),基于結(jié)構(gòu)化交通場(chǎng)景理解,對(duì)公交、出租、軌道、公路和水運(yùn)等全行業(yè)狀況進(jìn)行實(shí)時(shí)監(jiān)測(cè),以標(biāo)準(zhǔn)化和規(guī)范化的管理體系為保障,服務(wù)于交通綜合業(yè)務(wù)輔助與決策、行業(yè)監(jiān)測(cè)與預(yù)警、應(yīng)急指揮與調(diào)度、綜合服務(wù)協(xié)調(diào)與管理等工作。交通運(yùn)輸局依托TOCC全面實(shí)時(shí)監(jiān)測(cè)的功能,可進(jìn)行現(xiàn)場(chǎng)調(diào)度指揮,30分鐘內(nèi)可召開全市交通系統(tǒng)的連線會(huì)議,實(shí)現(xiàn)了看得見(jiàn)、聽得到、指揮得動(dòng)的功能。智慧信控系統(tǒng)“站崗”路口,紅綠燈會(huì)思考,視頻AI獲取實(shí)時(shí)車流和人流信息,綜合平衡車輛通行和行人過(guò)街需求進(jìn)而智能研判,再也不用空等紅燈。此項(xiàng)目獲評(píng)“新型智慧城市十大典型應(yīng)用案例”,獲得行業(yè)專家的高度認(rèn)可。
在城市數(shù)字化應(yīng)用中,紛繁復(fù)雜的口岸現(xiàn)場(chǎng),實(shí)現(xiàn)異常旅客監(jiān)控、高溫旅客監(jiān)控、安檢圖像監(jiān)控、應(yīng)急與可視化。至關(guān)緊要的安防場(chǎng)景,實(shí)現(xiàn)行李物品智能審圖,智能安檢系統(tǒng)能夠?qū)σ巡渴鸬?/span>X光安檢機(jī)具獲取的百余類圖像進(jìn)行實(shí)時(shí)動(dòng)態(tài)分析,并對(duì)限制攜帶物品進(jìn)行實(shí)時(shí)動(dòng)態(tài)預(yù)警和數(shù)據(jù)推送。
智慧眼場(chǎng)景理解引擎,正在解鎖更多場(chǎng)景,為機(jī)器與人之間的交互方式提供更多可能。未來(lái),智慧眼將繼續(xù)深化“AI+”的應(yīng)用,以星辰人工智能中臺(tái)為創(chuàng)新載體,深入賦能場(chǎng)景,不斷增強(qiáng)數(shù)字化與智能化能力,打造可視、可感、可分析、可決策的新型城市智能體。