A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

電信AI公司全年競(jìng)賽論文專題回顧

2023年,,電信AI公司在人工智能領(lǐng)域掀起了一股科技旋風(fēng),,連續(xù)在21項(xiàng)國(guó)內(nèi)外頂級(jí)AI競(jìng)賽中獲獎(jiǎng),申請(qǐng)了超過(guò)100項(xiàng)專利,同時(shí)在CVPR,、ACM??MM、ICCV等頂級(jí)會(huì)議和期刊上發(fā)表論文30余篇,,推動(dòng)了人工智能理論研究的深入發(fā)展,。此外,,電信AI公司立足于人工智能的核心技術(shù),致力于推動(dòng)其在工業(yè),、醫(yī)療,、能源、教育,、交通,、農(nóng)業(yè)等各行各業(yè)的落地應(yīng)用,憑借深厚的技術(shù)積累和持續(xù)的創(chuàng)新力,,為行業(yè)注入了新動(dòng)力,,助力提升效率,解決棘手問(wèn)題,。這份以實(shí)際應(yīng)用為焦點(diǎn)的“成績(jī)單”,,無(wú)疑為電信AI公司贏得了更多的尊重和認(rèn)可,,也再次證明了央企在科技浪潮中不僅是技術(shù)的領(lǐng)航者,更是創(chuàng)新的先驅(qū),。

電信AI公司,,一家在2023年11月以30億元注冊(cè)資本成立的科技巨頭,其前身是中國(guó)電信數(shù)字智能科技分公司,。作為中國(guó)電信開展大數(shù)據(jù)及人工智能業(yè)務(wù)的科技型,、能力型、平臺(tái)型專業(yè)公司,,電信AI公司自成立以來(lái),,一直致力于人工智能領(lǐng)域核心技術(shù)攻堅(jiān)、前沿技術(shù)研發(fā)和產(chǎn)業(yè)空間拓展,。在中國(guó)電信集團(tuán)全面深入實(shí)施云改數(shù)轉(zhuǎn)戰(zhàn)略的大背景下,,電信AI公司成功自主研發(fā)了超大規(guī)模視頻解析能力、數(shù)字人智能客服,、星辰系列大模型等一系列創(chuàng)新應(yīng)用成果,。

通過(guò)與各行業(yè)和國(guó)家級(jí)合作伙伴的全面合作,電信AI公司正擴(kuò)大在行業(yè)內(nèi)和國(guó)家層面的占位與影響力,,持續(xù)為人工智能創(chuàng)新提供引擎動(dòng)力,。電信AI公司的成功背后,是一支約800人的精英團(tuán)隊(duì)的支持,。這支團(tuán)隊(duì)中,,研發(fā)人員的占比高達(dá)75%,平均年齡為31歲,,他們既有來(lái)自國(guó)內(nèi)外一流高校的應(yīng)屆生,,也有來(lái)自全球頂尖科技公司的資深工程師。他們的才華和創(chuàng)新精神共同構(gòu)成了電信AI公司強(qiáng)大的技術(shù)研發(fā)力量,,為公司的持續(xù)發(fā)展提供了源源不斷的人才支持,。

接下來(lái),我們將對(duì)電信AI公司在2023年的一些重要科研成果進(jìn)行系列回顧和分享,。本期是針對(duì)電信AI公司CV團(tuán)隊(duì)(以下簡(jiǎn)稱“CTCV團(tuán)隊(duì)”)在ICCV??2023 The Perception Test Challenge-Action Localisation頂會(huì)上獲得了Action??Localisation賽道的冠軍技術(shù)進(jìn)行介紹,。ICCV在計(jì)算機(jī)視覺(jué)領(lǐng)域的三大頂會(huì)之一,每?jī)赡暾匍_一次,,在業(yè)內(nèi)具有極高的評(píng)價(jià),。本文將介紹該團(tuán)隊(duì)在本次挑戰(zhàn)中采用的算法思路和方案,。

ICCV 2023 The Perception Test Challenge-Action Localisation 冠軍技術(shù)分享

電信AI公司全年競(jìng)賽論文專題回顧

【賽事概覽與團(tuán)隊(duì)背景】

隨著大型多模態(tài)模型如Flamingo,、BeIT-3、GPT-4的發(fā)展,,人類水平的集成感知系統(tǒng)正逐漸成為可能,。為了實(shí)現(xiàn)這一目標(biāo),,需要全面評(píng)估這些模型的性能,包括揭示它們的優(yōu)勢(shì)和劣勢(shì)?,F(xiàn)有的多模態(tài)基準(zhǔn)在某些方面存在局限,,如圖像基準(zhǔn)通常不涉及時(shí)間方面,而視覺(jué)問(wèn)答主要關(guān)注圖像級(jí)語(yǔ)義理解,。DeepMind發(fā)布的ICCV??2023 The First Perception Test??Challenge旨在通過(guò)探索模型在視頻,、音頻和文本模態(tài)中的能力,,克服這些局限,。競(jìng)賽覆蓋了四個(gè)技能領(lǐng)域、四種推理類型和六個(gè)計(jì)算任務(wù),,旨在更全面地評(píng)估多模態(tài)感知模型的能力,。

其中Action??Localisation賽道是對(duì)參賽團(tuán)隊(duì)在細(xì)粒度視頻理解方面的一次考驗(yàn),該賽道的核心是對(duì)未剪輯的視頻內(nèi)容進(jìn)行深入理解和準(zhǔn)確的動(dòng)作定位,,所展示出的技術(shù)對(duì)于自動(dòng)駕駛系統(tǒng),、視頻監(jiān)控分析等多種實(shí)際應(yīng)用場(chǎng)景至關(guān)重要,。

由中國(guó)電信交通算法方向的成員組成CTCV團(tuán)隊(duì),,參加了本次比賽。該團(tuán)隊(duì)持續(xù)在計(jì)算機(jī)視覺(jué)技術(shù)這個(gè)研究方向深耕,,沉淀的技術(shù)已在城市治理,、交通治安等業(yè)務(wù)中廣泛應(yīng)用,持續(xù)服務(wù)海量的用戶,。他們利用長(zhǎng)期打磨明星產(chǎn)品所積累的經(jīng)驗(yàn)和技術(shù),,以本次ICCV??2023的The First Perception Test Challenge – Action??Localisation賽道為契機(jī),實(shí)現(xiàn)在視頻理解領(lǐng)域技術(shù)的自我突破,。

1引言

在視頻中定位和分類動(dòng)作的任務(wù),即時(shí)序動(dòng)作定位[8](Temporal Action Localisation,??TAL),,仍然是視頻理解中的一個(gè)挑戰(zhàn)性問(wèn)題,。

電信AI公司全年競(jìng)賽論文專題回顧

TAL的深度模型方面已經(jīng)取得了顯著進(jìn)展。例如,,TadTR[7]和ReAct[9]使用類似DETR的基于Transformer[2]的解碼器進(jìn)行動(dòng)作檢測(cè),,將動(dòng)作實(shí)例建模為一組可學(xué)習(xí)的集合。TallFormer[3]使用基于Transformer的編碼器提取視頻表征,。

目前,,這些方法在動(dòng)作定位方面已經(jīng)實(shí)現(xiàn)了顯著的進(jìn)度,然而仍有許多問(wèn)題亟待挖掘,。例如,,部分方法在視頻感知能力方面存在局限。為解決該問(wèn)題,,CTCV團(tuán)隊(duì)意識(shí)到想要更好地定位動(dòng)作實(shí)例,,可靠的視頻特征表達(dá)是關(guān)鍵所在。

TAL作為一種高度精細(xì)的視頻理解任務(wù),,且在本次挑戰(zhàn)的數(shù)據(jù)集包含了假裝動(dòng)作類別,,動(dòng)作更為復(fù)雜,直接借用現(xiàn)有預(yù)訓(xùn)練模型提取特征效果并不理想,。為了解決這一問(wèn)題,,CTCV團(tuán)隊(duì)采用了近期的VideoMAE-v2框架[12],并加入自有的adapter+linear層,,同時(shí),,利用原始預(yù)訓(xùn)練模型權(quán)重作為模型部分的初始化權(quán)重,訓(xùn)練具有兩種不同主干網(wǎng)絡(luò)的動(dòng)作類別預(yù)測(cè)模型,。接下來(lái),,利用改進(jìn)的ActionFormer框架[13]訓(xùn)練TAL任務(wù),并對(duì)改進(jìn)了WBF方法[10]適配TAL任務(wù),。經(jīng)過(guò)這一系列的技術(shù)創(chuàng)新與優(yōu)化,,CTCV團(tuán)隊(duì)的方法在測(cè)試集上實(shí)現(xiàn)了0.50的mAP,排名第一,,領(lǐng)先第二名的團(tuán)隊(duì)3個(gè)百分點(diǎn),,比Google??DeepMind提供的baseline高出34個(gè)百分點(diǎn)。

2 競(jìng)賽解決方案

電信AI公司全年競(jìng)賽論文專題回顧

圖1 算法概覽

2.1 數(shù)據(jù)增強(qiáng)

在Perception Test Challenge的Action??Localisation賽道,,采用的數(shù)據(jù)集是一組用于動(dòng)作定位的視頻(RGB+音頻),,這些視頻具有高分辨率,并包含多個(gè)動(dòng)作片段的標(biāo)注,。通過(guò)分析數(shù)據(jù)集,,CTCV團(tuán)隊(duì)發(fā)現(xiàn)訓(xùn)練集相較于驗(yàn)證集缺少了三個(gè)類別的標(biāo)簽。為保證模型驗(yàn)證的充分性以及競(jìng)賽的要求,,采集了少量的視頻數(shù)據(jù),,并將其添加到訓(xùn)練數(shù)據(jù)集中,以豐富訓(xùn)練樣本,。同時(shí),,為簡(jiǎn)化標(biāo)注,CTCV團(tuán)隊(duì)預(yù)設(shè)了每個(gè)視頻只包含一個(gè)動(dòng)作,。

電信AI公司全年競(jìng)賽論文專題回顧

圖2 自采視頻樣例

2.2 動(dòng)作識(shí)別與特征提取

近年來(lái),,使用大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練的基礎(chǔ)模型噴涌而出,通過(guò)zero-shot recognition,、linear probe,、prompt??finetune、fine-tuning等手段,,將基礎(chǔ)模型較強(qiáng)的泛化能力應(yīng)用到多種下游任務(wù)中,,有效地推動(dòng)了AI領(lǐng)域多個(gè)方面的進(jìn)步。

TAL作為一種精細(xì)的視頻理解任務(wù),,并且本次挑戰(zhàn)的數(shù)據(jù)集包含了假裝動(dòng)作類別,,例如

‘假裝將某物插入某物’,‘假裝將某物撕成碎片’等,。這類動(dòng)作和'將某物插入某物',,‘將某物撕成碎片’等動(dòng)作極為相似,這無(wú)疑給特征層面帶來(lái)了更大的挑戰(zhàn),。因此直接借用現(xiàn)有預(yù)訓(xùn)練模型提取特征(如VideoMAE-v2),,效果不理想。

為了讓模型更好地學(xué)到特征表示,,CTCV團(tuán)隊(duì)選擇了近期發(fā)布的VideoMAE-v2框架,,自主訓(xùn)練一個(gè)域適應(yīng)的動(dòng)作分類模型,在該框架后面增加了adapter層以及用于分類的linear層,,訓(xùn)練同數(shù)據(jù)域下的動(dòng)作分類器[11],。CTCV團(tuán)隊(duì)通過(guò)解析JSON標(biāo)注文件,將TAL數(shù)據(jù)集轉(zhuǎn)換為動(dòng)作識(shí)別數(shù)據(jù)集,。最后,,為了增加視頻片段表征的多樣性,同時(shí)考慮實(shí)驗(yàn)的效率,,以Vit-B和Vit-L為主干[4]的特征提取器,。

對(duì)于每個(gè)視頻,使用了16幀的不重疊剪輯,,以每秒15幀的幀率捕獲,,并以16幀的步幅。VitB模型的特征維度為768,,而ViTL模型的特征維度為1024,。當(dāng)組合這兩種特征時(shí),生成了一個(gè)新的維度為1792的特征,。該特征是CTCV團(tuán)隊(duì)訓(xùn)練時(shí)序動(dòng)作定位模型的備選之一,。在訓(xùn)練初期階段,團(tuán)隊(duì)分析了音頻特征,,觀察到mAP指標(biāo)有所下降,。因此,,在隨后的實(shí)驗(yàn)中沒(méi)有考慮音頻特征。

2.3 時(shí)序動(dòng)作定位

Actionformer[13]??是一個(gè)為時(shí)序動(dòng)作定位設(shè)計(jì)的anchor-free模型,,它集成了多尺度特征和時(shí)間維度的局部自注意力,。它在各種相關(guān)數(shù)據(jù)集上都展現(xiàn)了令人印象深刻的性能。

本次競(jìng)賽,,CTCV團(tuán)隊(duì)使用Actionformer作為動(dòng)作定位的baseline模型,,以預(yù)測(cè)動(dòng)作發(fā)生的邊界(起止時(shí)間)及類別。

在獲得視頻特征后,,CTCV團(tuán)隊(duì)follow??ActionFormer的方法,,將動(dòng)作邊界回歸和動(dòng)作分類結(jié)合在一個(gè)統(tǒng)一的框架內(nèi)。通過(guò)級(jí)聯(lián)的視頻特征被編碼到一個(gè)多尺度的Transformer中,,做進(jìn)一步處理,。接著,在模型的回歸和分類的head分支引入feature??pyramid layer,,增強(qiáng)特征表達(dá),,這些頭部在每個(gè)time step會(huì)產(chǎn)生一個(gè)action??candidate。同時(shí)通過(guò)將head的數(shù)量增加到32,,并引入fpn1D結(jié)構(gòu),,相比基線訓(xùn)練架構(gòu),提高了模型的識(shí)別能力,。

2.4 WBF for 1-D

Weighted Boxes??Fusion(WBF)[10]是一種新型的加權(quán)檢測(cè)框融合方法,,該方法利用所有檢測(cè)框的置信度來(lái)構(gòu)造最終的預(yù)測(cè)框,并在圖像目標(biāo)檢測(cè)中取得了較好地效果,,與NMS[6]和soft-NMS[1]方法不同,,它們會(huì)丟棄某些預(yù)測(cè),WBF利用所有提出的邊界框的置信度分?jǐn)?shù)來(lái)構(gòu)造平均盒子,。這種方法極大地提高了結(jié)合預(yù)測(cè)矩形的準(zhǔn)確性,。

受WBF在物體檢測(cè)中應(yīng)用的啟發(fā),CTCV團(tuán)隊(duì)運(yùn)用了類比的思想,,將動(dòng)作的一維邊界框類比為一維線段,,并對(duì)WBF方法進(jìn)行了修改,以適用于TAL任務(wù),,如圖3所示,。實(shí)驗(yàn)結(jié)果表明了該方法的有效性。

電信AI公司全年競(jìng)賽論文專題回顧

圖3 改進(jìn)的1維WBF 示意圖

3 實(shí)驗(yàn)結(jié)果

3.1 評(píng)估指標(biāo)

本次挑戰(zhàn)賽使用的評(píng)估指標(biāo)是mAP[5],。它是通過(guò)計(jì)算不同動(dòng)作類別和IoU閾值的平均精確度來(lái)確定的,。CTCV團(tuán)隊(duì)以0.1的增量評(píng)估IoU閾值,范圍從0.1到0.5。

3.2 實(shí)驗(yàn)細(xì)節(jié)

CTCV團(tuán)隊(duì)模型訓(xùn)練結(jié)合了Vit-B,、Vit-L以及兩者的混合組合提取的特征,。為了獲得更多樣化的模型,一共進(jìn)行了5次重復(fù)采樣訓(xùn)練數(shù)據(jù)集的80%,。每種特征提取方法產(chǎn)生了5個(gè)模型,,最后擁有了15個(gè)模型。團(tuán)第將這些模型的評(píng)估結(jié)果分別輸入WBF模塊,,并為每個(gè)模型結(jié)果分配了等量的融合權(quán)重,即[1,1,1,1,1],。

3.3 實(shí)驗(yàn)結(jié)果

表1展示了不同特征的性能對(duì)比,。第1行和第2行分別展示了使用ViT-B和ViT-L特征特征的結(jié)果。第3行是ViT-B和ViT-L特征級(jí)聯(lián)的結(jié)果,。

電信AI公司全年競(jìng)賽論文專題回顧

在過(guò)程中CTCV團(tuán)隊(duì)發(fā)現(xiàn)級(jí)聯(lián)特征的mAP略低于ViT-L,,但仍優(yōu)于ViT-B。盡管如此,,基于各種方法在驗(yàn)證集上的表現(xiàn),,選擇在測(cè)試集上將以上特征應(yīng)用WBF得到結(jié)果并提交。最終提交到系統(tǒng)的結(jié)果mAP為0.50,。

電信AI公司全年競(jìng)賽論文專題回顧

4 結(jié)論

在本次競(jìng)賽中,,CTCV團(tuán)隊(duì)最初通過(guò)數(shù)據(jù)收集增強(qiáng)相對(duì)驗(yàn)證集中缺失類別的訓(xùn)練數(shù)據(jù)。借助VideoMAE-v2框架加入適配層訓(xùn)練基于不同主干網(wǎng)絡(luò)的動(dòng)作類別預(yù)測(cè)模型,。并利用修改的ActionFormer框架訓(xùn)練TAL任務(wù),,同時(shí)修改了WBF方法以便有效地融合測(cè)試結(jié)果。最終,,CTCV團(tuán)隊(duì)在測(cè)試集上實(shí)現(xiàn)了0.50的mAP,,排名第一。

這一優(yōu)異成績(jī)證明了團(tuán)隊(duì)方法的有效性,,將實(shí)際業(yè)務(wù)中沉淀下來(lái)的算法,、trick及算法邏輯應(yīng)用于國(guó)際公平公正的競(jìng)爭(zhēng)舞臺(tái),實(shí)現(xiàn)了電信AI公司在視頻理解領(lǐng)域的自我突破,。電信AI公司一直秉持著“技術(shù)從業(yè)務(wù)中來(lái),,到業(yè)務(wù)中去”的路線,將競(jìng)賽視為檢驗(yàn)和提升技術(shù)能力的重要平臺(tái),,通過(guò)參與競(jìng)賽,,不斷優(yōu)化和完善技術(shù)方案,為客戶提供更高質(zhì)量的服務(wù),,同時(shí)也為團(tuán)隊(duì)提供了寶貴的學(xué)習(xí)和成長(zhǎng)機(jī)會(huì),。

References

[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis.??Soft-nms–improving object detection with one line of code. InProceedings of the??IEEE international conference on computer vision, pages 5561–5569, 2017.

[2] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier,??Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with??transformers. InEuropean conference on computer vision, pages 213–229. Springer,??2020.

[3] Feng Cheng and Gedas Bertasius. Tallformer: Temporal action??localization with a long-memory transformer. InEuropean Conference on Computer??Vision, pages 503–521. Springer, 2022.

[4] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk??Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias??Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words:??Transformers for image recognition at scale.arXiv preprint arXiv:2010.11929,??2020.

[5] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and??Andrew Zisserman. The pascal visual object classes (voc) challenge.International??journal of computer vision, 88:303– 338, 2010.

[6] Jan Hosang, Rodrigo Benenson, and Bernt Schiele. Learning non-maximum??suppression. InProceedings of the IEEE conference on computer vision and pattern??recognition, pages 4507–4515, 2017.

[7] Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Shiwei Zhang, Song Bai, and??Xiang Bai. End- to-end temporal action detection with transformer.IEEE??Transactions on Image Processing, 31:5427–5441, 2022.

[8] Viorica P ?atr ?aucean, Lucas Smaira, Ankush Gupta, Adri`a Recasens??Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward,??Mateusz Malinowski, Yi Yang, et al. Percep- tion test: A diagnostic benchmark??for multimodal video models.arXiv preprint arXiv:2305.13786, 2023.

[9] Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li, and??Dacheng Tao. React: Temporal action detection with relational queries.??InEuropean conference on computer vision, pages 105–121. Springer, 2022.

[10] Roman Solovyev, Weimin Wang, and Tatiana Gabruseva. Weighted boxes??fusion: Ensembling boxes from different object detection models.Image and Vision??Computing, 107:104117, 2021.

[11] Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna, and Ajmal Mian. Vision??transformers for action recognition: A survey.arXiv preprint arXiv:2209.05700,??2022.

[12] Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang,??Yali Wang, and Yu Qiao. Videomae v2: Scaling video masked autoencoders with dual??masking. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern??Recognition, pages 14549–14560, 2023.

[13] Chen-Lin Zhang, Jianxin Wu, and Yin Li. Actionformer: Localizing??moments of actions with transformers. InEuropean Conference on Computer Vision,??pages 492–510. Springer, 2022.

免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān),。所涉內(nèi)容不構(gòu)成投資,、消費(fèi)建議,僅供讀者參考,,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容,。

原文轉(zhuǎn)自:咸寧新聞網(wǎng)

免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1083776.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。

(0)
中國(guó)財(cái)富網(wǎng)的頭像中國(guó)財(cái)富網(wǎng)
上一篇 2023年12月18日 下午2:57
下一篇 2023年12月18日 下午4:00
198搶自鏈數(shù)字人

相關(guān)推薦