A欧美国产国产综合视频_最近日本中文字幕免费完整_国产乱伦一级片_久久99国产综合精品婷婷_韩国理论片在线中文字幕一区二区_亚洲AV成人影片在线观看_亚洲av无码电影网_优物视频最新网址_天天艹无码天天射_脱下丝袜的极品销魂大胸美女王馨瑶91精品美女嫩模写真套图,男男被?到喷水18禁视频,欧美久久精品一级黑人c片 ,综合在线视频精品专区

人民網(wǎng)

電信AI公司全年競賽論文專題回顧

2023年,,電信AI公司在人工智能領域掀起了一股科技旋風,連續(xù)在21項國內(nèi)外頂級AI競賽中獲獎,,申請了超過100項專利,,同時在CVPR,、ACM??MM,、ICCV等頂級會議和期刊上發(fā)表論文30余篇,,推動了人工智能理論研究的深入發(fā)展,。此外,,電信AI公司立足于人工智能的核心技術,致力于推動其在工業(yè),、醫(yī)療,、能源、教育,、交通,、農(nóng)業(yè)等各行各業(yè)的落地應用,憑借深厚的技術積累和持續(xù)的創(chuàng)新力,,為行業(yè)注入了新動力,,助力提升效率,解決棘手問題,。這份以實際應用為焦點的“成績單”,,無疑為電信AI公司贏得了更多的尊重和認可,,也再次證明了央企在科技浪潮中不僅是技術的領航者,,更是創(chuàng)新的先驅(qū)。

電信AI公司,,一家在2023年11月以30億元注冊資本成立的科技巨頭,,其前身是中國電信數(shù)字智能科技分公司。作為中國電信開展大數(shù)據(jù)及人工智能業(yè)務的科技型,、能力型,、平臺型專業(yè)公司,電信AI公司自成立以來,,一直致力于人工智能領域核心技術攻堅,、前沿技術研發(fā)和產(chǎn)業(yè)空間拓展。在中國電信集團全面深入實施云改數(shù)轉(zhuǎn)戰(zhàn)略的大背景下,,電信AI公司成功自主研發(fā)了超大規(guī)模視頻解析能力,、數(shù)字人智能客服、星辰系列大模型等一系列創(chuàng)新應用成果,。

通過與各行業(yè)和國家級合作伙伴的全面合作,,電信AI公司正擴大在行業(yè)內(nèi)和國家層面的占位與影響力,持續(xù)為人工智能創(chuàng)新提供引擎動力,。電信AI公司的成功背后,,是一支約800人的精英團隊的支持。這支團隊中,,研發(fā)人員的占比高達75%,,平均年齡為31歲,,他們既有來自國內(nèi)外一流高校的應屆生,也有來自全球頂尖科技公司的資深工程師,。他們的才華和創(chuàng)新精神共同構成了電信AI公司強大的技術研發(fā)力量,,為公司的持續(xù)發(fā)展提供了源源不斷的人才支持。

接下來,,我們將對電信AI公司在2023年的一些重要科研成果進行系列回顧和分享,。本期是針對電信AI公司CV團隊(以下簡稱“CTCV團隊”)在ICCV??2023 The Perception Test Challenge-Action Localisation頂會上獲得了Action??Localisation賽道的冠軍技術進行介紹。ICCV在計算機視覺領域的三大頂會之一,,每兩年召開一次,,在業(yè)內(nèi)具有極高的評價。本文將介紹該團隊在本次挑戰(zhàn)中采用的算法思路和方案,。

ICCV 2023 The Perception Test Challenge-Action Localisation 冠軍技術分享

電信AI公司全年競賽論文專題回顧

【賽事概覽與團隊背景】

隨著大型多模態(tài)模型如Flamingo,、BeIT-3、GPT-4的發(fā)展,,人類水平的集成感知系統(tǒng)正逐漸成為可能,。為了實現(xiàn)這一目標,需要全面評估這些模型的性能,,包括揭示它們的優(yōu)勢和劣勢?,F(xiàn)有的多模態(tài)基準在某些方面存在局限,如圖像基準通常不涉及時間方面,,而視覺問答主要關注圖像級語義理解,。DeepMind發(fā)布的ICCV??2023 The First Perception Test??Challenge旨在通過探索模型在視頻、音頻和文本模態(tài)中的能力,,克服這些局限,。競賽覆蓋了四個技能領域、四種推理類型和六個計算任務,,旨在更全面地評估多模態(tài)感知模型的能力,。

其中Action??Localisation賽道是對參賽團隊在細粒度視頻理解方面的一次考驗,該賽道的核心是對未剪輯的視頻內(nèi)容進行深入理解和準確的動作定位,,所展示出的技術對于自動駕駛系統(tǒng),、視頻監(jiān)控分析等多種實際應用場景至關重要。

由中國電信交通算法方向的成員組成CTCV團隊,,參加了本次比賽,。該團隊持續(xù)在計算機視覺技術這個研究方向深耕,沉淀的技術已在城市治理,、交通治安等業(yè)務中廣泛應用,,持續(xù)服務海量的用戶。他們利用長期打磨明星產(chǎn)品所積累的經(jīng)驗和技術,,以本次ICCV??2023的The First Perception Test Challenge – Action??Localisation賽道為契機,,實現(xiàn)在視頻理解領域技術的自我突破,。

1引言

在視頻中定位和分類動作的任務,即時序動作定位[8](Temporal Action Localisation,??TAL),,仍然是視頻理解中的一個挑戰(zhàn)性問題,。

電信AI公司全年競賽論文專題回顧

TAL的深度模型方面已經(jīng)取得了顯著進展。例如,,TadTR[7]和ReAct[9]使用類似DETR的基于Transformer[2]的解碼器進行動作檢測,,將動作實例建模為一組可學習的集合。TallFormer[3]使用基于Transformer的編碼器提取視頻表征,。

目前,,這些方法在動作定位方面已經(jīng)實現(xiàn)了顯著的進度,然而仍有許多問題亟待挖掘,。例如,,部分方法在視頻感知能力方面存在局限。為解決該問題,,CTCV團隊意識到想要更好地定位動作實例,,可靠的視頻特征表達是關鍵所在。

TAL作為一種高度精細的視頻理解任務,,且在本次挑戰(zhàn)的數(shù)據(jù)集包含了假裝動作類別,,動作更為復雜,直接借用現(xiàn)有預訓練模型提取特征效果并不理想,。為了解決這一問題,,CTCV團隊采用了近期的VideoMAE-v2框架[12],,并加入自有的adapter+linear層,,同時,利用原始預訓練模型權重作為模型部分的初始化權重,,訓練具有兩種不同主干網(wǎng)絡的動作類別預測模型,。接下來,利用改進的ActionFormer框架[13]訓練TAL任務,,并對改進了WBF方法[10]適配TAL任務,。經(jīng)過這一系列的技術創(chuàng)新與優(yōu)化,CTCV團隊的方法在測試集上實現(xiàn)了0.50的mAP,,排名第一,,領先第二名的團隊3個百分點,比Google??DeepMind提供的baseline高出34個百分點,。

2 競賽解決方案

電信AI公司全年競賽論文專題回顧

圖1 算法概覽

2.1 數(shù)據(jù)增強

在Perception Test Challenge的Action??Localisation賽道,,采用的數(shù)據(jù)集是一組用于動作定位的視頻(RGB+音頻),這些視頻具有高分辨率,,并包含多個動作片段的標注,。通過分析數(shù)據(jù)集,,CTCV團隊發(fā)現(xiàn)訓練集相較于驗證集缺少了三個類別的標簽。為保證模型驗證的充分性以及競賽的要求,,采集了少量的視頻數(shù)據(jù),,并將其添加到訓練數(shù)據(jù)集中,以豐富訓練樣本,。同時,,為簡化標注,CTCV團隊預設了每個視頻只包含一個動作,。

電信AI公司全年競賽論文專題回顧

圖2 自采視頻樣例

2.2 動作識別與特征提取

近年來,,使用大規(guī)模數(shù)據(jù)進行訓練的基礎模型噴涌而出,通過zero-shot recognition,、linear probe,、prompt??finetune、fine-tuning等手段,,將基礎模型較強的泛化能力應用到多種下游任務中,,有效地推動了AI領域多個方面的進步。

TAL作為一種精細的視頻理解任務,,并且本次挑戰(zhàn)的數(shù)據(jù)集包含了假裝動作類別,,例如

‘假裝將某物插入某物’,‘假裝將某物撕成碎片’等,。這類動作和'將某物插入某物',,‘將某物撕成碎片’等動作極為相似,這無疑給特征層面帶來了更大的挑戰(zhàn),。因此直接借用現(xiàn)有預訓練模型提取特征(如VideoMAE-v2),,效果不理想。

為了讓模型更好地學到特征表示,,CTCV團隊選擇了近期發(fā)布的VideoMAE-v2框架,,自主訓練一個域適應的動作分類模型,在該框架后面增加了adapter層以及用于分類的linear層,,訓練同數(shù)據(jù)域下的動作分類器[11],。CTCV團隊通過解析JSON標注文件,將TAL數(shù)據(jù)集轉(zhuǎn)換為動作識別數(shù)據(jù)集,。最后,,為了增加視頻片段表征的多樣性,同時考慮實驗的效率,,以Vit-B和Vit-L為主干[4]的特征提取器,。

對于每個視頻,使用了16幀的不重疊剪輯,,以每秒15幀的幀率捕獲,,并以16幀的步幅,。VitB模型的特征維度為768,而ViTL模型的特征維度為1024,。當組合這兩種特征時,,生成了一個新的維度為1792的特征。該特征是CTCV團隊訓練時序動作定位模型的備選之一,。在訓練初期階段,,團隊分析了音頻特征,觀察到mAP指標有所下降,。因此,,在隨后的實驗中沒有考慮音頻特征。

2.3 時序動作定位

Actionformer[13]??是一個為時序動作定位設計的anchor-free模型,,它集成了多尺度特征和時間維度的局部自注意力,。它在各種相關數(shù)據(jù)集上都展現(xiàn)了令人印象深刻的性能。

本次競賽,,CTCV團隊使用Actionformer作為動作定位的baseline模型,,以預測動作發(fā)生的邊界(起止時間)及類別。

在獲得視頻特征后,,CTCV團隊follow??ActionFormer的方法,,將動作邊界回歸和動作分類結(jié)合在一個統(tǒng)一的框架內(nèi)。通過級聯(lián)的視頻特征被編碼到一個多尺度的Transformer中,,做進一步處理,。接著,在模型的回歸和分類的head分支引入feature??pyramid layer,,增強特征表達,,這些頭部在每個time step會產(chǎn)生一個action??candidate。同時通過將head的數(shù)量增加到32,,并引入fpn1D結(jié)構,,相比基線訓練架構,提高了模型的識別能力,。

2.4 WBF for 1-D

Weighted Boxes??Fusion(WBF)[10]是一種新型的加權檢測框融合方法,該方法利用所有檢測框的置信度來構造最終的預測框,,并在圖像目標檢測中取得了較好地效果,,與NMS[6]和soft-NMS[1]方法不同,它們會丟棄某些預測,,WBF利用所有提出的邊界框的置信度分數(shù)來構造平均盒子,。這種方法極大地提高了結(jié)合預測矩形的準確性。

受WBF在物體檢測中應用的啟發(fā),,CTCV團隊運用了類比的思想,,將動作的一維邊界框類比為一維線段,,并對WBF方法進行了修改,以適用于TAL任務,,如圖3所示,。實驗結(jié)果表明了該方法的有效性。

電信AI公司全年競賽論文專題回顧

圖3 改進的1維WBF 示意圖

3 實驗結(jié)果

3.1 評估指標

本次挑戰(zhàn)賽使用的評估指標是mAP[5],。它是通過計算不同動作類別和IoU閾值的平均精確度來確定的,。CTCV團隊以0.1的增量評估IoU閾值,范圍從0.1到0.5,。

3.2 實驗細節(jié)

CTCV團隊模型訓練結(jié)合了Vit-B,、Vit-L以及兩者的混合組合提取的特征。為了獲得更多樣化的模型,,一共進行了5次重復采樣訓練數(shù)據(jù)集的80%,。每種特征提取方法產(chǎn)生了5個模型,最后擁有了15個模型,。團第將這些模型的評估結(jié)果分別輸入WBF模塊,,并為每個模型結(jié)果分配了等量的融合權重,即[1,1,1,1,1],。

3.3 實驗結(jié)果

表1展示了不同特征的性能對比,。第1行和第2行分別展示了使用ViT-B和ViT-L特征特征的結(jié)果。第3行是ViT-B和ViT-L特征級聯(lián)的結(jié)果,。

電信AI公司全年競賽論文專題回顧

在過程中CTCV團隊發(fā)現(xiàn)級聯(lián)特征的mAP略低于ViT-L,,但仍優(yōu)于ViT-B。盡管如此,,基于各種方法在驗證集上的表現(xiàn),,選擇在測試集上將以上特征應用WBF得到結(jié)果并提交。最終提交到系統(tǒng)的結(jié)果mAP為0.50,。

電信AI公司全年競賽論文專題回顧

4 結(jié)論

在本次競賽中,,CTCV團隊最初通過數(shù)據(jù)收集增強相對驗證集中缺失類別的訓練數(shù)據(jù)。借助VideoMAE-v2框架加入適配層訓練基于不同主干網(wǎng)絡的動作類別預測模型,。并利用修改的ActionFormer框架訓練TAL任務,,同時修改了WBF方法以便有效地融合測試結(jié)果。最終,,CTCV團隊在測試集上實現(xiàn)了0.50的mAP,,排名第一。

這一優(yōu)異成績證明了團隊方法的有效性,,將實際業(yè)務中沉淀下來的算法,、trick及算法邏輯應用于國際公平公正的競爭舞臺,實現(xiàn)了電信AI公司在視頻理解領域的自我突破。電信AI公司一直秉持著“技術從業(yè)務中來,,到業(yè)務中去”的路線,,將競賽視為檢驗和提升技術能力的重要平臺,通過參與競賽,,不斷優(yōu)化和完善技術方案,,為客戶提供更高質(zhì)量的服務,同時也為團隊提供了寶貴的學習和成長機會,。

References

[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis.??Soft-nms–improving object detection with one line of code. InProceedings of the??IEEE international conference on computer vision, pages 5561–5569, 2017.

[2] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier,??Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with??transformers. InEuropean conference on computer vision, pages 213–229. Springer,??2020.

[3] Feng Cheng and Gedas Bertasius. Tallformer: Temporal action??localization with a long-memory transformer. InEuropean Conference on Computer??Vision, pages 503–521. Springer, 2022.

[4] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk??Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias??Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words:??Transformers for image recognition at scale.arXiv preprint arXiv:2010.11929,??2020.

[5] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and??Andrew Zisserman. The pascal visual object classes (voc) challenge.International??journal of computer vision, 88:303– 338, 2010.

[6] Jan Hosang, Rodrigo Benenson, and Bernt Schiele. Learning non-maximum??suppression. InProceedings of the IEEE conference on computer vision and pattern??recognition, pages 4507–4515, 2017.

[7] Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Shiwei Zhang, Song Bai, and??Xiang Bai. End- to-end temporal action detection with transformer.IEEE??Transactions on Image Processing, 31:5427–5441, 2022.

[8] Viorica P ?atr ?aucean, Lucas Smaira, Ankush Gupta, Adri`a Recasens??Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward,??Mateusz Malinowski, Yi Yang, et al. Percep- tion test: A diagnostic benchmark??for multimodal video models.arXiv preprint arXiv:2305.13786, 2023.

[9] Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li, and??Dacheng Tao. React: Temporal action detection with relational queries.??InEuropean conference on computer vision, pages 105–121. Springer, 2022.

[10] Roman Solovyev, Weimin Wang, and Tatiana Gabruseva. Weighted boxes??fusion: Ensembling boxes from different object detection models.Image and Vision??Computing, 107:104117, 2021.

[11] Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna, and Ajmal Mian. Vision??transformers for action recognition: A survey.arXiv preprint arXiv:2209.05700,??2022.

[12] Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang,??Yali Wang, and Yu Qiao. Videomae v2: Scaling video masked autoencoders with dual??masking. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern??Recognition, pages 14549–14560, 2023.

[13] Chen-Lin Zhang, Jianxin Wu, and Yin Li. Actionformer: Localizing??moments of actions with transformers. InEuropean Conference on Computer Vision,??pages 492–510. Springer, 2022.

免責聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)資訊,,僅代表作者個人觀點,與本網(wǎng)無關,。所涉內(nèi)容不構成投資,、消費建議,僅供讀者參考,,并請自行核實相關內(nèi)容,。

原文轉(zhuǎn)自:咸寧新聞網(wǎng)

免責聲明:本文來自網(wǎng)絡收錄或投稿,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,,版權歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1083776.html
溫馨提示:投資有風險,,入市須謹慎,。本資訊不作為投資理財建議。

(0)
中國財富網(wǎng)的頭像中國財富網(wǎng)
上一篇 2023年12月18日 下午2:57
下一篇 2023年12月18日 下午4:00
198搶自鏈數(shù)字人

相關推薦