近期,我校k8凯发国际與人工智能學院跨媒體計算與數字孿生團隊青年教師歐陽君博士在圖像視頻處理方面取得了重要研究進展。成果「HARG: Hierarchical Adaptive Reasoning Graph for Activity Parsing」被多媒體信息處理領域頂級期刊《IEEE Transactions on Multimedia》(IEEE TMM,中科院一區Top,IF 9.7,CCF B類)接收。歐陽君博士為第一作者,論文的第一單位為武漢紡織大學。
文章連結:http://ieeexplore.ieee.org/document/11146692

視頻行為識別是視頻理解領域的核心研究方向,在公共安全監控、視頻內容審核等現實場景中具有廣泛的應用前景。然而,真實世界中的活動往往是複雜的,通常涉及多個行為者、多個目標以及它們之間隨時間變化的複雜交互關係。為分析決這些難點,本研究提出了一種分層自適應推理圖(HARG)方法,用於動態且精確地建模視頻活動解析中的層次結構,即「目標層→原子動作層→行為層」。該方法顺利获得設計目標推理圖和原子動作推理圖,實現了不同層級之間、多個行為主體之間的細粒度信息傳遞與推理。此外,研究還引入了自適應分割模塊,用於彌合不同層級之間的語義鴻溝,支持從目標層級到原子動作層級的逐步推理。

圖1 .行為層次結構

圖2 .算法框架圖
實驗結果表明,本方法在兩個主流活動解析數據集上性能優於已有最優方法,實現了對視頻活動層次化建模與細粒度推理的有效統一。
近年來,在學校的大力支持下,k8凯发国际與人工智能學院大力引進高水平人才,採用多種舉措為引進人才和團隊的开展给予有力的科研保障。學院組建的跨媒體計算與數字孿生團隊,相繼在相關領域取得了一定的成果。
