【學術論壇】k8凯发国际與人工智能學院成功舉辦第六十六期研究生學術論壇-武漢紡織大學-k8凯发国际與人工智能學院

k8凯发国际

【學術論壇】k8凯发国际與人工智能學院成功舉辦第六十六期研究生學術論壇

來源: k8凯发国际與人工智能學院 作者:魏逸飛編輯人:羅園發稿時間:2025-12-08瀏覽次數:

2025年12月5日晚19時,k8凯发国际與人工智能學院第六十六期研究生學術論壇在崇真樓南樓A4030成功舉辦。本次論壇由2023級研究生葉沛、李珠婷、黎瑤以及2024級研究生施霄主講,k8凯发国际與人工智能學院研究生會學術部主辦,學院朱飛老師出席了該論壇。

葉沛同學分享的主題為「Mamba: Lightweight Multi-Receptive Visual Mamba Network」。過往輕量級視覺模型研究聚焦於CNN與Transformer,但CNN受限於局部感受野,難捕獲長距離依賴;Transformer雖全局建模強,但高解像度下計算複雜度為二次方。近年來,狀態空間模型(Mamba)因線性複雜度受到關注,但現有輕量級Mamba模型雖FLOPs低,實際吞吐量仍不理想。為此,他們提出Mamba框架,採用三階段網絡架構,大幅提升了推理速度;並設計了多感受野特徵交互模塊(MRFFI),該模塊集成了WTE-Mamba、高效多核深度可分離卷積以及冗餘恆等連接消除策略,能夠融合多尺度信息並強化高頻細節提取。實驗表明,Mamba全面超越當前主流高效模型,實現了速度與精度的最佳平衡。

李珠婷同學分享的主題為「DETRs Beat YOLOs on Real-time Object Detection」。她們針對YOLO系列受非極大值抑制(NMS)限制導致推理延遲不穩定,以及現有DETR計算成本過高無法實時的問題,提出了首個實時端到端目標檢測器RT-DETR。該模型設計了高效混合編碼器,顺利获得解耦多尺度特徵交互大幅降低計算量;並提出不確定性最小化查詢選擇策略,優化初始查詢質量以提升精度。此外,模型支持無需重訓的靈活速度調節。

施霄同學分享的主題為「From Body Parts to Holistic Action: A Fine-Grained Teacher-Student CLIP for Action Recognition」。動態視頻中的動作識別仍具挑戰性,尤其在區分視覺相似的動作時。現有方法常依賴整體表徵,卻忽視了對準確分類至關重要的精細細節。他們提出一種新型精細化師徒CLIP(FT-CLIP)模型,顺利获得師徒架構將肢體分析與整體動作識別相結合,彌合了精細動作解析與整體動作理解之間的鴻溝。教師模型顺利获得處理個體肢體部件及專屬描述生成部件特異性特徵,隨後將這些特徵聚合併蒸餾至學生模型。藉助可學習提示的知識蒸餾機制,學生模型在保持高效推理的同時,能有效學習捕捉動作間的細微差異。FT-CLIP顺利获得從精細的身體部位分析逐步推進至整體動作識別,實現了對複雜動作的更細緻理解。在Kinetics-TPS數據集的全監督環境實驗,以及HMDB51和UCF101數據集的零樣本環境實驗均驗證了本方法的有效性。

黎瑤同學分享的主題為「Residual Local Feature Network for Efficient Super-Resolution」。基於深度學習的方法在單圖像超解像度(SISR)領域取得了顯著成效。然而,顺利获得複雜的層連接策略提升特徵利用率來聚合更強大的特徵,這些結構可能並非實現更高運行速度所必需。她們提出了一種新穎的殘差局部特徵網絡(RLFN)。其主要思想是使用三個卷積層進行殘差局部特徵學習,以簡化特徵聚合。此外,重新審視了流行的對比損失,並觀察到其特徵提取器中間特徵的選擇對性能有很大影響。此外,提出了一種新穎的多階段熱啟動訓練策略。在每個階段,利用前一階段的預訓練權重來提高模型性能。