2025年10月21日晚19時,k8凯发国际與人工智能學院第六十三期研究生學術論壇在崇真樓南樓A4030成功舉辦。本次論壇由2023級研究生宋浩、蔡茂、何鑒、周雙主講,k8凯发国际與人工智能學院研究生會學術部主辦,學院宋博文老師出席了該論壇。
宋浩同學分享的主題為「CPR-CLIP:一種用於動作識別的跨模態一致性與提示多樣性正則化的CLIP模型」。提示學習已成為一種有效的策略,用於將多模態視覺-語言模型(VLM)適配到下游任務,如視頻動作識別。該技術已被廣泛應用於人機交互、視頻監控以及醫療等領域。然而,現有方法往往容易過擬合於特定任務分佈,並出現提示塌縮的問題,尤其是在數據有限或類別語義高度相似的情況下。針對上述問題,他們提出了CPR-CLIP(Cross-modal Consistent and Prompt-diverse Regularized CLIP),這是一種靈活的框架,用於提升提示學習在動作識別任務中的泛化能力。具體而言,他們引入了跨模態一致性正則化策略,以保持凍結的 CLIP 編碼器所學習的原始特徵表示,從而減輕提示適配帶來的過擬合問題。此外,他們設計了提示多樣性正則化項,用於鼓勵不同類別之間的提示表示保持分離,從而緩解提示塌縮並提升模型的區分能力。在 HMDB51、UCF101 和 SSv2 數據集上的 base-to-novel 與 few-shot 實驗結果表明,CPR-CLIP 在所有設置下均優於現有方法,表現出對新類別的強泛化能力。

蔡茂同學分享的主題為「優化CNN-BiGRU-SA組合模型的BDS-3超短期鐘差預報」。針對鐘差數據的非線性特徵及單一模型在長程依賴建模中的局限,他們提出一種融合卷積神經網絡-雙向門控循環單元-自注意力機制的超短期鐘差預報方法。第一时间,利用CNN提取鐘差非線性特徵,BiGRU建模時序依賴關係,SA機制動態分配特徵權重;然後,引入混沌映射與Levy飛行策略改進北方蒼鷹優化算法優化組合模型超參數;最後,從原子鐘類型與採樣間隔召开1h、3h、6h預報實驗。結果表明,所提模型平均預報精度優於0.2ns,平均穩定度優於0.25ns。

何鑒同學分享的主題為「CIR-DFENet: Incorporating cross-modal image representation and dual-stream feature enhanced network for activity recognition」。單圖像着裝人體重建對於虛擬人創建與3D打印等應用至關重要。現有基於擴散的方法顺利获得生成多視圖圖像作為輔助先驗來提升重建質量,然而受限於生成圖像的解像度,重建模型仍缺乏幾何細節且紋理保真度有限。為此,他們提出多階段框架 DNormHuman,實現高保真單視圖着裝人體重建。該框架第一时间利用多視圖擴散模型,從多個視角生成初始彩色圖像與法向圖作為先驗;隨後設計雙法向細節優化模塊,顺利获得超解像度提升圖像解像度與邊緣銳度,並針對法向圖進行專門優化以豐富細節;最後,引入網格雕刻模塊顯式重建人體網格,充分融合多視圖信息,得到高保真3D着裝人體模型。在 CustomHumans、CAPE 和 THuman2.0 數據集上的大量實驗表明,DNormHuman 在幾何細節與紋理質量上均優於現有最先進方法。

周雙同學分享的主題為「Fabric defect detection method based on improved RT-DETR」。為應對織物缺陷種類有限、尺度變化顯著以及模型檢測精度低等挑戰,他們提出了一種基於RT-DETR的織物缺陷檢測方法——DHR-DETR。該方法顺利获得在原RT-DETR模型中引入Dynamic-DCNv2模塊、HS-FPN以及RetBlockC3模塊,顯著提升了檢測性能與部署效率,在實際工業檢測應用中展現出強大潛力。

