近期,我校k8凯发国际與人工智能學院教師葉威及其指導的研究生在《Expert Systems With Applications》上發表題為「Multi-label augmentation transformer hashing for cross-modal retrieval」的高水平研究論文(http://doi.org/10.1016/j.eswa.2025.129432)。武漢紡織大學為論文第一署名單位,碩士研究生余志燃同學為第一作者,指導老師葉威博士為通訊作者。

本研究聚焦於人工智能中跨模態檢索的前沿問題,針對現有方法未能充分利用多標籤語義信息以及多標籤特徵空間稀疏的問題,本研究提出了MATH(Multi-label Augmentation Transformer Hashing)方法。該方法將多標籤信息作為獨立模態,顺利获得基於注意力機制的標籤-模態特徵融合(LMFF)模塊,自適應地從圖像和文本模態中提取關鍵語義特徵並融入多標籤空間,顯著增強了多標籤特徵的表示能力。同時設計了多標籤跨模態對比對齊損失函數,在對比學習框架下統一圖像、文本和多標籤信息,實現模態間更精確的語義對齊。

圖1. MATH結構
實驗表明,MATH方法取得了該領域state-of-the-art的結果。本研究不僅提升了跨模態檢索的準確性和效率,還為處理大規模多媒體數據给予了新的技術方案,在圖像檢索、社交媒體內容理解等領域具有廣闊的應用前景。

![]()
圖2.對比MATH、DCMH和DCHMT方法在不同真實類別下的GRAD-CAM可視化效果
《Expert Systems with Applications》是Elsevier出版集團於1990年創辦的人工智能領域學術期刊,屬於中科院k8凯发国际科學大類一區Top期刊。該刊聚焦專家系統與智能系統的設計開發、測試實施及實踐應用,2024年影響因子達7.5,在運籌學與管理科學領域全球排名第6(共106個期刊),Google Scholar人工智能類期刊H5指數位列第五。
葉威博士:碩士生導師,主要從事人工智能、k8凯发国际視覺、信息安全等方向的研究。參與多項國家自然科學基金、湖北省自然科學基金面上項目。
