中国科学院西安光機所分光イメージング技術研究室の王荃研究員チームはこのほど、コンピュータ視覚分野におけるゼロサンプル異常検出と位置決め方向に新たな進展を遂げ、関連成果はコンピュータ視覚とモード識別大会(The IEEE/CFF Conference on Computer Visionand Pattern Recognition、CVPR 2026)に受信された。論文の第1著者は西安光機所2024級修士課程大学院生の胡明氏、通信著者は武漢大学中南病院の胡聡博士、西安光機所の胡炳梁研究員及び王荃研究員、西安光機所は第1通信単位である。
工業品質検査、医学映像分析などの応用需要が増加するにつれて、異常検査技術は日増しに注目されている。しかし、実際のシーンでは異常サンプルが希少で入手が困難なことが多く、従来のマークアップデータに依存した監督学習方法がボトルネックに直面していた。
視覚・言語モデルに基づくゼロサンプル異常検出方法は、大規模な事前訓練知識により、異常表示を必要とせずに検出を実現することができるが、細粒度異常検出任務において、この方法は依然として3つの挑戦に直面している:1つはモデルが前景目標と複雑な背景を区別しにくく、異常特徴が背景と混ざりやすく、検出精度に影響を与える、第二に、単一のテキスト表現に依存し、意味表現能力が限られており、異常判別に精緻な根拠を提供することが困難である、第三に、モード間整列の過程で、画像とテキストの意味整合に不確実性が存在し、モデルの性能向上を制約した。
このような問題に対して、研究チームはFB-CLIP(Foreground-Background Disentangled CLIP)という新しい枠組みを提案した。このフレームワークは3つのレベルから革新されています。
テキストモデリングにおいて、多戦略テキスト特徴の融合方法を提案し、文レベル表示、グローバルコンテキスト情報及び注意力重み付け特徴を結合することにより、より豊富なタスク知覚意味表示を構築し、モデルの異常意味に対する理解能力を向上させる、
視覚モデリングの上で、多視野角前景-背景分離メカニズムを設計し、意味、空間、構造などの次元から画像特徴を解凍し、背景抑制戦略を用いて複雑なシーン中の干渉情報を減少させ、モデルをより正確に異常領域に焦点を合わせる。
モード間整列において、意味一致性正規化制約を導入し、予測信頼度を向上させ、正常と異常サンプルの意味間隔を拡大することにより、モデルの異常判別能力を強化する。
実験結果により、FB-CLIPは複数の工業検査と医学映像データセットの上でいずれも優れた性能を得て、特に細粒度異常定位任務の中で際立って現れて、全体の性能は国際トップレベルに達した。この方法は異常サンプルの表示を必要とせず、複雑なシーンにおける微小異常の正確な検出と位置決めを実現でき、良好な実用的な将来性がある。
この成果は医学映像補助診断、工業欠陥検査などの分野に応用することが期待されている。
西安光機所の王荃研究員チームは長期にわたりコンピュータ視覚と生物医学イメージング、脳機械知能などの交差方向の研究に深く耕し、近年、関連分野で一連の重要な進展を得続け、関連成果はCVPR 2025、Pattern Recognitionなどに発表された。
IEEE/CVFコンピュータ視覚・モード識別会議はコンピュータ視覚分野で最も影響力のある国際学術会議の一つであり、中国コンピュータ学会(CCF)からA類会議と評価されている。