Pattern Recognition and Computer Vision: 6th Chinese Conference, PRCV 2023, Xiamen, China, October 13–15, 2023, Proceedings, Part V (Lecture Notes in Computer Science) 9819984688, 9789819984688

The 13-volume set LNCS 14425-14437 constitutes the refereed proceedings of the 6th Chinese Conference on Pattern Recogni

154 103 77MB

English Pages 548 [542] Year 2024

Table of contents :
Preface
Organization
Contents – Part V
Biometric Recognition
Spoof-Guided Image Decomposition for Face Anti-spoofing
1 Introduction
2 Related Work
2.1 Deep Learning-Based Face Anti-spoofing
2.2 Auxiliary Information-Based Face Anti-spoofing
3 Approach
3.1 Spoof-Guided Decomposition Network (SgDN)
3.2 Fusion Framework
4 Experiments
4.1 Settings
4.2 Ablation Study
4.3 Intra Testing
4.4 Inter Testing
4.5 Performance Analysis
5 Conclusion and Future Work
References
TransFCN: A Novel One-Stage High-Resolution Fingerprint Representation Method
1 Introduction
2 Methodology
2.1 Overall Framework
2.2 Transformer-Based Encoder
2.3 FCN-Based Decoder
2.4 Loss Function
3 Experiments
3.1 Datasets and Evaluation Protocols
3.2 Implementation Details
3.3 Ablation Study
3.4 Comparison with Other Pore Detection Methods
3.5 Comparison with Other Pore Matching Methods
4 Conclusion
References
A Video Face Recognition Leveraging Temporal Information Based on Vision Transformer
1 Introduction
2 Related Works
3 Methods
3.1 Overview
3.2 Preprocessing
3.3 TempoViT Recurrent Unit
3.4 Temporal-Spatial Joint Attention
4 Experiments and Results
4.1 Experiment Setting
4.2 Quantitative Evaluation
4.3 Ablation Study
5 Conclusions
References
Where to Focus: Central Attention-Based Face Forgery Detection
1 Introduction
2 Related Work
3 Proposed Method
3.1 FDD: Frequency Domain Decomposition
3.2 AFE: Adaptive Frequency Embedding
3.3 MAF: Multi-modal Attention Fusion
3.4 CA Block: Central Attention Block
3.5 Overall Loss
4 Experiments
4.1 Experimental Setup
4.2 Comparison to the State-of-the-Arts
4.3 Ablation Study and Architecture Analysis
4.4 Visualizations
4.5 Limitations
5 Conclusion
References
Minimum Assumption Reconstruction Attacks: Rise of Security and Privacy Threats Against Face Recognition
1 Introduction
2 Related Works
3 Methods
3.1 Overview of MARA
3.2 Latent Vector Optimization by Gradient Estimation
3.3 Optimize in W Latent Space
3.4 Latent Space Mining and Cascade Filtering
4 Experiments and Results
4.1 Datasets, Encoders, and Configurations
4.2 Qualitative Evaluation
4.3 Quantitative Evaluation on Impersonation Attack
5 Conclusion
References
Emotion Recognition via 3D Skeleton Based Gait Analysis Using Multi-thread Attention Graph Convolutional Networks
1 Introduction
2 Related Work
2.1 Gait Based Human Emotion Recognition
2.2 Graph-Based Methods for 3D Skeleton-Based Action Recognition
3 Methodology
3.1 Multi-stream Input
3.2 Multi-thread Attention Graph Layer
3.3 Network Architecture
4 Experimental Results and Discussions
4.1 Experimental Settings
4.2 Comparison with SOTA Methods
4.3 Ablation Study
5 Conclusion
References
Cross-Area Finger Vein Recognition via Hierarchical Sparse Representation
1 Introduction
2 Related Work
3 Hierarchical Sparse Representation-Based Cross-Area Finger Vein Recognition
3.1 Image-Specific Dictionary Based Sparse Representation
3.2 Compact Dictionary Based Sparse Representation
3.3 Two-Scale Hierarchical Sparse Representation
4 Experiment
4.1 Experimental Setting
4.2 Parameter Analysis
4.3 Effectiveness of Two-Scale Hierarchical Sparse Representation
4.4 Recognition Performance Testing
5 Conclusion
References
Non-local Temporal Modeling for Practical Skeleton-Based Gait Recognition
1 Introduction
2 Related Work
3 Method
3.1 Preliminaries
3.2 Spatial Feature Extractor
3.3 Multi-scale Temporal Information Extractor
3.4 Adaptive Frame Fuser
4 Experiments
4.1 Dataset and Training Details
4.2 Results
4.3 Ablation Study
5 Conclusion
References
PalmKeyNet: Palm Template Protection Based on Multi-modal Shared Key
1 Introduction
2 Methodology
2.1 Key Encoding
2.2 Key Binding
2.3 Key Generating
2.4 Deployment
3 Experiments and Conclusions
3.1 Database
3.2 Experiment Settings
3.3 Quantitative Evaluation
3.4 Comparison with State-of-the-Art
3.5 Security Analysis
4 Conclusion and Future Work
References
Full Quaternion Matrix-Based Multiscale Principal Component Analysis Network for Facial Expression Recognition
1 Introduction
2 Related Work
3 The Proposed Scheme
3.1 Full Quaternion Matrix Representation
3.2 Feature Extraction
4 Experimental Results
4.1 Datasets
4.2 Parameters Selection
4.3 Comparison with Other Methods
5 Conclusion
References
Joint Relation Modeling and Feature Learning for Class-Incremental Facial Expression Recognition
1 Introduction
2 Related Work
3 Proposed Method
3.1 Problem Formulation
3.2 Overview
3.3 Local Nets Module (LNets)
3.4 Dynamic Relation Modeling Module (DRM)
3.5 Adaptive Feature Learning Module (AFL)
3.6 Joint Loss and Inference
4 Experiments
4.1 Facial Expression Databases
4.2 Implementation Details
4.3 Ablation Studies
4.4 Comparison with State-of-the-Art Methods
5 Conclusion
References
RepGCN: A Novel Graph Convolution-Based Model for Gait Recognition with Accompanying Behaviors
1 Introduction
2 CDUT Gait Datasets
3 Gait Recognition with RepGCN
3.1 Preliminary of GCN
3.2 RepGCN
4 Experiments
5 Results and Discussion
6 Conclusion
References
KDFAS: Multi-stage Knowledge Distillation Vision Transformer for Face Anti-spoofing
1 Introduction
2 Related Work
2.1 Face Anti-spoofing
2.2 Knowledge Distillation
3 Methodology
3.1 Motivation
3.2 Feature Encoding
3.3 Decision-Level and Multi-stage Feature-Level Knowledge
4 Experiments and Analysis
4.1 Experimental Settings
4.2 Parameter Analysis
4.3 Comparisons with Related Methods
4.4 Ablation Study
4.5 Visualization
5 Conclusion
References
Long Short-Term Perception Network for Dynamic Facial Expression Recognition
1 Introduction
2 Proposed Method
2.1 Overview
2.2 Temporal Channel Excitation (TCE) Module
2.3 Long Short-Term Temporal Transformer
3 Experiments
3.1 Ablation Study
3.2 Comparisons with State-of-the-Art Methods and Visualization
4 Conclusion
References
Face Recognition and Pose Recognition
Pyr-HGCN: Pyramid Hybrid Graph Convolutional Network for Gait Emotion Recognition
1 Introduction
2 Related Work
2.1 GCN-Based Action Recognition
2.2 Skeleton-Based Gait Recognition
2.3 Gait Emotion Recognition
3 Proposed Method
3.1 Overall Architecture
3.2 STHC Block
4 Experiments
4.1 Experimental Settings
4.2 State-of-the-Art Comparisons
4.3 Ablation Study
4.4 Visualization and Analysis
5 Conclusion
References
A Dual-Path Approach for Gaze Following in Fisheye Meeting Scenes
1 Introduction
2 Related Works
2.1 Gaze Following
2.2 The Processing of Fisheye Image
3 Method
3.1 Framework
3.2 Head Feature Extraction Module
3.3 Dual-Path Feature Fusion Module
4 Experiments
4.1 Our Dataset—GazeMeeting
4.2 Experimental Setup
4.3 Comparison with Other Methods
4.4 Ablation Study
5 Conclusion
References
Mobile-LRPose: Low-Resolution Representation Learning for Human Pose Estimation in Mobile Devices
1 Introduction
2 Related Work
3 Mobile-LRPose
3.1 The Backbone of Mobile-LRPose
3.2 The Attention Modules of Mobile-LRPose
3.3 The Heads of Mobile-LRPose
4 Experiments
4.1 Implementation Details
4.2 Results
4.3 Ablation Study and Analysis
4.4 Applications
5 Conclusion
References
Attention and Relative Distance Alignment for Low-Resolution Facial Expression Recognition
1 Introduction
2 Related Work
2.1 Facial Expression Recognition
2.2 Knowledge Distillation
3 Method
3.1 Overview
3.2 Attention Alignment
3.3 Relative Distance Alignment
3.4 Overall Loss Function
4 Experiment
4.1 Datasets
4.2 Implementation Details
4.3 Low-Resolution Facial Expression Recognition Results
4.4 Ablation Study
5 Conclusion
References
Exploring Frequency Attention Learning and Contrastive Learning for Face Forgery Detection
1 Introduction
2 Related Work
3 Frequency Attention Learning and Contrastive Learning (FACL)
3.1 A Multi-task Two-Branch Architecture
3.2 Frequency Attention Module
3.3 DeepFake Contrastive Learning
3.4 Reconstruction of Manipulated Areas
3.5 Training and Inference
4 Experiments
4.1 Settings
4.2 Ablation Study
4.3 Comparisons
5 Conclusion
References
An Automatic Depression Detection Method with Cross-Modal Fusion Network and Multi-head Attention Mechanism
1 Introduction
2 Methodology
2.1 Framework Overview
2.2 Local Temporal Feature Extract Block
2.3 Cross-Model Fusion Block
2.4 Multi-head Temporal Attention Block
3 Experiments
3.1 Experiment Datasets
3.2 Experiment Details and Evaluation Metrics
4 Results and Analysis
4.1 Ablation Study
4.2 Comparing Video-Audio and Audio-Video Fusion
4.3 Compared with the State-of-the-Art Models
4.4 Effectiveness of Different Head Numbers
5 Conclusion
References
AU-Oriented Expression Decomposition Learning for Facial Expression Recognition
1 Introduction
2 Related Work
3 Methods
3.1 Overview
3.2 The AUA Branch
3.3 The FER Branch
3.4 Training Strategy
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Performance Evaluation
4.4 Comparison with State-of-the-Arts
4.5 Ablation Studies
5 Conclusion
References
Accurate Facial Landmark Detector via Multi-scale Transformer
1 Introduction
2 Related Work
2.1 Facial Landmark Detection
2.2 Vision Transformer
3 Method
3.1 Overview
3.2 Multi-scale Transformer
3.3 Joint Regression
3.4 Structure Loss
3.5 Training Objective
4 Experiments
4.1 Implementation Details and Datasets
4.2 Main Results
4.3 Ablation Study
5 Conclusion
References
ASM: Adaptive Sample Mining for In-The-Wild Facial Expression Recognition
1 Introduction
2 Related Work
2.1 Facial Expression Recognition
2.2 Co-training
3 Method
3.1 The Overall Framework
3.2 Adaptive Threshold Learning
3.3 Sample Mining
3.4 Tri-regularization
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Evaluation on Synthetic Noise
4.4 Ablation Study
4.5 Comparison with the State-of-the-art
5 Conclusion
References
Deep Face Recognition with Cosine Boundary Softmax Loss
1 Introduction
2 Method
2.1 The Softmax Loss Function Based on Angle Intervals
2.2 Cosine Function Based Decision Boundary
2.3 The Loss Function Based on Cosine Decision Boundary
2.4 Algorithm
3 Experimental Results
3.1 Implementation Details
3.2 Evaluation Results
4 Conclusion
References
A Mix Fusion Spatial-Temporal Network for Facial Expression Recognition
1 Introduction
2 Related Work
2.1 Facial Expression Recognition
2.2 Model Fusion
3 Our Model
3.1 Temporal Network
3.2 Spatial Network
3.3 Mix Fusion Strategy
4 Experiments
4.1 Frame Selection
4.2 Augmentation Method
4.3 Regularization
4.4 Fusion Strategy
5 Conclusion
References
CTHPose: An Efficient and Effective CNN-Transformer Hybrid Network for Human Pose Estimation
1 Introduction
2 Related Work
3 CTHPose
3.1 Polarized CNN Module
3.2 Pyramid Transformer Module
3.3 Heatmap Generator
4 Experiments
4.1 Model Setting
4.2 Implementation Details
5 Results
6 Ablation Studies and Analyses
6.1 The Pure Transformer and Hybrid Architecture
6.2 The Quality of Low-Level Visual Feature Maps
6.3 The Design of Heatmap Generator
7 Conclusion
References
Structural Pattern Recognition
DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation
1 Introduction
2 Related Work
2.1 Vision Transformer
2.2 Image Boundary Segmentation
3 Methodology
3.1 Transformer Encoder
3.2 Selective Boundary Aggregation
3.3 Global-to-Local Spatial Aggregation
3.4 Loss Function
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics and Implementation Details
4.3 Results
4.4 Ablation Study
5 Conclusions
References
MS UX-Net: A Multi-scale Depth-Wise Convolution Network for Medical Image Segmentation
1 Introduction
2 Related Work
2.1 Depth-Wise Convolution Based Methods
2.2 Multi-scale Networks
3 Method
3.1 The Overall Architecture
3.2 Patch Embedding
3.3 MS-UX Block
3.4 Decoder
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Quantitative Results
4.4 Ablation Studies
5 Conclusions
References
AnoCSR–A Convolutional Sparse Reconstructive Noise-Robust Framework for Industrial Anomaly Detection
1 Introduction
2 Related Works
3 Method
3.1 Convolutional Sparse Reconstructive Net(CSR-Net)
3.2 Network Architecture
3.3 End-To-End Self-supervised Noise-Robust Training Framework
4 Experiments
4.1 Comparison with Other Methods
4.2 Experimental Result on Other Datasets
4.3 Ablation Study
5 Conclusion and Discussion
References
Brain Tumor Image Segmentation Based on Global-Local Dual-Branch Feature Fusion
1 Introduction
2 Method
2.1 Overall Framework
2.2 Global Branch
2.3 Local Branch
2.4 Adaptive Feature Fusion Module
3 Experimental Procedure
3.1 Experimental Environment
3.2 Dataset
3.3 Data Pre-processing
3.4 Evaluation Metrics
4 Analysis of Results
4.1 Results of Ablation Experiments
4.2 Comparison Method Experimental Results
5 Conclusion
References
PRFNet: Progressive Region Focusing Network for Polyp Segmentation
1 Introduction
2 Method
2.1 Progressive Feature Refinement
2.2 Adaptive Region Focusing
2.3 Optimization and Inference
3 Experiments
3.1 Datasets and Evaluation Metrics
3.2 Implementation Details
3.3 Results
3.4 Ablation Study
4 Conclusion
References
Pyramid Shape-Aware Semi-supervised Learning for Thyroid Nodules Segmentation in Ultrasound Images
1 Introduction
2 The Proposed Method
2.1 Dual-Task Pyramid Prediction Network
2.2 Supervised Pyramid Shape-Aware Loss
2.3 Unsupervised Shape-Aware Pyramid Consistency Loss
2.4 Overall Semi-Supervised Loss
3 Experiments and Results
3.1 Datasets and Implementations
3.2 Quantitative Evaluation and Comparison
3.3 Ablation Study
4 Conclusion
References
AgileNet: A Rapid and Efficient Breast Lesion Segmentation Method for Medical Image Analysis
1 Introduction
2 Related Work
3 Methods
3.1 Framework
3.2 AgileNet Block
3.3 Loss Function
4 Experiments and Discussion
4.1 Datasets
4.2 Evaluation Metrics
4.3 Implementation Details
4.4 Results and Discussion
5 Limitations and Future Work
6 Conclusion
References
CFNet: A Coarse-to-Fine Framework for Coronary Artery Segmentation
1 Introduction
2 Related Work
2.1 CNN-Based Models for Medical Image Segmentation
2.2 Vision Transformers for Medical Image Segmentation
3 Method
3.1 Overview
3.2 Global Structure Targeting Module
3.3 Local Structure Recovering Module
3.4 Dilated Pseudo Label Generating Strategy
3.5 Center-Line Patch Cropping Strategy
4 Experiments
4.1 Dataset and Evaluation Metrics
4.2 Implementation Details and Hyper-parameter Settings
4.3 Comparison with State-of-the-Arts
4.4 Ablation Study
5 Conclusion and Discussion
References
Edge-Prior Contrastive Transformer for Optic Cup and Optic Disc Segmentation
1 Introduction
2 Related Works
2.1 OC and OD Segmentation
2.2 Transformer
2.3 Contrastive Learning
3 Method
3.1 Edge-Prior Transformer Module
3.2 Edg-Wise Supervised Contrastive Learning
3.3 Training Objective
4 Experiments
4.1 Datasets and Metrics
4.2 Implementation Details
4.3 Comparison with State-of-the-Arts
4.4 Ablation Study
5 Conclusion
References
BGBF-Net: Boundary-Guided Buffer Feedback Network for Liver Tumor Segmentation
1 Introduction
2 Methodology
2.1 Overall Architecture
2.2 Full Scale Feature Extraction Module
2.3 Boundary Guidance Module
2.4 Buffer Feedback Module
2.5 Multi-scale Loss Function
3 Experiments
3.1 Data Preprocess
3.2 Implementation Details
3.3 Experiments and Results
4 Conclusions
References
MixU-Net: Hybrid CNN-MLP Networks for Urinary Collecting System Segmentation
1 Introduction
2 Method
2.1 Overview
2.2 GFMB
2.3 MixU-Net Architecture
2.4 Loss Function
3 Experimental Configurations
3.1 Datasets and Evaluation Metrics
3.2 Implementation Details
4 Results
4.1 Comparisons
4.2 Ablation Study
5 Discussion
6 Conclusion
References
Self-supervised Cascade Training for Monocular Endoscopic Dense Depth Recovery
1 Introduction
2 Approaches
2.1 Sparse Depth Generation
2.2 Network Architecture
2.3 Self-supervised Cascade Training
2.4 Pre-trained Models
3 Validation
4 Results
5 Discussion
References
Pseudo-Label Clustering-Driven Dual-Level Contrast Learning Based Source-Free Domain Adaptation for Fundus Image Segmentation
1 Introduction
2 Method
2.1 Overview
2.2 Generation Phase
2.3 Adaptation Phase
3 Experiments
3.1 Datasets and Evaluation Metric
3.2 Implementation Setup
3.3 Experimental Results
3.4 Ablation Experiments
4 Conclusion
References
Patch Shuffle and Pixel Contrast: Dual Consistency Learning for Semi-supervised Lung Tumor Segmentation
1 Introduction
2 Related Work
2.1 Semi-Supervised Learning
2.2 Semi-supervised Medical Image Segmentation
2.3 Contrastive Learning
3 Method
3.1 Overall Framework
3.2 Patch Shuffle Consistency Learning
3.3 Pixel Contrast Consistency Learning
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Comparison with Existing Works
4.4 Ablation Studies
5 Conclusion
References
Multi-source Information Fusion for Depression Detection
1 Introduction
2 Method
2.1 Overview
2.2 Experimental Paradigm for Depression Detection
2.3 Pupil Data Processing and Features Extraction
2.4 Blink and Eye-Movement Data Processing and Features Extraction
2.5 Feature Selection
2.6 Depression Classification Model Selection
3 Experiment
3.1 Analysis of Feature Selection Results
3.2 Model Training and Classification Performance
3.3 Comparison with Existing Work
4 Conclusion
References
Author Index