Pattern Recognition and Computer Vision: 6th Chinese Conference, PRCV 2023, Xiamen, China, October 13–15, 2023, Proceedings, Part VIII (Lecture Notes in Computer Science) 9819985420, 9789819985425

The 13-volume set LNCS 14425-14437 constitutes the refereed proceedings of the 6th Chinese Conference on Pattern Recogni

141 58 67MB

English Pages 528 [526] Year 2024

Table of contents :
Preface
Organization
Contents – Part VIII
Neural Network and Deep Learning I
A Quantum-Based Attention Mechanism in Scene Text Detection
1 Introduction
2 Related Work
2.1 Attention Mechanism
2.2 Revisit Quantum-State-based Mapping
3 Approach
3.1 QSM-Based Channel Attention (QCA) Module and QSM-Based Spatial Attention (QSA) Module
3.2 Quantum-Based Convolutional Attention Module (QCAM)
3.3 Adaptive Channel Information Transfer Module (ACTM)
4 Experiments
4.1 Implementation Details
4.2 Performance Comparison
4.3 Ablation Study
5 Discussion and Conclusion
References
NCMatch: Semi-supervised Learning with Noisy Labels via Noisy Sample Filter and Contrastive Learning
1 Introduction
2 Related Work
2.1 Semi-supervised Learning
2.2 Self-supervised Contrastive Learning
2.3 Learning with Noisy Labels
3 Method
3.1 Preliminaries
3.2 Overall Framework
3.3 Noisy Sample Filter (NSF)
3.4 Semi-supervised Contrastive Learning (SSCL)
4 Experiments
4.1 Datasets
4.2 Experimental for SSL
4.3 Experimental for SSLNL
4.4 Ablation Study
5 Conclusion
References
Data-Free Low-Bit Quantization via Dynamic Multi-teacher Knowledge Distillation
1 Introduction
2 Related Work
3 Method
3.1 Preliminaries
3.2 More Insight on 8-Bit Quantized Models
3.3 Dynamic Multi-teacher Knowledge Distillation
4 Experiments
4.1 Experimental Setups
4.2 Comparison with Previous Data-Free Quantization Methods
4.3 Ablation Studies
5 Conclusion
References
LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation
1 Introduction
2 Related Works
3 Method
3.1 Architecture of LeViT-UNet
3.2 LeViT as Encoder
3.3 CNNs as Decoder
4 Experiments and Results
4.1 Dataset
4.2 Implementation Details
4.3 Experiment Results on Synapse Dataset
4.4 Experiment Results on ACDC Dataset
5 Conclusion
References
DUFormer: Solving Power Line Detection Task in Aerial Images Using Semantic Segmentation
1 Introduction
2 Related Work
2.1 Vision Transformer
2.2 Semantic Segmentation
3 Proposed Architecture
3.1 Overview
3.2 Double U Block (DUB)
3.3 Power Line Aware Block (PLAB)
3.4 BiscSE Block
3.5 Loss Function
4 Experiments
4.1 Experimental Settings
4.2 Comparative Experiments
4.3 Ablation Experiments
5 Conclusion
References
Space-Transform Margin Loss with Mixup for Long-Tailed Visual Recognition
1 Introduction
2 Related Work
2.1 Mixup and Its Space Transformation
2.2 Long-Tailed Learning with Mixup
2.3 Re-balanced Loss Function Modification Methods
3 Method
3.1 Space Transformation in Mixup
3.2 Space-Transform Margin Loss Function
4 Experiments
4.1 Datasets
4.2 Implementations Details
4.3 Main Results
4.4 Feature Visualization and Analysis of STM Loss
4.5 Ablation Study
5 Conclusion
References
A Multi-perspective Squeeze Excitation Classifier Based on Vision Transformer for Few Shot Image Classification
1 Introduction
2 Related Work
3 Method
3.1 Problem Definition
3.2 Meta-Training Phase
3.3 Meta-test Phase
4 Experimental Results
4.1 Datasets and Training Details
4.2 Evaluation Results
4.3 Ablation Study
5 Conclusion
References
ITCNN: Incremental Learning Network Based on ITDA and Tree Hierarchical CNN
1 Introduction
2 Proposed Network
2.1 Network Structure
2.2 ITDA
2.3 Branch Route
2.4 Training Strategies
2.5 Optimization Strategies
3 Experiments and Results
3.1 Experiment on Classification
3.2 Experiment on CIL
4 Conclusion
References
Periodic-Aware Network for Fine-Grained Action Recognition
1 Introduction
2 Related Work
2.1 Skeleton-Based Action Recognition
2.2 Periodicity Estimation of Videos
2.3 Squeeze and Excitation Module
3 Method
3.1 3D-CNN Backbone
3.2 Periodicity Feature Extraction Module
3.3 Periodicity Fusion Module
4 Experiment
4.1 Datasets
4.2 Implementation Details
4.3 Ablation Study
4.4 Comparison with State-of-the-Art Methods
5 Conclusion
References
Learning Domain-Invariant Representations from Text for Domain Generalization
1 Introduction
2 Related Work
2.1 Domain Generalization
2.2 CLIP in Domain Generalization
3 Method
3.1 Problem Formulation
3.2 Text Regularization
3.3 CLIP Representations
4 Experiments and Results
4.1 Datasets and Experimental Settings
4.2 Comparison with Existing DG Methods
4.3 Ablation Study
5 Conclusions
References
TSTD:A Cross-modal Two Stages Network with New Trans-decoder for Point Cloud Semantic Segmentation
1 Introduction
2 Related Works
2.1 Image Transformers
2.2 Point Cloud Transformer
2.3 Joint 2D-3D Network
3 Method
3.1 Overall Architecture
3.2 2D-3D Backprojection
3.3 Trans-Decoder
4 Experiments
4.1 Dataset and Metric
4.2 Performance Comparison
4.3 Ablation Experiment
5 Conclusion
References
NeuralMAE: Data-Efficient Neural Architecture Predictor with Masked Autoencoder
1 Introduction
2 Related Work
2.1 Neural Architecture Performance Predictors
2.2 Generative Self-supervised Learning
3 Method
3.1 Overall Framework
3.2 Pre-training
3.3 Fine-Tuning
3.4 Multi-head Attention-Masked Transformer
4 Experiments
4.1 Implementation Details
4.2 Experiments on NAS-Bench-101
4.3 Experiments on NAS-Bench-201
4.4 Experiments on NAS-Bench-301
4.5 Ablation Study
5 Conclusion
References
Co-regularized Facial Age Estimation with Graph-Causal Learning
1 Introduction
2 Method
2.1 Problem Formulation
2.2 Ordinal Decision Mapping
2.3 Bilateral Counterfactual Pooling
3 Experiments
3.1 Datasets and Evaluation Settings
3.2 Comparison with State-of-the-Art Methods
3.3 Ablation Study
3.4 Performance Under Out-of-Distribution Settings
3.5 Qualitative Results
4 Conclusion
References
Online Distillation and Preferences Fusion for Graph Convolutional Network-Based Sequential Recommendation
1 Introduction
2 Method
2.1 Graph Construction
2.2 Collaborative Learning
2.3 Feature Fusion
3 Experiment
3.1 Experimental Setup
3.2 Experimental Results
3.3 Ablation Studies
4 Conclusion
References
Grassmann Graph Embedding for Few-Shot Class Incremental Learning
1 Introduction
2 Related Work
3 The Proposed Method
3.1 Problem Definition
3.2 Overview
3.3 Grassmann Manifold Embedding
3.4 Graph Structure Preserving on Grassmann Manifold
4 Experiment
4.1 Experimental Setup
4.2 Comparison with State-of-the-Art Methods
5 Conclusion
References
Global Variational Convolution Network for Semi-supervised Node Classification on Large-Scale Graphs
1 Introduction
2 Related Work
3 Proposed Methods
3.1 Positive Pointwise Mutual Information on Large-Scale Graphs
3.2 Global Variational Aggregation
3.3 Variational Convolution Kernels
4 Experiments
4.1 Comparison Experiments
4.2 Ablation Study
4.3 Runtime Study
5 Conclusion
References
Frequency Domain Distillation for Data-Free Quantization of Vision Transformer
1 Introduction
2 Related Work
2.1 Vision Transformer (ViT)
2.2 Network Quantization
3 Preliminaries
3.1 Quantizer
3.2 Fast Fourier Transform (FFT) and Frequency Domain
4 Method
4.1 Our Insights
4.2 Frequency Domain Distillation
4.3 The Overall Pipeline
5 Experimentation
5.1 Comparison Experiments
5.2 Ablation Study
6 Conclusions
References
An ANN-Guided Approach to Task-Free Continual Learning with Spiking Neural Networks
1 Introduction
2 Related Works
2.1 Image Generation in SNNs
2.2 Continual Learning
3 Preliminary
3.1 The Referee Module: WGAN
3.2 The Player Module: FSVAE
4 Methodology
4.1 Problem Setting
4.2 Overview of Our Model
4.3 Adversarial Similarity Expansion
4.4 Precise Pruning
5 Experimental Results
5.1 Dataset Setup
5.2 Classification Tasks Under TFCL
5.3 The Impact of Different Thresholds and Buffer Sizes
5.4 ANN and SNN Under TFCL
6 Conclusion
References
Multi-adversarial Adaptive Transformers for Joint Multi-agent Trajectory Prediction
1 Introduction
2 Related Works
2.1 Multi-agent Trajectory Prediction
2.2 Domain Adaptation
3 Proposed Method
3.1 Encoder: Processing Multi-aspect Data
3.2 Decoder: Generating Multi-modal Trajectories
3.3 Adaptation: Learning Doamin Invaint Feature
3.4 Loss Function
4 Experiments
4.1 Dataset
4.2 Problem Setting
4.3 Evaluation Metrics
4.4 Implementation Details
4.5 Quantitative Analysis
4.6 Ablation Study
5 Conclusion
References
Enhancing Open-Set Object Detection via Uncertainty-Boxes Identification
1 Introduction
2 Related Work
3 Methodology
3.1 Preliminary
3.2 Baseline Setup
3.3 Pseudo Proposal Advisor
3.4 Uncertainty-Box Detection
4 Experiment
4.1 Experimental Setup
4.2 Comparison with Other Methods
4.3 Ablation Studies
4.4 Visualization and Qualitative Analysis
5 Conclusions
References
Interventional Supervised Learning for Person Re-identification
1 Introduction
2 Related Work
2.1 Supervised Person Re-identification
2.2 Causal Intervention via Backdoor Adjustment
3 The Proposed Method
3.1 Overview of Framework
3.2 Feature-Wise Adjustment
3.3 Class-Wise Adjustment
3.4 Combined Adjustment
4 Experiment
4.1 Datasets and Settings
4.2 Evaluation
4.3 Comparison with State-of-the-Art Methods
5 Conclusion
References
DP-INNet: Dual-Path Implicit Neural Network for Spatial and Spectral Features Fusion in Pan-Sharpening
1 Introduction
2 Method
2.1 Implicit High-Frequency Feature Alignment Module
2.2 High-Order Spectral Feature Extraction Module
2.3 Implicit Information Fusion Module
2.4 Loss Function
3 Experiments
3.1 Baseline Methods
3.2 Implementation Details
3.3 Datasets and Evaluation Metrics
3.4 Comparison with SOTA Methods
3.5 Ablation Experiments
4 Conclusion
References
Stable Visual Pattern Mining via Pattern Probability Distribution
1 Introduction
2 Related Work
2.1 Visual Pattern Mining
2.2 Self-supervised Learning
3 Proposed Method
3.1 The Definition of Visual Pattern Mining
3.2 Pattern Distribution Extractor (PDE)
3.3 Semantic Density Mining (SDM) Strategy
4 Experiment
4.1 Evaluation Metrics
4.2 Implementation Details
4.3 Comparison with the State-of-the-Art Methods
4.4 Ablation Study
5 Conclusion
References
Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning
1 Introduction
2 Related Works
2.1 Transformer in Vision
2.2 Efficient Transfer Learning for Transformers
3 Approach
3.1 Preliminaries
3.2 Dynamic Visual Prompt Tuning
4 Experiments
4.1 Experiment Setup
4.2 Main Results
4.3 Ablation on Model Design Variants
5 Conclusions
References
C-volution: A Hybrid Operator for Visual Recognition
1 Introduction
2 Related Work
3 Methodology
3.1 Convolution Module
3.2 Group Convolution
3.3 Involution
3.4 C-volution
4 Experiments
4.1 Implementation Details
4.2 Main Results
5 Conclusion
References
Motor Imagery EEG Recognition Based on an Improved Convolutional Neural Network with Parallel Gate Recurrent Unit
1 Introduction
2 Related Works
3 Methods
3.1 The Framework of the Model Proposed
3.2 The Framework of the Two Modules
4 Experiment
4.1 Dataset
4.2 Train Approach
4.3 Experiment Results
4.4 Ablation Study
4.5 Limitation and Prospect
5 Conclusion
References
A Stable Vision Transformer for Out-of-Distribution Generalization
1 Introduction
2 Related Work
3 Stable Vision Transformer
3.1 Overall Architecture of Stable Vision Transformer
3.2 Statistical Guidelines for Independence
3.3 Learning Independence Sample Weights
3.4 Global Weight Learning and Joint Optimization
4 Experiments
4.1 Experimental Settings and Dataset
4.2 Implementation Details and Comparison with Other Methods
4.3 Specific Results of Unbalanced Setting
4.4 Specific Results of Unbalanced and Flexible Setting
4.5 Further Analysis and Discussion
5 Conclusion
References
Few-Shot Classification with Semantic Augmented Activators
1 Introduction
2 Related Work
2.1 Few-Shot Classification
2.2 Transductive Inference
3 Method
3.1 Preliminaries
3.2 Semantic Augmented Activators
3.3 Self-Cross Loss
3.4 Map-To-Cluster
4 Experiments
4.1 Set up
4.2 Results
5 Conclusion
References
MixPose: 3D Human Pose Estimation with Mixed Encoder
1 Introduction
2 Related Work
2.1 2D-to-3D Lifting Pipeline
2.2 Vision Transformer
3 Method
3.1 Preliminary
3.2 Encoder
3.3 Regression Head
3.4 Loss Function
4 Experiment
4.1 Datasets
4.2 Implementation Details
4.3 Comparison with State-of-the-Art Methods
4.4 Ablation Study
5 Conclusion
References
Image Manipulation Detection Based on Ringed Residual Edge Artifact Enhancement and Multiple Attention Mechanisms
1 Introduction
2 Related Work
2.1 Noise-Based Methods
2.2 Edge Artifact-Based Methods
2.3 Attention Mechanism
3 Method
3.1 Network Architecture
3.2 RRE
3.3 Loss Function
3.4 Training Data Synthesis
4 Experimental Results
4.1 Experimental Setup
4.2 Comparisons on Localization
4.3 Ablation Study
4.4 Robustness Analysis
5 Conclusion
References
Improving Masked Autoencoders by Learning Where to Mask
1 Introduction
2 Preliminaries
2.1 Rethink the Mask Sampling Strategy in MAE
2.2 Key Findings: MAE with Prior Object Hints
3 Method
3.1 General Design of AutoMAE
3.2 Adversarially-Trained Mask Generator
3.3 Mask-Guided Image Modeling
4 Experiments
4.1 Experiments on ImageNet-1K
4.2 Downstream Tasks
4.3 Mask Visualization
5 Related Work
6 Conclusion
References
An Audio Correlation-Based Graph Neural Network for Depression Recognition
1 Introduction
2 Related Work
3 Methods
3.1 Data Preprocessing
3.2 Intra-audio Correlation
3.3 Emotional Features
3.4 Inter-audio Correlation
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Comparison with Existing Methods
4.4 Ablation Experiments
4.5 Visualization
5 Conclusion
References
Dynamic Gesture Recognition Based on 3D Central Difference Separable Residual LSTM Coordinate Attention Networks
1 Introduction
2 Related Work
2.1 ConvNets-Based Models
2.2 Attention-Based Models
3 Methods
3.1 3D Central Difference Separable Convolution
3.2 Residual Module
3.3 Long Short-Term Memory Coordinate Attention
4 Experiment
4.1 Datasets
4.2 Implementation
4.3 Analysis of Results
4.4 Ablation Study
5 Conclusion
References
QESAR: Query Effective Decision-Based Attack on Skeletal Action Recognition
1 Introduction
2 Related Work
2.1 Skeleton-Based Action Recognition
2.2 Adversarial Attacks on Skeleton-Based Action Recognition
3 Scheme
3.1 Attack Setting
3.2 Bias Sampling
3.3 Bias Gradient Direction Estimation
4 Experiments
4.1 Experimental Setting
4.2 Impact of Hierarchical Joint Perturbation
4.3 Untargeted Attack
4.4 Targeted Attack
4.5 Comparison of Attack Success Rates
5 Conclusion
References
A Closer Look at Few-Shot Object Detection
1 Introduction
2 Related Work
2.1 Conventional Object Detection
2.2 Few-Shot Learning
2.3 Few-Shot Object Detection
3 Approach
3.1 Problem Definition
3.2 DEcoupled lArge KeRnel RPN
3.3 Offline Structural Reparameterization
4 Experiments
4.1 Experimental Setup
4.2 Experimental Results
4.3 Ablation Studies
5 Conclusion
A Performance of Each Novel Class
B G-FSOD Experiments
C Cross Domain Adaption
D Ablation on Large Kernel Sizes
E Effectiveness of Hyperparameters
References
Learning-Without-Forgetting via Memory Index in Incremental Object Detection
1 Introduction
2 Related Work
2.1 Knowledge Distillation Methods
2.2 Replay Methods
2.3 Parameter Isolation Methods
3 Method
3.1 Motivation
3.2 Overall Structure
3.3 Anchor-Based Classifier Module (ACM)
3.4 Multi-scale Fusion Module (MFM)
3.5 Loss
4 Experiments and Discussions
4.1 Datasets and Experiment Setting
4.2 Overall Performance
4.3 Ablation Study
4.4 Visualization
5 Conclusion
References
SAMDConv: Spatially Adaptive Multi-scale Dilated Convolution
1 Introduction
2 Related Work
2.1 Dilated Convolution
2.2 Attention Mechanism
3 Method
3.1 Preliminary
3.2 Overall Architecture
3.3 Spatial Scale Attention (SSA) Module
3.4 Recombination Module
4 Experiments and Results
4.1 Datasets and Experimental Settings
4.2 Performance on Image Segmentation
5 Conclusions
References
SADD: Generative Adversarial Networks via Self-attention and Dual Discriminator in Unsupervised Domain Adaptation
1 Introduction
2 Related Work
3 Approach
4 Experiments
4.1 Implementation Details
4.2 Digit Experiments
4.3 OFFICE Experiments
4.4 Comparison and Ablation Experiments
5 Conclusion
References
ELFLN: An Efficient Lightweight Facial Landmark Network Based on Hybrid Knowledge Distillation
1 Introduction
2 Method
2.1 Overview
2.2 ELFLN
2.3 Hybrid Knowledge Distillation
2.4 Multi-task Learning
3 Experimental Results
3.1 Datasets
3.2 Evaluation Metrics
3.3 Implementation Details
3.4 Ablation Study
4 Conclusion
References
Enhancing Continual Noisy Label Learning with Uncertainty-Based Sample Selection and Feature Enhancement
1 Introduction
2 Related Work
3 Methods
3.1 Sample Separation
3.2 Feature Extraction for Salient Features
3.3 Fine-Tuning Phase
3.4 Contrastive Learning
3.5 Minimization of Entropy
4 Experiments
4.1 Experimental Design
4.2 Baseline Methods
4.3 Results
4.4 Ablation Studys
5 Conclusion
References
Author Index