Pattern Recognition and Computer Vision: 6th Chinese Conference, PRCV 2023, Xiamen, China, October 13–15, 2023, Proceedings, Part IX (Lecture Notes in Computer Science) 9819985455, 9789819985456

The 13-volume set LNCS 14425-14437 constitutes the refereed proceedings of the 6th Chinese Conference on Pattern Recogni

167 46 64MB

English Pages 524 [520] Year 2024

Table of contents :
Preface
Organization
Contents – Part IX
Neural Network and Deep Learning II
Decoupled Contrastive Learning for Long-Tailed Distribution
1 Introduction
2 Related Work
3 Methods
3.1 Online Tail Samples Discovery
3.2 Hard Negatives Generation
3.3 Contrastive Loss Reweighting
4 Experiments
4.1 Linear Probing Evaluations
4.2 Analysis
5 Conclusion
References
MFNet: A Channel Segmentation-Based Hierarchical Network for Multi-food Recognition
1 Introduction
2 Related Work
3 Food Image Datasets Construction
3.1 Food Images Collection
3.2 Annotation and Statistics
4 Method
4.1 CWF: Channel-Level Whole Image Food Information Acquisition
4.2 SGC: Spatial-Level Global Information Constraints
4.3 SPF: Spatial-Level Part Image Food Information Acquisition
5 Experiments
5.1 Datasets and Evaluation Metrics
5.2 Implementation Details
5.3 Performance Comparison with Other Method
5.4 Ablation Study
5.5 Visualization Result
6 Conclusion
References
Improving the Adversarial Robustness of Object Detection with Contrastive Learning
1 Introduction
2 Related Work
2.1 Adversarial Attacks
2.2 Adversarial Defenses
2.3 Contrastive Learning
3 Proposed Method
3.1 Contrastive Learning Module
3.2 Contrastive Adversarial SSD
3.3 Contrastive Adversarial YOLO
3.4 Adversarial Training with Contrastive Learning
4 Experiments
4.1 Experimental Settings
4.2 Defense Capability Evaluation
5 Conclusion
References
CAWNet: A Channel Attention Watermarking Attack Network Based on CWABlock
1 Introduction
2 Related Work
2.1 Attacked Watermarking Algorithm
2.2 Watermarking Attack Techniques
3 The Proposed Method
3.1 CAWNet
3.2 Attention Mechanism
3.3 CWABlock
4 Experiments and Results Analysis
4.1 Evaluation Criteria
4.2 Ablation Experiment
4.3 Effects of Traditional Attack and Different Deep Learning Attack Methods
4.4 Stability and Suitability Testing
5 Conclusion
References
Global Consistency Enhancement Network for Weakly-Supervised Semantic Segmentation
1 Introduction
2 Related Work
3 Method
3.1 Middle-Level Feature Auxiliary
3.2 Intra-class Consistency Enhancement
3.3 Critical Region Suppression
4 Experiments
4.1 Experimental Settings
4.2 Implementation Details
4.3 CAM Performance
4.4 Segmentation Performance
4.5 Ablation Study
5 Conclusion
References
Enhancing Model Robustness Against Adversarial Attacks with an Anti-adversarial Module
1 Introduction
2 Related Works
2.1 Gradient Masking
2.2 Adversarial Examples Detection
2.3 Robust Optimization
3 Methods
3.1 Counter-Adversarial Module
3.2 Enhancing Defense Against Black-Box Attacks
4 Experiments
4.1 Experiment Settings
4.2 Main Results
4.3 Ablation Study
5 Conclusion
References
FGPTQ-ViT: Fine-Grained Post-training Quantization for Vision Transformers
1 Introduction
2 Related Work
2.1 CNN Quantization
2.2 Vision Transformer Quantization
3 Method
3.1 FGPTQ-ViT Framework
3.2 Fine-Grained ViT Quantization
3.3 Adaptive Piecewise Point Search Algorithm
4 Experiments
4.1 Implementation Details
4.2 Experimental Results
4.3 Ablation Study
5 Conclusion
References
Learning Hierarchical Representations in Temporal and Frequency Domains for Time Series Forecasting
1 Introduction
2 Related Work
2.1 Convolutional and Transformer Models
2.2 Fourier Transform and Decomposition Models
3 Proposed Approach
3.1 Time Series Hierarchical Decomposition
3.2 Trend Forecasting Module
3.3 Seasonal Forecasting Module
4 Experiments
4.1 Dataset
4.2 Baselines and Setup
4.3 Implement Details and Evaluation Metrics
4.4 Main Results
4.5 Ablation Study
5 Conclusion
References
DeCAB: Debiased Semi-supervised Learning for Imbalanced Open-Set Data
1 Introduction
2 Related Work
2.1 General SSL Methods
2.2 Imbalanced SSL Methods
2.3 Open-Set SSL Methods
3 Proposed Method
3.1 Problem Setting and Notations
3.2 Class-Aware Threshold
3.3 Selective Sample Reweighting
3.4 Positive-Pair Reweighting
3.5 Overall Training Objective
4 Experimental Results
4.1 Experimental Settings
4.2 Numerical Comparison
4.3 Analysis on Impact of OOD Data
4.4 Ablation Experiments
5 Conclusion
A Analysis of the Effect of OOD Data to SSL Methods
B Algorithm Flowchart
C Visualized Comparison
References
An Effective Visible-Infrared Person Re-identification Network Based on Second-Order Attention and Mixed Intermediate Modality
1 Introduction
2 Related Work
3 Proposed Method
3.1 Second-Order Attention Module
3.2 Mixed Intermediate Modality Module
3.3 Optimization
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Comparison with State-of-the-Art Methods
4.4 Ablation Study
5 Conclusion
References
Quadratic Polynomial Residual Network for No-Reference Image Quality Assessment
1 Introduction
2 Related Work
2.1 IQA and Information Entropy
2.2 IQA and Deep Learning
3 Design of Network
3.1 Two-Dimensional Information Entropy for Patch Sampling
3.2 Network Architecture
4 Experiment Result
5 Conclusion
References
Interactive Learning for Interpretable Visual Recognition via Semantic-Aware Self-Teaching Framework
1 Introduction
2 Related Work
3 Methodology
3.1 Patch Selection Strategy
3.2 Semantic-Aware Self-Teaching
4 Experiments
5 Conclusion
References
Adaptive and Compact Graph Convolutional Network for Micro-expression Recognition
1 Introduction
2 Related Work
2.1 Structure Graph
3 Method
3.1 Cheek Included Facial Graph
3.2 Tightly Connected Strategy
3.3 Small Region Module
3.4 Adaptive and Compact Graph Convolutional Network
4 Experiments
4.1 Datasets and Implementation Details
4.2 Quantitative Results
4.3 Ablation Study
5 Conclusion
References
Consistency Guided Multiview Hypergraph Embedding Learning with Multiatlas-Based Functional Connectivity Networks Using Resting-State fMRI
1 Introduction
2 Methods
2.1 Hypergraph and Hypergraph Construction with FCN
2.2 Proposed CG-MHGEL with Multiatlas-Based FCNs
3 Experiment
3.1 Experimental Settings
3.2 Experimental Results and Analysis
4 Conclusion
References
A Diffusion Simulation User Behavior Perception Attention Network for Information Diffusion Prediction
1 Introduction
2 Related Work
3 Methodology
3.1 Problem Definition
3.2 Model Framework
3.3 Diffusion Simulation User Behavior Embedding
3.4 User Behavior Fusion Transformer
3.5 Cascade Perception Attention Network
3.6 Diffusion Prediction
4 Experiment
4.1 Results
5 Conclusion
References
A Representation Learning Link Prediction Approach Using Line Graph Neural Networks
1 Introduction
2 Related Work
3 Methodology
3.1 The NLG-GNN Framework
4 Experimental Setup
4.1 Experimental Results
5 Conclusion
References
Event Sparse Net: Sparse Dynamic Graph Multi-representation Learning with Temporal Attention for Event-Based Data
1 Introduction
2 Related Work
2.1 Graph Representations
2.2 Dynamic Graph Neural Network
3 Methods
3.1 Local Self Attention
3.2 Global Temporal Attention
4 Experiments
4.1 Datasets
4.2 Setup
4.3 Continuous Data Inductive Learning
4.4 Discrete Data Inductive Learning
4.5 Discrete Data Transductive Learning
5 Conclusion
References
Federated Learning Based on Diffusion Model to Cope with Non-IID Data
1 Introduction
2 Method
2.1 The First Stage
2.2 The Second Stage
2.3 The Third Stage
3 Experiments
3.1 Setup
3.2 Performance Comparison
3.3 Experimental Factors Analysis
4 Conclusion
References
SFRSwin: A Shallow Significant Feature Retention Swin Transformer for Fine-Grained Image Classification of Wildlife Species
1 Introduction
2 Related Works
2.1 Convolutional Neural Network
2.2 Vision Transformer
3 Methodology
3.1 Self-attentive Mechanism Based on Shifted Windows
3.2 Random Data Enhancement
4 Evaluation
4.1 Datasets and Implementation Details
4.2 Model Complexity Analysis
5 Conclusion
References
A Robust and High Accurate Method for Hand Kinematics Decoding from Neural Populations
1 Introduction
2 Related Works
2.1 iBMI Cortical Control Decoding Algorithm
2.2 Attention Module
3 Method
3.1 Neural Recording System and Behavioral Task
3.2 Experimental Procedure of the Cortical Control
3.3 Temporal-Attention QRNN
3.4 Evaluation Metrics
4 Experiments
4.1 Implementation Details
4.2 Comparison of Decoding Results
4.3 Discussion
5 Conclusion
References
Multi-head Attention Induced Dynamic Hypergraph Convolutional Networks
1 Introduction
2 Related Work
2.1 Neural Networks on Graph
2.2 Neural Networks on Hypergraph
3 Methodology
3.1 Definitions and Notations
3.2 Hypergraph Construction
3.3 Vertex Convolution
3.4 Hyperedge Convolution
3.5 The Proposed Algorithm
4 Experiments
4.1 Datasets
4.2 Experimental Settings
4.3 Results and Discussion
4.4 Ablation Studies
4.5 Hyperparameter Sensitivity
4.6 Visualization
5 Conclusion
References
Self Supervised Temporal Ultrasound Reconstruction for Muscle Atrophy Evaluation
1 Introduction
2 Related Work
2.1 Muscle Atrophy Evaluation
2.2 Masked Autoencoder
3 Method
3.1 Animal Model and Ultrasonography
3.2 Temporal Ultrasound Masked Autoencoder
4 Results
4.1 Implementation Details
4.2 Muscle Atrophy Evaluation by Masked Autoencoder
4.3 Adequacy of Position Indicator
4.4 Necessity of Position Embedding
5 Conclusion
References
Salient Object Detection Using Reciprocal Learning
1 Introduction
2 Related Work
3 Approach
3.1 Base Network
3.2 Reciprocal Feature Interaction Module
3.3 Cooperative Supervision
3.4 Training and Inference
4 Experiments and Results
4.1 Experimental Setup
4.2 Comparisons with the State-of-the-Art
4.3 Ablation Analysis
5 Conclusion
References
Graphormer-Based Contextual Reasoning Network for Small Object Detection
1 Introduction
2 Related Work
3 Proposed Method
3.1 Overview
3.2 Context Relation Module
3.3 Context Reasoning Module
4 Experiments
4.1 Datasets and Evaluation Metric
4.2 Parameter Setting
4.3 Comparison with State-of-the-Art Models
4.4 Ablation Experiment and Qualitative Results
5 Conclusion
References
PVT-Crowd: Bridging Multi-scale Features from Pyramid Vision Transformer for Weakly-Supervised Crowd Counting
1 Introduction
2 Related Work
2.1 Fully-Supervised Crowd Counting
2.2 Weakly-Supervised Crowd Counting
3 Our Method
3.1 Transformer Encoder
3.2 Adjacent-Scale Bridging Module
3.3 Global-Scale Bridging Module and Regression Head
3.4 Loss Function
4 Experiments
4.1 Implementation Details
4.2 Evaluation Metrics
4.3 Performance on Three Datasets
4.4 Cross-Dataset Performance
4.5 Visualization
4.6 Ablation Study
5 Conclusion
References
Multi-view Contrastive Learning Network for Recommendation
1 Introduction
2 Problem Formulation
3 Methodology
3.1 Multi-view Generation Layer
3.2 Local-Level Contrastive Learning Layer
3.3 Global-Level Contrastive Learning Layer
3.4 Prediction Layer
4 Experiments
4.1 Experiments Setup
4.2 Performance Comparison
4.3 Study of MCLN
5 Conclusion
References
Uncertainty-Confidence Fused Pseudo-labeling for Graph Neural Networks
1 Introduction
2 Methodology
2.1 Preliminaries
2.2 Framework Overview
2.3 Confidence Aware Pseudo-labeling
2.4 Uncertainty Aware Pseudo-labeling
2.5 Uncertainty-Confidence Fused Pseudo-labeling
2.6 Model Retraining
3 Experiments
3.1 Experiment Setup
3.2 Comparison with the Baselines
3.3 Pseudo-labels Analysis
3.4 Ablation Studies
4 Conclusion
References
FSCD-Net: A Few-Shot Stego Cross-Domain Net for Image Steganalysis
1 Introduction
2 Related Work
2.1 Image Steganalysis
2.2 Few-Shot Learning
3 Method
3.1 Framework
3.2 Smart Crop
3.3 FixedEMD
4 Experiment
4.1 Datasets
4.2 Evaluation Metrics
4.3 Experiment Setting
4.4 Hyperparameters
4.5 Compared with Other Steganalysis Methods
4.6 Compared with Other Models Addressing the CSM Issue
4.7 Ablation Study
5 Conclusion
References
Preference Contrastive Learning for Personalized Recommendation
1 Introduction
2 Related Work
2.1 GCN-Based Recommendation
2.2 Contrastive Learning-Based Models
3 Methodology
3.1 Interaction Graph and Embedding Initialization
3.2 Multi-layer Interest Propagation
3.3 Pairwise Contrast vs Self-supervised Contrast
3.4 Recommendation and Optimization
3.5 Model Analysis
4 Experiments
4.1 Datasets
4.2 Experimental Settings
4.3 Performance Comparison
4.4 Long-Tail Recommendation Analysis
5 Conclusion
References
GLViG: Global and Local Vision GNN May Be What You Need for Vision
1 Introduction
2 Related Work
2.1 CNNs
2.2 Vision Transformers
2.3 Vision MLPs
2.4 Graph Neural Networks
3 Methodology
3.1 Graph Level Processing of an Image
3.2 GNN-Based Vision Architecture
4 Experiments
4.1 Image Classification on ImageNet-1K
4.2 Object Detection and Instance Segmentation
4.3 Ablation Study
5 Conclusion
A Appendix
A.1 Semantic Segmentation
A.2 Details of the GLViG Architecture
References
SVDML: Semantic and Visual Space Deep Mutual Learning for Zero-Shot Learning
1 Introduction
2 Methodology
2.1 Problem Setting
2.2 Overview
2.3 Class Representation Learning
2.4 Local Attribute Embedding
2.5 Mutual Learning
2.6 Zero-Shot Classification
3 Experiments
3.1 Comparison with State-of-the-Arts
3.2 Abaltion Studies
3.3 Hyperparameter Analysis
4 Conclusion
References
Heterogeneous Graph Attribute Completion via Efficient Meta-path Context-Aware Learning
1 Introduction
2 Related Work
3 Methodology
3.1 Problem Formulation
3.2 Overall Framework
3.3 Meta-path-Driven Node Embedding
3.4 Attribute Completion Module
3.5 Heterogeneous Graph Neural Network
4 Experiments
4.1 Datasets
4.2 Comparison Methods
4.3 Implementation Details
4.4 Experimental Results
4.5 Visualization of Embeddings
4.6 Ablation Studies
5 Conclusion
References
Fine-Grain Classification Method of Non-small Cell Lung Cancer Based on Progressive Jigsaw and Graph Convolutional Network
1 Introduction
2 Method
2.1 Network Architecture
2.2 GMPG Module
2.3 JSPT Module
3 Experiment
3.1 Datasets
3.2 Experimental Settings
3.3 Parameter Settings
3.4 Ablation Experiment
3.5 Comparisons with Existing Classification Method
4 Conclusion
References
Improving Transferability of Adversarial Attacks with Gaussian Gradient Enhance Momentum
1 Introduction
2 Related Work
2.1 Adversarial Attacks
2.2 Defend Against Adversarial Attacks
3 Methodology
3.1 Gaussian Gradient Enhanced Momentum
3.2 Enhanced Prospective
4 Experiments
4.1 Experimental Setup
4.2 Attacking Normally Trained Model and Adversarially Trained Model
4.3 Attacking with Combined Input Transformations
4.4 Ablation Study
5 Conclusion
References
Boundary Guided Feature Fusion Network for Camouflaged Object Detection
1 Introduction
2 Our Method
2.1 Overall Architecture
2.2 Contour Guided Module
2.3 Boundary Guided Feature Fusion Module
2.4 Overall Loss Function
3 Experiments
3.1 Implementation Details
3.2 Datasets
3.3 Evaluation Metrics
3.4 Comparison with State-of-the-Arts
3.5 Ablation Study
4 Conclusion
References
Saliency Driven Monocular Depth Estimation Based on Multi-scale Graph Convolutional Network
1 Introduction
2 Related Work
2.1 Monocular Depth Estimation
2.2 Saliency Detection
2.3 Graph Convolutional Networks
3 The Proposed Method
3.1 Overall Architecture
3.2 Feature Extraction
3.3 Graph Neural Network
3.4 Multi-feature Fusion Module
3.5 Loss Function
4 Experiments
4.1 Datasets
4.2 Evaluations
4.3 Abalation Study
5 Conclusions
References
Mask-Guided Joint Single Image Specular Highlight Detection and Removal
1 Introduction
2 Related Work
2.1 Highlight Detection
2.2 Highlight Removal
3 Methods
3.1 Network Architecture
3.2 Highlight Detection Module (HLDM)
3.3 Highlight Removal Module (HLRM)
3.4 Loss Function Design
4 Experiment
4.1 Experimental Environment
4.2 Introduction of Experimental Dataset
4.3 Results
4.4 Ablation Experiments
5 Conclusion
References
CATrack: Convolution and Attention Feature Fusion for Visual Object Tracking
1 Introduction
2 Related Work
3 Method
3.1 Convolution and Attention Feature Fusion
3.2 Feature Fusion Bi-directional Bridge
3.3 Overall Tracking Architecture
4 Experiments
4.1 Implementation Details
4.2 Comparison with the State-of-the-Art Methods
5 Conclusion
References
SText-DETR: End-to-End Arbitrary-Shaped Text Detection with Scalable Query in Transformer
1 Introduction
2 Related Works
2.1 Text Detection
2.2 Detection Transformer
2.3 DETR-Based Text Detection
3 Methodology
3.1 Overview
3.2 Content Prior
3.3 Scalable Query Module
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Experimental Results
4.4 Ablation Studies
5 Conclusion
References
SSHRF-GAN: Spatial-Spectral Joint High Receptive Field GAN for Old Photo Restoration
1 Introduction
2 Related Work
2.1 Image Restoration
2.2 Old Photo Restoration
3 Method
3.1 Spatial-Spectral Joint High Receptive Field Generator
3.2 Image Wise Spatial Histogram Attention
3.3 Loss
4 Experiment
4.1 Dataset and Implementation Detail
4.2 Comparison
4.3 Ablation Study
5 Conclusion
References
Author Index