Pattern Recognition and Computer Vision: 6th Chinese Conference, PRCV 2023, Xiamen, China, October 13–15, 2023, Proceedings, Part VII (Lecture Notes in Computer Science) 9819985390, 9789819985395

The 13-volume set LNCS 14425-14437 constitutes the refereed proceedings of the 6th Chinese Conference on Pattern Recogni

146 80 64MB

English Pages 532 [525] Year 2024

Table of contents :
Preface
Organization
Contents – Part VII
Document Analysis and Recognition
Feature Enhancement with Text-Specific Region Contrast for Scene Text Detection
1 Introduction
2 Related Work
3 Methodology
3.1 Overall Architecture
3.2 Sampling in Text-Specific Region Contrast
3.3 Text-Specific Feature Refinement Module
3.4 Loss Function and Inference
4 Experiment
4.1 Experimental Setting
4.2 Ablation
4.3 Performance Comparison
5 Conclusion
References
Learning Efficient Representations for Image-Based Patent Retrieval
1 Introduction
2 Related Work
2.1 Image-Based Patent Retrieval
2.2 Sketch-Based Image Retrieval
3 Method
3.1 Backbone Network
3.2 Neck Structure
3.3 Classification Head
3.4 Data Augmentation Without Scaling
4 Experiments
4.1 Datasets and Implementation Details
4.2 Experimental Results
4.3 Analysis and Visualization
5 Conclusion
References
HelixNet: Dual Helix Cooperative Decoders for Scene Text Removal
1 Introduction
2 Related Works
3 Proposed Method
3.1 Overall Pipeline
3.2 Interactive Mechanism
3.3 Loss Functions
4 Experiments
4.1 Dataset and Evaluation Metrics
4.2 Implementation Details
4.3 Ablation Study
4.4 Comparing with SOTA
5 Limitations
6 Conclusion
References
Semantic-Information Space Sharing Interaction Network for Arbitrary Shape Text Detection
1 Introduction
2 Related Works
2.1 Regression-Based Methods
2.2 Segmentation-Based Methods
2.3 Methods Based on the Combination of Regression and Segmentation
3 Proposed Method
3.1 Semantic-Information Space Sharing Module
3.2 Loss Function
4 Experiment
4.1 Datasets and Evaluation Method
4.2 Implementation Details
4.3 Ablation Experiments
4.4 Comparisons with State-of-the-Art Methods
5 Conclusion
References
AIE-KB: Information Extraction Technology with Knowledge Base for Chinese Archival Scenario
1 Introduction
2 Related Works
3 Model Architecture
3.1 Multi-modal Feature Embedding
3.2 Feature Enhancement Module
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Experiments and Result Analysis
5 Conclusion
References
Deep Hough Transform for Gaussian Semantic Box-Lines Alignment
1 Introduction
2 Methodology
2.1 Semantic Box-Lines
2.2 Deep Hough Alignment
2.3 Coarse-to-Fine Strategy
3 Experiments
3.1 Datasets and Implementation Details
3.2 Feasibility Analysis
3.3 Ablation Study
3.4 Comparison Analysis
4 Conclusion
References
Chinese-Vietnamese Cross-Lingual Event Causality Identification Based on Syntactic Graph Convolution
1 Introduction
2 Related Work
3 Cross-Lingual Mapping
4 Event Causality Identification
4.1 Word Vector Representation Layer
4.2 Syntactic Graph Convolutional Layer
4.3 Cross-Attention Layer
4.4 Classification Layer
5 Experiments and Analysis of Results
5.1 Datasets and Evaluation Metrics
5.2 Analysis of Experimental Results
6 Conclusion
References
MCKIE: Multi-class Key Information Extraction from Complex Documents Based on Graph Convolutional Network
1 Introduction
2 Related Work
3 Methodology
4 Experiments
4.1 Datasets
4.2 Model Evaluation and Ablation Study
4.3 Visualization and Analysis
5 Conclusions and Future Work
References
A Pre-trained Model for Chinese Medical Record Punctuation Restoration
1 Introduction
2 Related Work and Background
2.1 The Recent Research and Development of Punctuation Restoration
2.2 Problem Definition of Punctuation Restoration
2.3 Whole Word Mask (WWM)
3 Method
3.1 Mask Classifier During Pre-straining Stage
3.2 Learn by Contrast During Pre-straining Stage
3.3 Punctuation Prior Knowledge Fine-Tuning (PKF) for Downstream Task
3.4 Overview
4 Experiments
4.1 Datasets
4.2 Metrics
4.3 Experiment Setup
4.4 Results
5 Conclusion
References
Feature Extraction and Feature Selection
English and Spanish Bilinguals’ Language Processing: An ALE-Based Meta-analysis of Neuroimaging Studies
1 Introduction
2 Method
2.1 Paper Selection
2.2 Activation Likelihood Estimation
3 Results
3.1 The ALE Analysis About Spanish
3.2 The ALE Analysis About English
3.3 Common Brain Regions Activated by Spanish and English in the Bilinguals
4 Discussion
5 Conclusion
References
Robust Subspace Learning with Double Graph Embedding
1 Introduction
2 Preliminary
2.1 Low-Rank Representation
2.2 Graph Embedding
3 Proposed Method
3.1 Motivation
3.2 Problem Formulation and Learning Model
3.3 Optimization
3.4 Convergency Analysis
4 Experiments
4.1 Parameters Selection of RSL DGE
4.2 Results and Analysis
5 Conclusion
References
Unsupervised Feature Selection via Nonlinear Representation and Adaptive Structure Preservation
1 Introduction
2 Related Work
3 Our Method
3.1 Problem Formulation
3.2 Optimization
4 Experiments
4.1 Quantitative Analysis and Results
4.2 Parameter Sensitivity and Convergence Analysis
5 Conclusion
A Derivation
A.1 Derivation of the Manifold Structure Preservation Item
A.2 Derivation of the KKT Condition
B Experiment Setup
C Visualization
D Ablation Study
E Detailed Results
References
Text Causal Discovery Based on Sequence Structure Information
1 Introduction
2 Related Work
3 Methodology
3.1 Problem Statement
3.2 Overview
3.3 Causal Discovery Based on Dependency Syntactic Analysis
3.4 Semantic Relationship Verification
4 Experiments
4.1 Experimental Setup
4.2 Main Results
4.3 Ablation Study
5 Conclusion
References
MetaSelection: A Learnable Masked AutoEncoder for Multimodal Sentiment Feature Selection
1 Introduction
2 Methodology
2.1 Problem Definition
2.2 Feature Extraction
2.3 Learnable Masked AutoEncoder for Feature Selection
2.4 Cross-modal Attention Fusion Module
3 Experiment
3.1 Datasets
3.2 Evaluation Metrics
3.3 Experimental Settings
3.4 Evaluation on Samples with Conflicting Information
3.5 Comparison with SOTA Methods
3.6 Ablation Studies
4 Conclusion
References
Image Manipulation Localization Based on Multiscale Convolutional Attention
1 Introduction
2 Related Work
2.1 Image Tampering Localization Based on Deep Learning
2.2 Semantic Segmentation Based on Deep Learning Techniques
3 Method
3.1 Overall Framework
3.2 Multi-Scale Convolutional Attention Module (MSCA)
3.3 Mixed Loss Function
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Baseline Models
5 Results
5.1 Ablation Study
5.2 Qualitative Analysis
6 Conclusions
References
Bi-stream Multiscale Hamhead Networks with Contrastive Learning for Image Forgery Localization
1 Introduction
2 Related Work
2.1 Image Forgery Detection and Localization
2.2 Contrastive Learning
3 BMHC-Net
3.1 Overall Framework
3.2 Multi-stage Feature Fusion Module
3.3 Multi-scale Patch Contrastive Learning Module
4 short
4.1 Experiment Setting
4.2 Baseline Models
4.3 Ablation Study
4.4 Muti-level Hamhead
5 short
References
Fuse Tune: Hierarchical Decoder Towards Efficient Transfer Learning
1 Introduction
2 Related Work
2.1 Transfer Learning
2.2 Existing Transfer Methods
2.3 Self-supervised Pretraining in Vision
3 Approach
3.1 Feature Selection
3.2 Feature Aggregation and Compression
3.3 Feature Transformation
3.4 Cross Fuse (Optional)
4 Experiments
4.1 Benchmarks and Baselines
4.2 Image Classification
4.3 Robust Study
4.4 Ablation Study
5 Conclusion
References
Industrial-SAM with Interactive Adapter
1 Introduction
2 Related Work
2.1 Image Segmentation
2.2 Promptable Segmentation Models
2.3 Parameter-Efficient Fine-Tuning
3 Method
3.1 Industrial-SAM
3.2 Interactive Encoder
3.3 Interactive Adapter
4 Experiments
4.1 Experimental Settings
4.2 Main Results
5 Conclusion
References
Mining Temporal Inconsistency with 3D Face Model for Deepfake Video Detection
1 Introduction
2 Related Work
3 Proposed Approach
3.1 Video Preprocessing
3.2 Temporal Inconsistency Modeling
3.3 Overall Architecture
4 Experiments
4.1 Experimental Settings
4.2 Temporal Feature Visualization
4.3 Results and Comparisons
4.4 Ablation Analysis
5 Conclusion
References
DT-TransUNet: A Dual-Task Model for Deepfake Detection and Segmentation
1 Introduction
2 Related Work
3 The Proposed Approach
3.1 Overall Framework
3.2 Multi-scale Spatial Frequency Feature Module
3.3 Loss Function
4 Experiments
4.1 Datasets
4.2 Mask Ground Truth Generation
4.3 Implementation Details
4.4 Results on Deepfake Detection and Segmentation
4.5 Ablation Analysis
5 Conclusion
References
Camouflaged Object Detection via Global-Edge Context and Mixed-Scale Refinement
1 Introduction
2 Related Work
2.1 Salient Object Detection
2.2 Camouflaged Object Detection
3 Method
3.1 Overall Architecture
3.2 Global-Edge Context Module
3.3 Hierarchical Mixed-Scale Refinement Module
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Evaluation Metrics
4.4 Comparison with State-of-the-Arts
4.5 Ablation Study
4.6 Discussion SOD and COD
5 Conclusion
References
Multimedia Analysis and Reasoning
Enhancing CLIP-Based Text-Person Retrieval by Leveraging Negative Samples
1 Introduction
2 Related Works
3 Method
3.1 Feature Extraction
3.2 Fine-Grained Semantic Concept Learning
3.3 Image Modal Momentum Contrastive Learning
3.4 Optimization Objective
4 Experiments
4.1 Datasets and Configuration
4.2 Comparisons with State-of-the-Art Methods
4.3 Ablation Study
4.4 Qualitative Results
5 Conclusion
References
Global Selection and Local Attention Network for Referring Image Segmentation
1 Introduction
2 Related Works
2.1 Referring Image Segmentation
3 Method
3.1 Overview
3.2 Features Extraction
3.3 Global Selection and Fusion Module (GSFM)
3.4 Local Attention Module (LAM)
4 Experiments
4.1 Experiment Settings
4.2 Datasets
4.3 Comparisons with State-of-the-Art Approaches
4.4 Ablation Studies
4.5 Visualization and Qualitative Analysis
5 Conclusion
References
MTQ-Caps: A Multi-task Capsule Network for Blind Image Quality Assessment
1 Introduction
2 Related Work
2.1 Deep Learning for Blind Image Quality Assessment
2.2 Capsule Networks
3 Proposed Method
3.1 Semantic Feature Extraction Architecture
3.2 Sub-capsule Network for Quality Prediction
3.3 Sub-capsule Network for Distortion Type Prediction
4 Experiments
4.1 Databases
4.2 Evaluation Criteria
4.3 Implementation Details
4.4 Comparisons with the State-of-the-Art Methods
4.5 Ablation Study
5 Conclusion
References
VCD: Visual Causality Discovery for Cross-Modal Question Reasoning
1 Introduction
2 Related Works
2.1 Visual Question Reasoning
2.2 Causal Inference in Visual Learning
3 Methodology
3.1 Visual Representation Learning
3.2 Linguistic Representation Learning
3.3 Visual Causality Discovery
3.4 Interactive Visual-Linguistic Transformer
3.5 Cross-Modal Feature Fusion and Training
4 Experiments
4.1 Comparison with State-of-the-Art Methods
4.2 Ablation Studies
5 Conclusion
References
Multimodal Topic and Sentiment Recognition for Chinese Data Based on Pre-trained Encoders
1 Introduction
2 Related Work
2.1 Topic Classification
2.2 Multimodal Sentiment Classification
3 Method
3.1 Encoders
3.2 Attention Layer
3.3 Deep Cross-Attention Layer
3.4 MultiModal Fusion and Output Classifier
4 Experiments
4.1 Datasets
4.2 Implementation Details
5 Results and Analysis on Weibo Dataset
6 Results and Analysis on Multi-ZOL Dataset
7 Conclusion
References
Multi-feature Fusion-Based Central Similarity Deep Supervised Hashing
1 Introduction
2 Related Work
2.1 Symmetric Deep Supervised Hashing in Image Retrieval
2.2 Asymmetric Deep Supervised Hashing in Image Retrieval
2.3 Central Similarity Deep Supervised Hashing in Image Retrieval
3 MFFDSH
3.1 Model Architecture
3.2 Cross-Layer Fusion Module (CFM)
3.3 Channel Attention Module (CAM)
3.4 Loss Function
4 Experiments
4.1 Datasets and Evaluation Metric
4.2 Implementation Details
4.3 Experimental Results and Analysis
4.4 Ablation Study
5 Conclusion
References
VVA: Video Values Analysis
1 Introduction
2 Related Work
3 Video Values Analysis Dataset
4 Method
4.1 Video Values Analysis Model (VVAM)
4.2 Text-Guided Video Values Analysis Model (TG-VVAM)
5 Experiments
5.1 Experimental Setup
5.2 Comparison Experiments on VVAM
5.3 Ablation Studies
6 Conclusion
References
Dynamic Multi-modal Prompting for Efficient Visual Grounding
1 Introduction
2 Related Work
2.1 Visual Grounding
2.2 Prompt Learning
3 Method
3.1 Preliminaries
3.2 Dynamic Multi-modal Prompting (DMAP)
4 Experiments
4.1 Experimental Setup
4.2 Main Results
4.3 Ablation Studies
4.4 Qualitative Results
5 Conclusion
References
A Graph-Involved Lightweight Semantic Segmentation Network
1 Introduction
2 Related Works
2.1 Convolution-Based Semantic Segmentation Models
2.2 Graph-Involved Segmentation Models
2.3 Lightweight Segmentation Models
3 Proposed Method
3.1 Cross-Layer Attention Supported Adaptive Aggregation
3.2 Graph-Involved Head for Long-Range Dependency
4 Experimental Analysis
4.1 Implementation Details
4.2 Comparisons
4.3 Ablation Study
5 Conclusion
References
User-Aware Prefix-Tuning Is a Good Learner for Personalized Image Captioning
1 Introduction
2 Related Work
2.1 Image Captioning
2.2 Personalized Vision and Language Research
2.3 Prompt Tuning in Image Captioning
3 Methods
3.1 Problem Definition
3.2 Query-Guided Visual Knowledge Mapping
3.3 User-Aware Prior Knowledge Fusion
3.4 Caption Generation
4 Experiments
4.1 Dataset
4.2 Implementation Details
4.3 Baselines
4.4 Quantitative Analysis
4.5 Ablation Study
4.6 Qualitative Analysis
5 Conclusions
References
An End-to-End Transformer with Progressive Tri-Modal Attention for Multi-modal Emotion Recognition
1 Introduction
2 Related Work
3 Approach
3.1 Token Construction
3.2 Progressive Tri-Modal Attention
3.3 Multi-modal Feature Fusion
4 Experiments
4.1 Datasets
4.2 Training Details
4.3 Baselines
4.4 Experimental Results
5 Analysis
5.1 Ablation Study
5.2 Computation and Memory Analysis
5.3 Visualization Analysis
6 Conclusion
References
Target-Oriented Multi-criteria Band Selection for Hyperspectral Image
1 Introduction
2 Related Works
3 Methodology
3.1 Target-Oriented Band Priority by MCBS
3.2 The Implementation of TOMCBS
4 Experiments
4.1 Datasets
4.2 Parameter Settings and Classifier
4.3 Comparison Experiments
4.4 Ablation Experiments
5 Conclusion
References
Optimization and Learning Methods
Pairwise Negative Sample Mining for Human-Object Interaction Detection
1 Introduction
2 Related Work
3 Methods
3.1 Model Architecture
3.2 Training Scheme
4 Experiments and Results
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Overall Comparison
4.4 Ablation Studies
4.5 Model Behavior Analysis (vs QPIC)
5 Conclusions
References
An Evolutionary Multiobjective Optimization Algorithm Based on Manifold Learning
1 Introduction
2 Proposed Algorithm
2.1 Dimensionality Reduction of Decision Variables via LPP
2.2 Integrating the Proposed Dimensional Reduction Technique into NSGA-II: LPP-NSGA-II
2.3 Inversely Map Back to Primal Space for Environment Selection
3 Experiments and Results
3.1 Experimental Settings
3.2 Parameter Settings
3.3 Experimental Results and Analysis
3.4 Sensitivity to the Parameter k
4 Conclusion
References
Path Planning of Automatic Parking System by a Point-Based Genetic Algorithm
1 Introduction
2 Path Planning Model of Vehicle
3 Collision Detection Based on Separation Axis Theorem
4 The Proposed Point-Based Genetic Algorithm
4.1 Population Initialization
4.2 Genetic Operator
5 Experimentation and Results
5.1 Vertical Parking
5.2 Parallel Parking
5.3 Diagonal Parking
6 Conclusion
References
Penalty-Aware Memory Loss for Deep Metric Learning
1 Introduction
2 The Proposed Method
2.1 Notations and Problem Formulations
2.2 Penalty-Aware Memory Loss
2.3 Analysis for Penalty-Aware Memory Loss
3 Experiments
3.1 Datasets and Evaluation Protocols
3.2 Settings
3.3 Comparison with Baselines and State-of-the-Arts
4 Conclusion
References
Central and Directional Multi-neck Knowledge Distillation
1 Introduction
2 Related Work
2.1 Object Detection
2.2 Knowledge Distillation
3 Method
3.1 MultiNeck-Teacher Knowledge Distillation
3.2 Center of Instance Object
3.3 Direction of Category
3.4 Overall Loss
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Experiment on COCO Datasets
4.4 Experiment on PASCAL VOC Datasets
5 Conclusion
References
Online Class-Incremental Learning in Image Classification Based on Attention
1 Introduction
2 Proposed Method
2.1 Problem Definition
2.2 Sample Augmentation and Retrieval
2.3 Attention-Based Dual View Consistency
3 Experiments
3.1 Datasets
3.2 Metrics
3.3 Baselines
3.4 Implementation Detail
3.5 Comparative Performance Evaluation
3.6 Ablation Study
4 Conclusion
References
Online Airline Baggage Packing Based on Hierarchical Tree A2C-Reinforcement Learning Framework
1 Introduction
2 Hierarchical Tree Deep Reinforcement Learning Framework
2.1 Algorithm Framework
2.2 Hierarchical Number Search Algorithm Model Structure
2.3 Agent: A2C Algorithm
2.4 Action Constraints
2.5 Rewards
3 Experiment and Verification
3.1 Experimental Environment
3.2 Data Set and Parameter Selection
3.3 Simulation Experiment
3.4 Field Experiment Verification
4 Conclusion
References
Author Index