Pattern Recognition and Computer Vision: 6th Chinese Conference, PRCV 2023, Xiamen, China, October 13–15, 2023, Proceedings, Part II (Lecture Notes in Computer Science) 9819984319, 9789819984312

The 13-volume set LNCS 14425-14437 constitutes the refereed proceedings of the 6th Chinese Conference on Pattern Recogni

135 92 103MB

English Pages 524 [518] Year 2024

Table of contents :
Preface
Organization
Contents – Part II
3D Vision and Reconstruction
Deep Stereo Matching with Superpixel Based Feature and Cost
1 Introduction
2 Related Works
2.1 Traditional Methods
2.2 Learning Based Stereo Method
3 Methods
3.1 Unary Feature Extraction Networks
3.2 Superpixel-Based Feature Aggregation
3.3 Matching Cost Volume Computation
3.4 Superpixel-Based Cost Aggregation
3.5 Superpixel-Based Cost Aggregation Networks
4 Experiments
4.1 Ablation Study on SceneFlow Dataset
4.2 The Benchmark Evaluation Results
5 Conclusion
References
GMA3D: Local-Global Attention Learning to Estimate Occluded Motions of Scene Flow
1 Introduction
2 Related Work
2.1 Motion Occlusion of Scene Flow
3 Methodology
3.1 Problem Statement
3.2 Background
3.3 Overview
3.4 Mathematical Formulation
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Performance on FT3Do and KITTIo with Occlusion
4.4 Performance on FT3Ds and KITTIs Without Occlusion
4.5 Ablation Studies
5 Conclusion
References
Diffusion-Based 3D Object Detection with Random Boxes
1 Introduction
2 Related Work
2.1 3D Object Detection
2.2 Diffusion Models in Vision
3 Proposed Method
3.1 A Revisit of Diffusion Models
3.2 Overall
3.3 Diffusion-Guided Proposal Generator
3.4 Loss Function
3.5 Inference Phase
4 Results and Analysis
4.1 Dataset
4.2 Implementation Details
4.3 Main Results
4.4 Ablation Studies
4.5 Limitation
5 Conclusion
References
Blendshape-Based Migratable Speech-Driven 3D Facial Animation with Overlapping Chunking-Transformer
1 Introduction
2 Related Work
3 Method
3.1 Model Architecture
3.2 Chunking-Transformer
3.3 Training Objective
4 Experiments
4.1 Experimental Setup
4.2 Data Calibration
4.3 Evaluation Results
5 Conclusion
References
FIRE: Fine Implicit Reconstruction Enhancement with Detailed Body Part Labels and Geometric Features
1 Introduction
2 Related Work
2.1 Implicit Function Based Human Reconstruction
2.2 Parametric Human Models Based Reconstruction
3 Methodology
3.1 Overview of Our Framework
3.2 Ray-Based Sampling Features
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Evaluation Results
4.4 Ablation Study
5 Conclusion
References
Sem-Avatar: Semantic Controlled Neural Field for High-Fidelity Audio Driven Avatar
1 Introduction
2 Related Works
2.1 Model-Based Audio-Driven Avatar
2.2 Implicit-Based Avatar
3 Sem-Avatar
3.1 Basic Knowledge
3.2 Audio to Expression Module
3.3 Avatar Represented in Neural Field
3.4 Animation of Neural Implicit Avatar
3.5 Semantic Eye Control
3.6 Training Objectives
4 Experiments
4.1 Comparison with Other Methods
5 Ablation Study
6 Conclusion
References
Depth Optimization for Accurate 3D Reconstruction from Light Field Images
1 Introduction
2 Related Work
3 The Proposed Method
3.1 Outliers Detection
3.2 Depth Map Optimization
4 Experimental Results
4.1 Outliers Detection Evaluation
4.2 Depth Optimization
5 Conclusion
References
TriAxial Low-Rank Transformer for Efficient Medical Image Segmentation
1 Introduction
2 Related Work
2.1 Efficient Attention in Transformer
2.2 Low Rank Approximation of Self-attention
3 Methodology
3.1 TALoRT Based Encoder
3.2 CNN Based Decoder
4 Experiments
4.1 Dataset
4.2 Implementation Details
4.3 Comparison with Others
4.4 Ablation Study
5 Conclusion
References
SACFormer: Unify Depth Estimation and Completion with Prompt
1 Introduction
2 Related Work
2.1 Monocular Depth Estimation
2.2 Depth Completion
3 Method
3.1 Spatially Aligned Cross-Modality Self-attention
3.2 Window-Based Deep Prompt Learning
3.3 Training Loss
4 Experiments
4.1 Implementation Details
4.2 Ablation Study
4.3 Results on the KITTI Dataset
4.4 Results on the NYUD-V2 Dataset
5 Conclusion
References
Rotation-Invariant Completion Network
1 Introduction
2 Related Works
2.1 Rotation-Invariant Convolution
2.2 Point Cloud Completion
3 Our Method
3.1 Rotation-Invariant Embedding Module
3.2 DPCNet: Dual-Pipeline Completion Network
3.3 Enhancing Module
3.4 Loss Function
4 Experiments
5 Conclusion
References
Towards Balanced RGB-TSDF Fusion for Consistent Semantic Scene Completion by 3D RGB Feature Completion and a Classwise Entropy Loss Function
1 Introduction
2 Related Work
2.1 Semantic Scene Completion
2.2 Intra-class Consistency
3 Method
3.1 Overall Network Architecture
3.2 3D RGB Feature Completion Module
3.3 Classwise Entropy Loss
3.4 Overall Loss Function
4 Experiments
4.1 Implementation Details
4.2 Datasets and Metrics
4.3 Comparisons with State-of-the-art Methods
4.4 Numerical Analysis of Class Consistency
4.5 Ablation Study
5 Conclusion
References
FPTNet: Full Point Transformer Network for Point Cloud Completion
1 Introduction
2 Approach
2.1 Point Transformer Encoder-Decoder Network
2.2 Refinement Network
2.3 Recurrent Learning Strategy
2.4 Loss Function
3 Experiments
3.1 Evaluation Metrics
3.2 Implementation Details
3.3 Evaluation on PCN Dataset
3.4 Evaluation on Completion3D Benchmark
3.5 Evaluation on KITTI Dataset
3.6 Resource Usages
3.7 Ablation Study
4 Conclusion
References
Efficient Point-Based Single Scale 3D Object Detection from Traffic Scenes
1 Introduction
2 Related Work
3 Method
3.1 Single-Scale Point Feature Encoder
3.2 Multi-level Contextual Feature Grouping
3.3 Loss Function
4 Experiment
4.1 Dataset and Implementation Details
4.2 Results on KITTI Dataset
4.3 Ablation Experiment
5 Conclusion
References
Matching-to-Detecting: Establishing Dense and Reliable Correspondences Between Images
1 Introduction
2 Related Work
2.1 Detector-Based Matching
2.2 Detector-Free Matching
3 Method
3.1 Feature Extraction Network
3.2 Matching-to-Detecting Process
3.3 Supervision
3.4 Implementation Details
4 Experiments
4.1 Image Matching
4.2 Homography Estimation
4.3 Understanding M2D
5 Conclusion
References
Solving Generalized Pose Problem of Central and Non-central Cameras
1 Introduction
2 Notation and Preliminaries
3 Proposed Method
3.1 Classical PnP Solver
3.2 Generalized Pose Solver
4 Experimental Evaluation
4.1 Synthetic Data
4.2 Real Data
5 Conclusion
References
RICH: Robust Implicit Clothed Humans Reconstruction from Multi-scale Spatial Cues
1 Introduction
2 Related Work
2.1 3D Clothed Human Reconstruction
2.2 Clothed Human from Implicit Function
3 Method
3.1 2.5D Normal Maps Prediction
3.2 Multi-scale Features-Based Implicit Surface Reconstruction
4 Experiments
4.1 Datasets
4.2 Evaluation
4.3 Ablation Study
5 Application
6 Conclusion
References
An Efficient and Consistent Solution to the PnP Problem
1 Introduction
2 Related Work
3 Method
3.1 Problem Formulation
3.2 Uncertainty Weighted
3.3 Modified Objective Function
3.4 Bias Compensation and Consistent Variance
3.5 Recovering Camera Pose
4 Experiments
4.1 Synthetic Data Experiments
4.2 Real Data Experiments
5 Conclusion
References
Autoencoder and Masked Image Encoding-Based Attentional Pose Network
1 Introduction
2 Related Work
2.1 Methods for Estimating 3D Human Pose and Shape Based on Single Images
2.2 Handling Occlusions in 3D Human Shape and Pose Estimation
3 Method
3.1 Feature Extraction
3.2 Composite Encoder
3.3 Parameter Regression
3.4 Loss Function
4 Experiments
4.1 Comparison with State-of-the-Art Methods on Error Metric
4.2 Comparison with State-of-the-Art Methods on Robustness Metrics
5 Visualization
6 Conclusions
References
A Voxel-Based Multiview Point Cloud Refinement Method via Factor Graph Optimization
1 Introduction
2 Related Work
2.1 Pairwise Registration
2.2 Multiview Registration
3 Methodology
3.1 Voxel-Grid Feature Map
3.2 Factor Graph Optimization
3.3 Multi-scale Voxel-Grid Optimization
4 Experiment and Analysis
4.1 Datasets Description
4.2 Evaluation Criteria
4.3 Evaluation
5 Conclusion
References
SwinFusion: Channel Query-Response Based Feature Fusion for Monocular Depth Estimation
1 Introduction
2 Related Work
2.1 MDE Methods
2.2 Feature Fusion
3 Methodology
3.1 Encoder and Decoder
3.2 Channel Query-Response Fusion (CQRF)
3.3 BinsHead and ConvOutHead
3.4 Training Loss
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Quantitative Results
4.3 Ablation Study
5 Conclusion
References
PCRT: Multi-branch Point Cloud Reconstruction from a Single Image with Transformers
1 Introduction
2 Related Works
2.1 Single-View Reconstruction
2.2 Transformer
3 Methods
3.1 Network Architecture
4 Experiments
4.1 Dataset and Implementation Details
4.2 Single-View Reconstruction
4.3 Unsupervised Semantic Part Reconstruction
4.4 Ablation Study
5 Conclusion
References
Progressive Point Cloud Generating by Shape Decomposing and Upsampling
1 Introduction
2 Related Work
2.1 Deep Learning on Point Cloud
2.2 GAN-Based Point Cloud Generative Models
2.3 Energy-Based Point Cloud Generative Models
3 Method
3.1 OverView
3.2 Coarse Point Generator
3.3 Point Upsampling Layer
3.4 Loss Function
4 Experiments
4.1 Experiment Settings
4.2 Evaluation of Point Cloud Generation
4.3 Ablation Study
5 Conclusion
References
Three-Dimensional Plant Reconstruction with Enhanced Cascade-MVSNet
1 Introduction
2 Related Work
3 Methodology
3.1 Network Overview
3.2 Squeeze Excitation Module
3.3 Depth-Wise Separable Convolution
3.4 Loss Function
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Experimental Performance
4.4 Ablation Study
5 Conclusion
References
Learning Key Features Transformer Network for Point Cloud Processing
1 Introduction
2 Related Work
2.1 Point-Based Deep Learning
2.2 Transformer for Point Cloud
3 Point Cloud Processing with KFT-Net
3.1 Overall Architecture
3.2 Contextual-Aware Attention Module
3.3 Output
4 Experiments
4.1 Shape Classification on ModelNet40
4.2 Object Part Segmentation on ShapeNet
4.3 Semantic Segmentation on S3DIS
4.4 Ablation Studies
5 Conclusion
References
Unsupervised Domain Adaptation for 3D Object Detection via Self-Training
1 Introduction
2 Related Work
3 Method
3.1 Problem Definition
3.2 Data Augmentation
3.3 Multual Learning
3.4 Threshold Adaptation Based Predicted IoU
4 Experiments
4.1 Experimental Setup
4.2 Main Results and Comparisons
4.3 Ablation Studies
5 Conclusion
References
Generalizable Neural Radiance Field with Hierarchical Geometry Constraint
1 Introduction
2 Related Work
2.1 Novel View Synthesis
2.2 Neural Scene Representation
3 Method
3.1 Preliminaries
3.2 Multi-scale Geometric Feature
3.3 Volume Rendering
3.4 Hierarchical Sampling Guided by Cascade-MVS
3.5 Training Loss
4 Experiments
4.1 Experimental Results
4.2 Ablation Study
5 Conclusion
References
ACFNeRF: Accelerating and Cache-Free Neural Rendering via Point Cloud-Based Distance Fields
1 Introduction
2 Related Work
2.1 Neural Scene Representations
2.2 Acceleration of Neural Radiance Fields
3 Method
3.1 Distance Fields Based on Point Cloud
3.2 Radiance Fields with Distance Fields
4 Experiments
4.1 Implementation Details
4.2 Results
4.3 Ablation Studies
5 Conclusion
References
OctPCGC-Net: Learning Octree-Structured Context Entropy Model for Point Cloud Geometry Compression
1 Introduction
2 Related Work
2.1 Traditional Point Cloud Compression
2.2 Deep Learning-Based Point Cloud Compression
2.3 Transformer in Point Cloud Processing Tasks
3 The Proposed Approach
3.1 A Brief Review of OctAttention
3.2 OctPCGC-Net
3.3 Learning
4 Experiments
4.1 Experimental Settings
4.2 Experiment Results
4.3 Ablation Study and Analysis
4.4 Runtime
5 Conclusion
References
Multi-modal Feature Guided Detailed 3D Face Reconstruction from a Single Image
1 Introduction
2 Related Work
3 Method
3.1 Coarse 3D Face Reconstruction
3.2 Multi-modal Feature Guided Detailed 3D Face Reconstruction
3.3 Training Loss
4 Experiments
4.1 Experimental Setup
4.2 Main Results
4.3 Ablation Study
4.4 Limitation and Discussion
5 Conclusion
References
Character Recognition
Advanced License Plate Detector in Low-Quality Images with Smooth Regression Constraint
1 Introduction
2 Related Work
3 Proposed SrcLPD
3.1 Multi-scale Features Extraction and Fusion
3.2 Decoupled Dual Branch Prediction Heads
3.3 Smooth Regression Constraint
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Comparison with Previous Methods
4.4 Ablation Studies
5 Conclusion
References
A Feature Refinement Patch Embedding-Based Recognition Method for Printed Tibetan Cursive Script
1 Introduction
2 Related Work
2.1 CNN-Based Text Recognition
2.2 Transformer-Based Text Recognition
3 Methodology
3.1 Label Text Split
3.2 Feature Refinement Patch
3.3 Transformer Encoder Block
3.4 Merging and SubSample
4 Experiments
4.1 Datasets and Evaluation Metrics
4.2 Comparative Recognition Experiment
4.3 The Model Influence of Text Length
4.4 Performance of the Model on Complex Tibetan Image Text Datasets
5 Conclusion
References
End-to-End Optical Music Recognition with Attention Mechanism and Memory Units Optimization
1 Introduction
2 Related Work
3 Method
3.1 Architecture Overview
3.2 Memory Unit Optimization Component
3.3 ATTention-Based OMR Decoder
4 Experiment
4.1 Dataset
4.2 Experiment Set up
4.3 Comparisons with the OMR Methods
4.4 Ablation Study
5 Conclusion
References
Tripartite Architecture License Plate Recognition Based on Transformer
1 Introduction
2 Related Work
2.1 License Plate Recognition
2.2 Transformer
3 Proposed Method
3.1 License Plate Detection
3.2 License Plate Recognition
4 Experiments
4.1 Datasets
4.2 Experimental Environment and Tools
5 Results
5.1 CCPD
5.2 CLPD
5.3 CBLPRD
6 Conclusion
References
Fundamental Theory of Computer Vision
Focus the Overlapping Problem on Few-Shot Object Detection via Multiple Predictions
1 Introduction
2 Related Work
2.1 Few-Shot Object Detection
2.2 Object Detection in Crowded Scenes
2.3 Non-maximum Suppression
3 Methodology
3.1 Problem Definition
3.2 Few-Shot Object Detection
3.3 Multiple Predictions
4 Experiments
4.1 Experiment Settings
4.2 Results on the Dataset
4.3 Ablation Study and Visualization
5 Conclusion
References
Target-Aware Bi-Transformer for Few-Shot Segmentation
1 Introduction
2 Relate Works
2.1 Few-Shot Semantic Segmentation
2.2 Vision Transformer
3 Problem Setting
4 Method
4.1 Overview
4.2 Hypercorrelation Features Computation
4.3 Target-Aware Bi-Transformer Module
4.4 Target-Aware Transformer Module
4.5 Segmentation Decoder
5 Experiments
5.1 Datasets
5.2 Comparison with State-of-the-Arts
5.3 Ablation Study
6 Conclusion
References
Convex Hull Collaborative Representation Learning on Grassmann Manifold with L1 Norm Regularization
1 Introduction
2 Preliminaries
2.1 Sparse/Collaborative Representation Learning
2.2 Grassmann Manifold
3 Method
3.1 Problem Setup
3.2 Multiple Subspaces Extraction
3.3 The L1 Norm Regularized Convex Hull Collaborative Representation Model
3.4 Optimization
4 Experiment
4.1 Datasets and Settings
4.2 Comparative Methods
4.3 Results and Analysis
4.4 Evaluations on Noisy Datasets
4.5 Parameter Sensitivity Analysis
4.6 Convergence Analysis
5 Conclusion
References
FUFusion: Fuzzy Sets Theory for Infrared and Visible Image Fusion
1 Introduction
2 Proposed Method
2.1 SVB-LS Model
2.2 Significant Feature Fusion
2.3 Insignificant Feature Fusion
2.4 Fusion of Base Layers
3 Experimental Analysis
3.1 Experimental Settings
3.2 Parameter Analysis
3.3 Ablation Experiment
3.4 Subjective Comparison
3.5 Objective Comparison
4 Conclusion
References
Progressive Frequency-Aware Network for Laparoscopic Image Desmoking
1 Introduction
2 Related Work
2.1 Traditional Theory-Based Desmoking Methods
2.2 Deep Learning-Based Desmoking Methods
3 Methodology
3.1 Synthetic Smoke Generation
3.2 Multi-scale Bottleneck-Inverting (MBI) Block
3.3 Locally-Enhanced Axial Attention Transformer (LAT) Block
4 Experiment
4.1 Data Collections
4.2 Implementation Details
5 Result
5.1 Evaluation Under Different Smoke Densities
5.2 Ablation Studies
6 Limitations
7 Conclusion
References
A Pixel-Level Segmentation Method for Water Surface Reflection Detection
1 Introduction
2 Related Work
3 Methods
3.1 Patching Merging (PM)
3.2 Multi-Scale Fusion Attention Module (MSA)
3.3 Interactive Convergence Attention Module (ICA)
4 Data and Evaluation Metrics
5 Experiments
5.1 Experimental Analysis
5.2 Ablation Study
6 Conclusion
References
Author Index