Computer Vision – ACCV 2022: 16th Asian Conference on Computer Vision, Macao, China, December 4–8, 2022, Proceedings, Part III (Lecture Notes in Computer Science, 13843) 303126312X, 9783031263125

176 99 149MB

English Pages [663]

Table of contents :
Preface
Organization
Contents – Part III
Low-Level Vision, Image Processing
Modular Degradation Simulation and Restoration for Under-Display Camera*-4pt
1 Introduction
2 Related Works
2.1 UDC Imaging
2.2 Generative Adversarial Network (GAN)
2.3 Image Restoration Architecture
3 Method
3.1 Overall Network Architecture
3.2 MPGNet
3.3 DWFormer
3.4 Training
3.5 Implementation Details
4 Experiment
4.1 Dataset
4.2 Comparison of Generators
4.3 Comparison of Restoration Models
4.4 Ablation Studies
5 Conclusion
References
UHD Underwater Image Enhancement via Frequency-Spatial Domain Aware Network
1 Introduction
2 Related Work
2.1 Underwater Image Enhancement
2.2 UHD Image Processing
3 Proposed Method
3.1 Frequency Domain Information Extraction
3.2 Spatial Domain Information Extraction
3.3 Spatial-Frequency Feature Fusion
4 Experimental Results
4.1 Training Data
4.2 Implementation Details
4.3 Evaluation and Results
4.4 Ablation Study
5 Conclusion
References
Towards Real-Time High-Definition Image Snow Removal: Efficient Pyramid Network with Asymmetrical Encoder-Decoder Architecture
1 Introduction
2 Related Works
3 Proposed Method
3.1 Channel Information Mining Block
3.2 External Attention Module
3.3 Efficient Pyramid Network with Asymmetrical Encoder-Decoder Architecture
4 Loss Function
5 Experiments
5.1 Datasets and Evaluation Criteria
5.2 Implementation Details
5.3 Performance Comparison
5.4 Quantifiable Performance for High-Level Vision Tasks
5.5 Ablation Study
6 Limitations
7 Conclusion
References
Uncertainty-Based Thin Cloud Removal Network via Conditional Variational Autoencoders
1 Introduction
2 Related Work
2.1 Prior-Based Methods
2.2 Data-Driven Methods
3 Uncertainty Cloud Removal Framework
3.1 Analysis of Image Degradation Process
3.2 Transformer-Based Encoder
3.3 Multi-scale Prediction Decoder
3.4 Loss Function
4 Experiments
4.1 Dataset
4.2 Implementation Details
4.3 Results on Real Dataset
4.4 Results on Hard Examples
4.5 Results on Clear Dataset
5 Ablation Study
5.1 Evaluations on the Encoder Network
5.2 Evaluations on the Reconstruction Loss Function
6 Conclusion
References
Blind Image Super-Resolution with Degradation-Aware Adaptation
1 Introduction
2 Related Work
3 Method
3.1 Problem Formulation
3.2 Weakly Supervised Degradation Encoder
3.3 Degradation-Aware Modulation
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Comparison with State-of-the-Art Methods
4.4 Ablation Study
5 Conclusions
References
Multi-Branch Network with Ensemble Learning for Text Removal in the Wild*-4pt
1 Introduction
2 Related Work
3 Multi-Branch Network with Ensemble Learning
3.1 Overall Architecture
3.2 Main Branch Network
3.3 Sub-branch Network
3.4 Crossing Branch Feature Fusion (CBF)
3.5 Convolutional LSTM Module (CLSTM)
3.6 Train Strategy
4 Experiments and Analysis
4.1 Datasets and Evaluation Protocol
4.2 Implementation Details
4.3 Ablation Study
4.4 Comparison with State-of-the-Art Methods
4.5 The Effectiveness of Complementary Multi-Branch Network
4.6 Robustness Analysis
4.7 Synthetic Data via STR for Scene Text Recognition
5 Conclusion
References
Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning
1 Introduction
2 Related Works
2.1 Natural Image Matting
2.2 Network Pruning
3 Proposed Approach
3.1 Knowledge Distillation
3.2 Motivation
3.3 Pruning with KD
3.4 Training with KD
4 Experimental Results
4.1 Implementation Details
4.2 Quantitative Comparisons
4.3 Qualitative Comparisons
4.4 Ablation Studies
5 Conclusion
References
AutoEnhancer: Transformer on U-Net Architecture Search for Underwater Image Enhancement*-4pt
1 Introduction
2 Related Works
2.1 Image Enhancement
2.2 Neural Architecture Search
3 Preliminaries
4 The Proposed Method
4.1 Overall Pipeline
4.2 Search Space
4.3 Network Optimization
5 Experiments
5.1 Experimental Setting
5.2 Implementation Details
5.3 Comparisons with the State-of-the-Arts
5.4 Ablation Study
6 Conclusions
References
Multi-granularity Transformer for Image Super-Resolution*-4pt
1 Introduction
2 Related Work
2.1 Image Super-Resolution
2.2 Vision Transformer
3 Methodology
3.1 Overview
3.2 Multi-granularity Transformer Block
3.3 Comparisons with SwinIR
4 Experiments
4.1 Datasets and Evaluation Metrics.
4.2 Implementation Details
4.3 Ablation Study
4.4 Results with Bicubic (BI) Degradation
4.5 Results with Blur-downscale (BD) Degradation
4.6 Complexity Analysis
5 Conclusion
References
Structure Representation Network and Uncertainty Feedback Learning for Dense Non-uniform Fog Removal*-4pt
1 Introduction
2 Related Works
3 Proposed Method
3.1 Grayscale Feature Multiplier
3.2 Structure Representation Network
3.3 Uncertainty Feedback Learning
3.4 Overall Losses
4 Experimental Results
4.1 Ablation Studies
5 Conclusion
References
DualBLN: Dual Branch LUT-Aware Network for Real-Time Image Retouching*-4pt
1 Introduction
2 Related Work
3 Methodology
3.1 3D LUT of Traditional Image Enhancement
3.2 Proposed Method
3.3 The Image Processing Module
3.4 The LUT-Aware Module
3.5 Feature Fusion Using Bilinear Pooling
3.6 Loss Function
4 Experiments
4.1 Experiment Setups
4.2 Visualization of Results
4.3 Ablation Study
5 Conclusion
References
CSIE: Coded Strip-Patterns Image Enhancement Embedded in Structured Light-Based Methods
1 Introduction
2 Related Work
3 Proposed Method
3.1 Model Decomposition Problem
3.2 Bidirectional Perceptually Consistency
3.3 Exact Solver to Problem (1)
4 Experiments
5 Conclusion
References
Teacher-Guided Learning for Blind Image Quality Assessment*-4pt
1 Introduction
2 Related Work
2.1 Blind Image Quality Assessment
2.2 Learning Methods for Insufficient Data
3 Proposed Method
3.1 Teacher Network Learning from Image Restoration
3.2 Student Network Learning for BIQA
4 Experiments
4.1 Datasets
4.2 Implementations
4.3 Comparisons with State-of-the-Arts
4.4 Ablation Studies
4.5 The gMAD Competition
4.6 Analysis for the Multi-branch Convolutions
5 Conclusion
References
ElDet: An Anchor-Free General Ellipse Object Detector
1 Introduction
2 Related Works
2.1 Anchor-Free Object Detector
2.2 Rotated Object Detection
2.3 Ellipse Detection
3 Proposed Method
3.1 Overview of Framework
3.2 Ellipse Parameters Regression
3.3 Edge Fusion Module
3.4 Gaussian IoU
3.5 Ellipse Mask Segmentation
4 Experiments
4.1 General Ellipse Detection Dataset (GED)
4.2 Implementation Details
4.3 Evaluation Metrics
4.4 Compared Methods
4.5 Results on GED Dataset
5 Conclusion and Discussion
References
Truly Unsupervised Image-to-Image Translation with Contrastive Representation Learning
1 Introduction
2 Related Work
3 Method
3.1 Overview
3.2 The Style Embedding Network
3.3 The Image Translation Module
3.4 Overall Training
4 Experiments
4.1 Truly Unsupervised Image-to-Image Translation
4.2 Domain-Level Supervised or Semi-Supervised Image Translation
4.3 Some Analyses of the Proposed Model
5 Conclusion
References
MatchFormer: Interleaving Attention in Transformers for Feature Matching
1 Introduction
2 Related Work
3 Methodology
3.1 MatchFormer
3.2 Model Settings
4 Experiments
4.1 Implementation and Datasets
4.2 Indoor Pose Estimation
4.3 Outdoor Pose Estimation
4.4 Image Matching
4.5 Homography Estimation
4.6 Visual Localization on InLoc
4.7 MatchFormer Structural Study
5 Conclusions
References
SG-Net: Semantic Guided Network for Image Dehazing
1 Introduction
2 Related Work
2.1 Image Dehazing
2.2 Semantic Segmentation
3 Proposed Method
3.1 Semantic Fusion and Semantic Attention
3.2 Semantic Loss
3.3 SG-Net Series
4 Experiments
4.1 Dataset and Evaluation Metrics
4.2 Implementation Details
4.3 Quantitative and Qualitative Evaluation
4.4 Ablation Study
4.5 Visualization Analysis
4.6 Segmentation Model
4.7 Efficiency Analysis
5 Conclusion
References
Self-Supervised Dehazing Network Using Physical Priors
1 Introduction
2 Related Work
2.1 Prior-Based Methods
2.2 Supervised Learning Methods
2.3 Unsupervised Learning Methods
3 Physical Priors
3.1 Conventional Priors
3.2 Our Proposed Priors
4 Self-Supervised Dehazing Network
4.1 Overall Framework
4.2 Self-Supervised Dehazing Losses
5 Experiments
5.1 Implementation Details
5.2 Datasets
5.3 Results
6 Conclusion
References
LHDR: HDR Reconstruction for Legacy Content Using a Lightweight DNN
1 Introduction
2 Related Work
2.1 Lightweight SI-HDR
2.2 Problem Modeling of SI-HDR
2.3 SI-HDR for Legacy Content
2.4 HDR Degradation Model
3 Proposed Method
3.1 Problem Modeling
3.2 DNN Structure
3.3 Training Strategy
4 Experiments
4.1 Comparison with SOTA
4.2 Ablation Studies
5 Conclusion
References
NoiseTransfer: Image Noise Generation with Contrastive Embeddings
1 Introduction
2 Related Work
2.1 Contrastive Learning
2.2 Generative Noise Model
3 Proposed Method: NoiseTransfer
3.1 Noise Discrimination with Contrastive Learning
3.2 Noise Generation with Contrastive Embeddings
3.3 Discussion
4 Experiments
4.1 Implementation Details
4.2 Noisy Image Generation
4.3 Real Noise Denoising
4.4 Synthetic Noise Denoising
4.5 Ablation Study
5 Conclusion
References
MVFI-Net: Motion-Aware Video Frame Interpolation Network
1 Introduction
2 Related Work
3 Method
3.1 Problem Statement
3.2 Overall Architecture
3.3 Motion Estimation Network
3.4 Motion-Aware Convolution
3.5 Multi-scale Feature Aggregation
4 Experiments
4.1 Datasets and Implementation Details
4.2 Comparison with the State-of-the-Arts
4.3 Ablation Study
5 Conclusion
References
Learning Texture Enhancement Prior with Deep Unfolding Network for Snapshot Compressive Imaging
1 Introduction
2 Related Works
3 Proposed Method
3.1 Reconstruction Model with Learnable Prior for CASSI
3.2 Texture Enhancement Prior Learning Network: TEP-net
4 Experiments
4.1 Network Training
4.2 Experiment Comparison
4.3 Ablation Experiments
5 Conclusion
References
Light Attenuation and Color Fluctuation for Underwater Image Restoration
1 Introduction
2 Related Work
2.1 Model-Free Method
2.2 Model-Based Method
2.3 Deep Learning-Based Method
3 Proposed Method
3.1 Background Light Estimation
3.2 Depth Estimation
4 Experiments and Results
4.1 Qualitative Comparison
4.2 Quantitative Evaluation
5 Conclusion
References
Learning to Predict Decomposed Dynamic Filters for Single Image Motion Deblurring
1 Introduction
2 Related Works
2.1 Single-Scale Deep Image Deblurring
2.2 Multi-scale, Multi-patch-Based Approaches
2.3 Dynamic Filters
3 Our Approach
3.1 Overview
3.2 Decomposed Dynamic Filters
3.3 The Offsets Estimation Module
3.4 The Pixel-Specific Filter Weight Generator
4 Experiments
4.1 Datasets
4.2 Implementation Details
4.3 Evaluation of DDF
4.4 Comparisons with State-of-the-Art Methods
4.5 Ablation Studies
4.6 Generalization to Real Image Noise Removal Task
5 Conclusion
References
Efficient Hardware-Aware Neural Architecture Search for Image Super-Resolution on Mobile Devices
1 Introduction
2 Related Work
3 Methodology
3.1 Block Search
3.2 Network Search
3.3 Hardware Latency Estimation
3.4 Latency Constrained Optimization
4 Experiments
4.1 Datasets and Implementation Details
4.2 Quantitative Comparison
4.3 Qualitative Comparison
4.4 Search Cost Comparison
4.5 Ablation Study
5 Conclusion and Discussions
References
Fine-Grained Image Style Transfer with Visual Transformers
1 Introduction
2 Related Work
2.1 Image Style Transfer
2.2 Visual Transformer
3 Approach
3.1 Network Architecture
3.2 Objective Function
4 Experiments and Discussions
4.1 Training Details
4.2 Comparison Results
4.3 Ablations
5 Conclusion
References
MSF2DN: Multi Scale Feature Fusion Dehazing Network with Dense Connection
1 Introduction
2 Related Work
2.1 Single Image Dehazing
2.2 Dense Connection
2.3 Multi Scale Feature Fusion
3 Proposed Method
3.1 Multi-level Feature Fusion Module
3.2 Double Feature Fusion Dehazing Module
3.3 Multi-stream Feature Fusion Module
3.4 Implementations Details
4 Experimental Results
4.1 Datasets
4.2 Evaluation Metrics and Comparisons
4.3 Performance Analysis
4.4 Model Complexity and Inference Time
4.5 Ablation Study
5 Conclusion
References
MGRLN-Net: Mask-Guided Residual Learning Network for Joint Single-Image Shadow Detection and Removal
1 Introduction
2 Related Work
2.1 Shadow Detection
2.2 Shadow Removal
3 Methodology
3.1 Network Architecture
3.2 Shadow Detection Module
3.3 Shadow Removal Module
3.4 Objective Functions
4 Experimental Results
4.1 Datasets and Evaluation Metrics
4.2 Implementation Details
4.3 Comparison with State-of-the-Art Shadow Detection Methods
4.4 Comparison with State-of-the-Art Shadow Removal Methods
4.5 Ablation Studies
4.6 Failure Cases
5 Conclusion
References
Learnable Subspace Orthogonal Projection for Semi-supervised Image Classification
1 Introduction
2 Related Work
3 Proposed Method
3.1 Orthogonal Projection
3.2 Learnable Orthogonal Projection
3.3 Optimization Method
4 Experiment
4.1 Experiment Setting
4.2 Experimental Result
4.3 Convergence and Time Complexity Analysis
5 Conclusion and Discussion
References
DENet: Detection-driven Enhancement Network for Object Detection Under Adverse Weather Conditions
1 Introduction
2 Related Work
2.1 UDA-Based and MTL-Based Methods
2.2 Image Enhancement Methods
2.3 Joint Enhancement and Detection Methods
3 Proposed Method
3.1 Laplacian-Pyramid-Based Enhancement
3.2 Global Enhancement Module for the LF Component
3.3 Detail Enhancement Module for the HF Components
4 Experiments and Analysis
4.1 Implementation Details
4.2 Preparation of Datasets
4.3 Object Detection on Low-Light Images
4.4 Object Detection on Foggy Images
4.5 Ablation Study
4.6 Efficiency Analysis
5 Conclusion
References
RepF-Net: Distortion-Aware Re-projection Fusion Network for Object Detection in Panorama Image
1 Introduction
2 Related Work
3 Method
3.1 Unified Distortion-Aware Convolution
3.2 Non-maximum Fusion
3.3 Re-projection Fusion Network Architecture
4 Experiments
4.1 Dataset
4.2 Implementation Details
4.3 Results of Unified Distortion-Aware Convolution
4.4 Results of Non-maximum Fusion
4.5 Comparison with the State-of-the-Art Methods
5 Applications
6 Conclusion
References
Vision Transformer Compression and Architecture Exploration with Efficient Embedding Space Search
1 Introduction
2 Preliminaries and Motivation
2.1 Vision Transformer
2.2 Deep Feature Collapse
2.3 Gradient Collapse
3 Proposed Method
3.1 Search Process with BO
3.2 Latent Embedding Space Search
3.3 Search Space
4 Experiments
4.1 Comparison Results
4.2 Effect of Scale Factor
4.3 Ablation Study
5 Conclusion
A Appendix
A.1 Proof of Theorem 3
References
EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network
1 Introduction
2 Related Work
3 Method
3.1 Revisting Channel Attention
3.2 PSA Module
3.3 Network Design
4 Experiments
4.1 Implementation Details
4.2 Image Classification on ImageNet
4.3 Object Detection on MS COCO
4.4 Instance Segmentation on MS COCO
5 Ablation Studies
5.1 Effect of the Kernel Size and Group Size
5.2 Effect of the SPC and SE Module
5.3 Effect of the Lightweight Performance
5.4 Effect of the Multi-scale Feature Representation
5.5 The Visualization Results
6 Conclusion
References
Boosting Dense Long-Tailed Object Detection from Data-Centric View
1 Introduction
2 Related Work
3 Method
3.1 Instance-Level: Copy-Move
3.2 Anchor-Level: Long-Tailed Training Sample Selection
4 Experiments
4.1 Experimental Settings
4.2 Benchmark Results
4.3 Ablation Study
4.4 Data Validity Analysis
5 Conclusion
References
Multi-scale Residual Interaction for RGB-D Salient Object Detection
1 Introduction
2 Related Work
2.1 RGB-D Salient Object Detection
2.2 Siamese Network
3 Approach
3.1 Architecture Overview
3.2 Context Enhance Module (CEM)
3.3 Residual Interactive Refinement Block (RIRB)
3.4 Decoder Network
3.5 Implementation Details
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Comparisons with State-of-the-Art Methods
4.4 Ablation Study
5 Conclusion
References
RGBD and Depth Image Processing
Multi-modal Characteristic Guided Depth Completion Network
1 Introduction
2 Related Work
2.1 Conventional Neural Network Based Approach
2.2 Attention- and Confidence-Map Based Approach
2.3 Modality Characteristic Based Approach
3 Methodology
3.1 Overall Network Architecture
3.2 Shallow Feature Fusion Module (SFFM)
3.3 Confidence Guidance Module (CGM)
3.4 Loss Function
4 Experiments
4.1 Experimental Setup
4.2 Comparison with State-of-the-Art Methods
4.3 Ablation Studies
4.4 Analysis for Predicted Confidence Map
5 Conclusion
References
Scale Adaptive Fusion Network for RGB-D Salient Object Detection
1 Introduction
2 Related Work
2.1 RGB-D SOD Methods
2.2 Cross-Modality Fusion Models for RGB-D SOD
3 Algorithm
3.1 Overview
3.2 Scale Adaptive Fusion Encoder
3.3 Saliency Decoder
3.4 Loss Function
4 Experiments
4.1 Implementation Details
4.2 Datasets and Metrics
4.3 Comparison with State-of-the-Arts
4.4 Ablation Studies
5 Conclusion
References
PBCStereo: A Compressed Stereo Network with Pure Binary Convolutional Operations
1 Introduction
2 BNN Preliminaries
3 Method
3.1 IBC Module
3.2 Binarizing Input Layer
3.3 PBCStereo Overview
4 Experiments
4.1 Experiment Details
4.2 Ablation Study
4.3 Evaluations on Benchmarks
5 Conclusion
References
Author Index