Pattern Recognition and Computer Vision: 6th Chinese Conference, PRCV 2023, Xiamen, China, October 13–15, 2023, Proceedings, Part XIII (Lecture Notes in Computer Science, 14437) 9819985579, 9789819985579

The 13-volume set LNCS 14425-14437 constitutes the refereed proceedings of the 6th Chinese Conference on Pattern Recogni

167 98 89MB

English Pages 525 [524] Year 2024

Table of contents :
Preface
Organization
Contents – Part XIII
Medical Image Processing and Analysis
Growth Simulation Network for Polyp Segmentation
1 Introduction
2 The Proposed Method
2.1 Gaussian Map and Body Map
2.2 Overall Architecture
2.3 Features Extraction and Fusion Module
2.4 Dynamic Attention Guidance Module
2.5 Dynamic Simulation Loss
3 Experiments
3.1 Settings
3.2 Comparisons with State-of-the-art
3.3 Ablation Study
4 Conclusion
References
Brain Diffuser: An End-to-End Brain Image to Brain Network Pipeline
1 Introduction
2 Related Work
3 Methodology
3.1 Feature Extraction Module
3.2 Brain Diffuser
3.3 GCN Classifier
3.4 Loss Function
4 Experiments
4.1 Dataset and Preprocessing
4.2 Experiment Configuration
4.3 Results and Discussion
5 Conclusion
References
CCJ-SLC: A Skin Lesion Image Classification Method Based on Contrastive Clustering and Jigsaw Puzzle
1 Introduction
2 Related Work
3 Methodology
3.1 Overview of Our Method
3.2 Contrastive Clustering
3.3 Jigsaw Puzzle
3.4 Loss Function
4 Experiments
4.1 Dataset and Evaluation Metrics
4.2 Baseline Performance
4.3 Ablation Experiment
4.4 Analysis
5 Conclusion
References
A Real-Time Network for Fast Breast Lesion Detection in Ultrasound Videos
1 Introduction
2 Method
2.1 Space Time Feature Aggregation (STA) Module
3 Experiments and Results
3.1 Comparisons with State-of-the-Arts
3.2 Ablation Study
3.3 Generalizability of Our Network
4 Conclusion
References
CBAV-Loss: Crossover and Branch Losses for Artery-Vein Segmentation in OCTA Images
1 Introduction
2 Methods
2.1 Overview
2.2 Crossover Loss and Branch Loss
2.3 Loss Function
3 Experiments
3.1 Data
3.2 Experimental Settings
3.3 Evaluation Metrics
3.4 Ablation Study on CBAV-Loss
3.5 Influence of the Proposed Loss on Different Segmentation Networks
4 Conclusion
References
Leveraging Data Correlations for Skin Lesion Classification
1 Introduction
2 Related Work
2.1 Skin Lesion Classification
2.2 Correlation Mining
3 Methodology
3.1 Feature Enhancement Stage
3.2 Label Distribution Learning Stage
4 Experiments
4.1 Experiment Settings
4.2 Hyper Parameters Setting
4.3 Comparison with State-of-the-Art Methods
4.4 Ablation Studies
5 Conclusion
References
CheXNet: Combing Transformer and CNN for Thorax Disease Diagnosis from Chest X-ray Images
1 Introduction
2 Related Work
2.1 Label Dependency and Imbalance
2.2 Extensive Lesion Location
3 Approaches
3.1 Label Embedding and MSP Block
3.2 Inner Branch
3.3 C2T and T2C in IIM
4 Experiments
4.1 Dataset
4.2 Comparison to the State-of-the-Arts
4.3 Ablation Study
5 Conclusion
References
Cross Attention Multi Scale CNN-Transformer Hybrid Encoder Is General Medical Image Learner
1 Introduction
2 Methods
2.1 Dual Encoder
2.2 Shallow Fusion Module
2.3 Deep Fusion Module
2.4 Deep Supervision
3 Experiments and Results
3.1 Dateset
3.2 Implementation Details
3.3 Comparison with Other Methods
3.4 Ablation Studies
4 Conclusion
References
Weakly/Semi-supervised Left Ventricle Segmentation in 2D Echocardiography with Uncertain Region-Aware Contrastive Learning
1 Introduction
2 Methods
2.1 Multi-level Regularization of Semi-supervision
2.2 Uncertain Region-Aware Contrastive Learning
2.3 Differentiable Ejection Fraction Estimation of Weak Supervision
3 Datasets and Implementation Details
4 Results
5 Conclusion
References
Spatial-Temporal Graph Convolutional Network for Insomnia Classification via Brain Functional Connectivity Imaging of rs-fMRI
1 Introduction
2 Related Work
3 Methodology
3.1 Data Preprocessing
3.2 Data Augmentation
3.3 Construction of Spatio-Temporal Graph
3.4 Spatio-Temporal Graph Convolution (ST-GC)
3.5 ST-GCN Building
3.6 Edge Importance Learning
4 Experiments
4.1 Dataset
4.2 Evaluation Metrics
4.3 Analysis of Different Sliding Window Step Size
4.4 Comparison with Other Methods
5 Conclusion
References
Probability-Based Nuclei Detection and Critical-Region Guided Instance Segmentation
1 Introduction
2 Related Works on Nucleus Instance Segmentation
2.1 Bounding Box-Based Methods
2.2 Boundary-Based Methods
2.3 Critical Region-Based Methods
3 CGIS Method and CPF Feature
3.1 Critical-Region Guided Instance Segmentation
3.2 Central Probability Field
3.3 Nuclear Classification
4 Experimental Verification and Analysis
4.1 Datasets and Evaluation Metrics
4.2 Parameters and Implementation Details
4.3 Comparisons with Other Methods
4.4 Ablation Study
5 Conclusion
References
FlashViT: A Flash Vision Transformer with Large-Scale Token Merging for Congenital Heart Disease Detection
1 Introduction
2 Method
2.1 Overview
2.2 FlashViT Block
2.3 Large-Scale Token Merging Module
2.4 Architecture Variants
3 Experiments
3.1 CHD Dataset
3.2 Evaluations on CHD Dataset
3.3 Homogenous Pre-training Strategy
3.4 Ablation Study
4 Conclusion
References
Semi-supervised Retinal Vessel Segmentation Through Point Consistency
1 Introduction
2 Method
2.1 Segmentation Module
2.2 Point Consistency Module
2.3 Semi-supervised Training Through Point Consistency
3 Experiments
3.1 Datasets
3.2 Implementation Details
3.3 Experimental Results
4 Conclusion
References
Knowledge Distillation of Attention and Residual U-Net: Transfer from Deep to Shallow Models for Medical Image Classification
1 Introduction
2 Methods
2.1 Res-Transformer Teacher Model Based on U-Net Structure
2.2 ResU-Net Student Model Incorporates Residual
2.3 Knowledge Distillation
3 Data and Experiments
3.1 Datasets
3.2 Experimental Settings
3.3 Results
4 Conclusion
References
Two-Stage Deep Learning Segmentation for Tiny Brain Regions
1 Introduction
2 Method
2.1 Overall Workflow
2.2 Two-Stage Segmentation Network
2.3 Contrast Loss Function
2.4 Attention Modules
3 Experiments
3.1 Dataset and Metrics
3.2 Comparisons Experiments
4 Conclusion
References
Encoder Activation Diffusion and Decoder Transformer Fusion Network for Medical Image Segmentation
1 Introduction
2 Methodology
2.1 Lightweight Convolution Modulation
2.2 Encoder Activation Diffusion
2.3 Multi-scale Decoding Fusion with Transformer
3 Experiments
3.1 Datasets
3.2 Implementation Details
3.3 Evaluation Results
3.4 Ablation Study
4 Conclusion
References
Liver Segmentation via Learning Cross-Modality Content-Aware Representation
1 Introduce
2 Methodology
2.1 Overview
2.2 Image-to-Image Network
2.3 Peer-to-Peer Network
3 Experiments
3.1 Dataset
3.2 Setting
3.3 Result
4 Conclusion
References
Semi-supervised Medical Image Segmentation Based on Multi-scale Knowledge Discovery and Multi-task Ensemble
1 Introduction
2 Related Works on SSMIS
3 Proposed Method
3.1 Multi-scale Knowledge Discovery
3.2 Multi-task Ensemble Strategy
4 Experiments and Analysis
4.1 Datasets and Implementation Details
4.2 Comparisons with State-of-the-Art Methods
4.3 Ablation Studies
5 Conclusion
References
LATrans-Unet: Improving CNN-Transformer with Location Adaptive for Medical Image Segmentation
1 Introduction
2 Method
2.1 Encoder-Decoder Architecture
2.2 Location-Adaptive Attention
2.3 SimAM-Skip Structure
3 Experiments
3.1 Dataset
3.2 Implementation Details
3.3 Evaluation Results
3.4 Ablation Study
3.5 Discussion
4 Conclusions
References
Adversarial Keyword Extraction and Semantic-Spatial Feature Aggregation for Clinical Report Guided Thyroid Nodule Segmentation
1 Introduction
2 Method
2.1 Adversarial Keyword Extraction (AKE)
2.2 Semantic-Spatial Features Aggregation (SSFA)
2.3 The Full Objective Functions
3 Experiment
3.1 Comparison with the State-of-the-Arts
3.2 Ablation Study
3.3 Visualization of Generated Keyword Masks
4 Conclusion
References
A Multi-modality Driven Promptable Transformer for Automated Parapneumonic Effusion Staging
1 Introduction
2 Related Works
2.1 Disease Detection Methods with CT Images
2.2 Classification Methods with Time Sequence Videos
3 Method
3.1 CNN-Based Slice-Level Feature Extraction
3.2 Prompt Encoder
3.3 Cross-Modality Fusion Transformer
4 Experiments
4.1 Setting and Implementation
4.2 Results
4.3 Ablation Study
5 Conclusion
References
Assessing the Social Skills of Children with Autism Spectrum Disorder via Language-Image Pre-training Models
1 Introduction
2 Related Works
2.1 Behavior Signal Processing System
2.2 Language-Image Pre-training Models
3 Methodology
3.1 Paradigm Design
3.2 Language-Image Based Method
4 Experimental Results
4.1 Database
4.2 Results
4.3 Discussion
5 Conclusion
References
PPS: Semi-supervised 3D Biomedical Image Segmentation via Pyramid Pseudo-Labeling Supervision
1 Introduction
2 Method
2.1 Overview
2.2 Pyramid Pseudo-Labeling Supervision
2.3 Loss Function
3 Experiments and Results
3.1 Ablation Analysis
4 Conclusion
References
A Novel Diffusion-Model-Based OCT Image Inpainting Algorithm for Wide Saturation Artifacts
1 Introduction
2 Related Work
3 Proposed Work
3.1 Training Process
3.2 Inference Process
3.3 Experiments
3.4 Evaluation Metrics
3.5 Result
4 Conclusions
References
Only Classification Head Is Sufficient for Medical Image Segmentation
1 Introduction
2 Related Work
3 The Proposed Method
3.1 Overall Architecture
3.2 Loss Function
4 Encoder-Decoder Decoupling Analyses
4.1 Feature Inferring Capability of Decoder
4.2 Feature Extraction Capability of Encoder
5 Experiments
5.1 Datasets
5.2 Evaluation Metrics
5.3 Implementation Details
5.4 Comparisons with State-of-the-Art Methods
5.5 FLOPs and Parameters
5.6 Ablation Study
6 Conclusion
References
Task-Incremental Medical Image Classification with Task-Specific Batch Normalization
1 Introduction
2 Methodology
2.1 Preliminary: Batch Normalization (BN)
2.2 Task-Specific Batch Normalization for TIL
3 Experiments
3.1 Experimental Setup
3.2 Performance on Task-Incremental Learning
3.3 Ablation and Sensitivity Studies
3.4 Generalizability Assessment
4 Conclusions
References
Hybrid Encoded Attention Networks for Accurate Pulmonary Artery-Vein Segmentation in Noncontrast CT Images
1 Introduction
2 Approaches
2.1 Hybrid Unit
2.2 3D Resample-Free Attention Gate
2.3 Hybrid DSC Loss Function
3 Experiments
4 Results and Discussion
5 Conclusion
References
Multi-modality Fusion Based Lung Cancer Survival Analysis with Self-supervised Whole Slide Image Representation Learning
1 Introduction
2 The Proposed Method
2.1 Architecture Overview
2.2 Whole Slide Image Representation Learning
2.3 Clinical Feature Learning
2.4 Multi-modality Fusion by GAMFB
2.5 MTL-Based Prediction and Loss Function
3 Experiments and Results
3.1 Dataset and Preprocessing
3.2 Implementation Details
3.3 Comparison with State-of-the-Arts
3.4 Ablation Study
3.5 Interpretability Analysis
4 Conclusion
References
Incorporating Spiking Neural Network for Dynamic Vision Emotion Analysis
1 Introduction
2 Related Work
3 Proposed Dataset
3.1 Basic Information
3.2 Labeling Process
3.3 Statistical Analysis
4 Methods
4.1 Overview
4.2 Details
5 Experiments
5.1 Experimental Setup
5.2 Experimental Results
6 Conclusion
References
PAT-Unet: Paired Attention Transformer for Efficient and Accurate Segmentation of 3D Medical Images
1 Introduction
2 Related Work
2.1 CNN-Based Segmentation Methods
2.2 Transformers-Based Segmentation Methods
2.3 CNN-Transformer Hybrid Segmentation Methods
3 Method
3.1 Hybrid 3D Segmentation Architecture
3.2 Paired Attention Transformer (PAT)
3.3 Deformable Enhanced Skip Connection Module (DESC)
4 Experiments
4.1 Implementation Details
4.2 Results
4.3 Ablation Experiment
5 Conclusions
References
Cell-CAEW: Cell Instance Segmentation Based on ConvAttention and Enhanced Watershed
1 Introduction
2 Related Work
2.1 Cell Instance Segmentation
2.2 Vision Transformer
3 Method
3.1 Preprocessing
3.2 Model Architecture
3.3 Post-processing
4 Experiments
4.1 Dataset and Evaluation Metric
4.2 Implementation Details
5 Results and Discussion
5.1 Quantitative Results on Tuning Set
5.2 Qualitative Results on Validation Set
5.3 Segmentation Efficiency Results on Validation Set
6 Conclusion
References
A Comprehensive Multi-modal Domain Adaptative Aid Framework for Brain Tumor Diagnosis
1 Introduction
2 Related Work
2.1 Deep Learning-based Brain Tumor Segmentation
2.2 Domain Adaptation
3 Methods
3.1 Overall Architecture
3.2 Segmentation Output Adaptation
4 Experiments
4.1 Experimental Setup
4.2 Experimental Results
4.3 Ablation Study
5 Conclusion
References
Joint Boundary-Enhanced and Topology-Preserving Dual-Path Network for Retinal Layer Segmentation in OCT Images with Pigment Epithelial Detachment
1 Introduction
2 Method
2.1 Network Structure
2.2 Boundary Enhanced Global Attention (BEGA) Module
2.3 Gradient-Guided Spatial Attention (GGSA) Module
2.4 Topology Correction (TC) Module
2.5 Loss Function
3 Experiment
3.1 Dataset
3.2 Comparison Methods and Evaluation Metric
3.3 Result
3.4 Ablation Experiment
4 Conclusion
References
Spatial Feature Regularization and Label Decoupling Based Cross-Subject Motor Imagery EEG Decoding
1 Introduction
2 Related Works
2.1 Sample Adaptation Methods
2.2 Feature Adaptation Methods
2.3 Deep Adversarial Methods
3 Methods
3.1 Notations and Problem Definition
3.2 Centroid Alignment of Covariance
3.3 Gaussian Weighting Regularized Spatial Features
3.4 Regularized Spatial Feature Adaptation and Label Decoupling
4 Experiment
4.1 Datasets
4.2 Results
4.3 Efficiency Comparison
4.4 Feature Visualization
5 Discussion
5.1 Ablation Study
5.2 Parameters Sensitivity
5.3 Convergence
6 Conclusions
References
Autism Spectrum Disorder Diagnosis Using Graph Neural Network Based on Graph Pooling and Self-adjust Filter
1 Introduction
2 Method
2.1 Overview
2.2 Self-attention Graph Pooling
2.3 Population Graph Construction
2.4 Graph Neural Network Based on Self-adjust Filter
3 Experiments
3.1 ABIDE I Dataset
3.2 Experimental Setting
3.3 Results
3.4 Ablation Analysis
4 Conclusion
References
CDBIFusion: A Cross-Domain Bidirectional Interaction Fusion Network for PET and MRI Images
1 Introduction
2 Method
2.1 Network Overview
2.2 CDBI Module
2.3 Swin Transformer
2.4 Loss Founction
3 Experiments
3.1 Experimental Setup
3.2 Qualitative Assessments
3.3 Quantitative Comparisons
3.4 Ablation Study
4 Conclusion
References
LF-LVS: Label-Free Left Ventricular Segmentation for Transthoracic Echocardiogram
1 Introduction
2 Related Work
3 Proposed Method
3.1 The Construction of STE-LVS Dataset
3.2 Domain Adaptation for Real-World TTE Data
4 Experiments
4.1 Dataset
4.2 Evaluation Metrics
4.3 Training Settings
4.4 Experimental Analysis
5 Conclusion
References
Multi-atlas Representations Based on Graph Convolutional Networks for Autism Spectrum Disorder Diagnosis
1 Introduction
2 Related Work
2.1 Atlas-Based ASD Diagnosis
2.2 GCN-Based ASD Diagnosis
3 Materials and Methods
3.1 Data Acquisition and Preprocessing
3.2 Graph Representation
3.3 Multi-atlas Mutual Learning
4 Experiment and Result
4.1 Implementation Details
4.2 Comparison with Existing Methods
4.3 Ablation Experiments
5 Conclusion
References
MS-UNet: Swin Transformer U-Net with Multi-scale Nested Decoder for Medical Image Segmentation with Small Training Data
1 Introduction
2 Related Works
3 Method
3.1 Architecture Overview
3.2 Swin Transformer Block
3.3 Encoder
3.4 Mutil-scale Nested Decoder and Skip Connection
3.5 Datasets
3.6 Evaluation Indicators
4 Experiments
4.1 Implementation Details
4.2 Experiment Results
4.3 Ablation Study
4.4 Discussion
5 Conclusion
References
GCUNET: Combining GNN and CNN for Sinogram Restoration in Low-Dose SPECT Reconstruction
1 Introduction
2 Method
2.1 Overall Architecture
2.2 GNN Branch
2.3 CNN Branch
3 Experimental Results
3.1 Dataset
3.2 Implementation Details
3.3 Comparison with Other Methods
3.4 Robustness of Proposed Method
3.5 Ablation Study
4 Conclusion
References
A Two-Stage Whole Body Bone SPECT Scan Image Inpainting Algorithm for Residual Urine Artifacts Based on Contextual Attention
1 Introduction
2 Methods
2.1 TransUNet
2.2 Image Inpainting with Contextual Attention
2.3 Preprocessing of Bone SPECT Scan Images
3 Experiments
3.1 Bone SPECT Scan Image Dataset
3.2 Stage 1: Image Segmentation
3.3 Stage 2: Image Ipainting
4 Results
4.1 Experimental Detail
4.2 Evaluation Indicator
4.3 Evaluation
5 Conclusion
References
Author Index