Neural Information Processing: 30th International Conference, ICONIP 2023, Changsha, China, November 20–23, 2023, Proceedings, Part XIV (Communications in Computer and Information Science) 9819981808, 9789819981809

The nine-volume set constitutes the refereed proceedings of the 30th International Conference on Neural Information Proc

144 75 86MB

English Pages 616 [612] Year 2023

Table of contents :
Preface
Organization
Contents – Part XIV
Applications
Road Meteorological State Recognition in Extreme Weather Based on an Improved Mask-RCNN
1 Introduction
2 Methodology
2.1 Feature Extraction Network
2.2 Detection Head Structure
3 Experiments and Analysis
3.1 Data Collection and Processing
3.2 Model Testing 2: Snow Detection at Night
4 Conclusion
References
I-RAFT: Optical Flow Estimation Model Based on Multi-scale Initialization Strategy
1 Introduction
2 Related Work
2.1 Optical Flow Estimation
2.2 Multi-scale Features in Vision
2.3 Vision Attention Mechanisms
3 Method
3.1 Optical Flow Initialisation
3.2 Context Encoder
3.3 Feature Encoder
4 Experiments
4.1 Experimental Details
4.2 Quantitative Experiments
4.3 Ablation Experiments
4.4 Visualisation Experiments
5 Conclusion
References
Educational Pattern Guided Self-knowledge Distillation for Siamese Visual Tracking
1 Introduction
2 Related Work
2.1 Siamese-based Trackers
2.2 Self Knowledge Distillation
3 Method
3.1 Overview
3.2 Motivations
3.3 Focal Self-distillation
3.4 Discriminative Self-distillation
3.5 Overall Loss
4 Experiment
4.1 Implementation Details
4.2 Datasets and Evaluation Metrics
4.3 Comparison With State-of-the-Art Trackers
4.4 Ablation Studies
5 Conclusion
References
LSiF: Log-Gabor Empowered Siamese Federated Learning for Efficient Obscene Image Classification in the Era of Industry 5.0
1 Introduction
2 Methodology
2.1 Obscene-15k Dataset and Its Pre-processing
2.2 Theoretical Framework for Log-Gabor Empowered Siamese Federated Learning (LSiF)
2.3 Siamese Networks
2.4 Log-Gabor Empowered Siamese Network
2.5 Inclusion of Federated Learning
3 Results and Discussion
3.1 Experimental Setup and Performance Evaluation Metrics
3.2 Measuring Performance: A Comprehensive Assessment
4 Conclusion
References
Depth Normalized Stable View Synthesis
1 Introduction
2 Related Work
2.1 Novel View Synthesis
2.2 Normalization in Image Synthesis
3 Method
3.1 Overview
3.2 Feature Selection and Aggregation
3.3 Refinement with Depth Normalization
3.4 Loss Function
4 Experiments
4.1 Ablation Study
4.2 Quantitative Results
4.3 Qualitative Results
5 Conclusion
References
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study
1 Introduction
2 Related Work
3 Methodology
4 Experiments
4.1 Setup
4.2 Results
5 Conclusion
References
Image Inpainting with Semantic U-Transformer
1 Introduction
2 Related Work
2.1 Image Inpainting
2.2 Applications of Fourier Transform in Vision
2.3 Efficient Attention Mechanisms
3 Method
3.1 Overall Architecture
3.2 Spectral and BRA Transformer Blocks
3.3 Bi-Level Routing Attention
3.4 Loss Functions
4 Experiments
4.1 Quantitative Comparison
4.2 Qualitative Comparisons
5 Conclusions
References
Multi-scale Context Aggregation for Video-Based Person Re-Identification
1 Introduction
2 Method
2.1 Overview
2.2 Attention-Aided Feature Pyramid Network
2.3 Temporal Enhancement Module
2.4 Loss Function
3 Experiments
3.1 Datasets
3.2 Evaluation Metrics
3.3 Implementation Details
3.4 Comparison with State-of-the-Art Methods
3.5 Ablation Study
3.6 Visualization
4 Conclusion
References
Enhancing LSTM and Fusing Articles of Law for Legal Text Summarization
1 Introduction
2 Related Work
3 Proposed Method
3.1 Sentence Encoder
3.2 Topic Model
3.3 Position Encoder
3.4 TS-LSTM Network
3.5 Law Article Processed
3.6 Sentence Classifier
3.7 Training
4 Experiment
4.1 Dataset
4.2 Baselines
4.3 Implementation Details
4.4 Results and Ablation Experiments
5 Conclusion
References
Text Spotting of Electrical Diagram Based on Improved PP-OCRv3
1 Introduction
2 Related Work
3 Methodology
3.1 Text Position Detection Based on DBNet and Region Re-segmentation
3.2 Text Feature Extraction Based on MobileNetv1 and Improved BiFPN
3.3 Text Recognition Based on SVTR and Character Re-identification
4 Experiments
4.1 Datasets and Settings
4.2 Comparison with Prior Methods
4.3 Ablation Study
5 Conclusion and Future Work
References
Topic-Aware Two-Layer Context-Enhanced Model for Chinese Discourse Parsing
1 Introduction
2 Related Work
3 Model
3.1 Transition System
3.2 Two-Layer Context-Enhanced Chinese Discourse Parser
3.3 Topic Segmentation Algorithm and Joint Learning Framework
3.4 Model Training
4 Experiments
4.1 Experimental Settings
4.2 Experimental Results and Analysis
4.3 Further Experiments on TCCDP
5 Conclusion
References
A Malicious Code Family Classification Method Based on RGB Images and Lightweight Model
1 Introduction
2 Related Works
3 Proposed Approach
3.1 Visualization Module
3.2 MVCBAM
4 Experimental Configuration and Evaluation Metrics
5 Experimental Results and Analysis
5.1 Dataset
5.2 Experiments on the BIG2015 Dataset
5.3 Experiments on the Malimg Dataset
6 Conclusions and Future Work
References
Research on Relation Extraction Based on BERT with Multifaceted Semantics
1 Introduction
2 Related Work
3 Methodology
3.1 Related Introduction
3.2 Model Architecture
4 Experiments
4.1 Introduction to the Dataset
4.2 Parameters Setting
4.3 Comparison with Other Methods
4.4 Ablation Studies
5 Conclusions
References
NMPose: Leveraging Normal Maps for 6D Pose Estimation
1 Introduction
2 Related Work
3 Method
3.1 The Benefits of Using Normals
3.2 Surface Normal Prediction
3.3 Rotation Recovery from Normal
4 Experiments
4.1 Experimental Setup
4.2 Ablation Study on LM
4.3 Comparison with State-of-the-Arts
4.4 Runtime Analysis
5 Conclusion and Discussion
References
BFTracker: A One-Shot Baseline Model with Fusion Similarity Algorithm Towards Real-Time Multi-object Tracking
1 Introduction
1.1 The One-Shot Baseline Model
1.2 Feature Conflict
1.3 Fusion Similarity Algorithm
2 Method
2.1 The One-Shot Baseline
2.2 Online Data Association
2.3 Fusion Similarity Algorithm
3 Experiments
3.1 Datasets and Metrics
3.2 Details of Implementation
3.3 Experiments for Ablation
3.4 Compared with SOTA MOT Methods
4 Conclusion and Future Works
References
Violence-MFAS: Audio-Visual Violence Detection Using Multimodal Fusion Architecture Search
1 Introduction
2 Related Work
2.1 Violence Detection
2.2 Neural Architecture Search
3 Method
3.1 Search Space
3.2 Search Algorithm
4 Experiments
4.1 Dataset and Evaluation Metric
4.2 Experimental Setup
4.3 Comparison with State-of-the-Arts
4.4 Ablation Studies
4.5 Visualizations of Prediction
5 Conclusion
References
DeepLink: Triplet Embedding and Spatio-Temporal Dynamics Learning of Link Representations for Travel Time Estimation
1 Introduction
2 Problem Definition
3 Methodology
3.1 Attribute Feature Learning
3.2 Triplet Embedding
3.3 Spatio-Temporal Dynamic Representation Learning
3.4 Multi-Task Learning
4 Experiments
4.1 Dataset
4.2 Experimental Settings
4.3 Evaluation Metrics
4.4 Baselines
4.5 Experimental Results
4.6 Ablation Study and Parameter Analysis
5 Conclusion
References
Reversible Data Hiding in Encrypted Images Based on Image Reprocessing and Polymorphic Compression
1 Introduction
2 Related Work
3 Proposed Method
3.1 Room Reservation
3.2 Image Encryption
3.3 Data Hiding in Encrypted Image
3.4 Data Extraction and Image Recovery
4 Experimental Results and Discussion
4.1 Experimental Environment
4.2 Embedded Performance Analysis
4.3 Security Analysis
5 Conclusion
References
All You See Is the Tip of the Iceberg: Distilling Latent Interactions Can Help You Find Treasures
1 Introduction
2 Related Work
3 Method
3.1 Task Formulation
3.2 Distilling Latent Interactions
4 Experiments
4.1 Experimental Settings
4.2 Performance Comparison
4.3 Ablation Study
4.4 Study of Parameter Sensibility
5 Conclusions and Future Work
References
TRFN: Triple-Receptive-Field Network for Regional-Texture and Holistic-Structure Image Inpainting
1 Introduction
2 Related Work
3 Methods
3.1 Network Architecture
3.2 Triple-Receptive-Field Module
3.3 Objective Loss Function
4 Experiments and Results
4.1 Results and Analysis
4.2 Ablation Study
4.3 Object Removal
5 Conclusion
References
PMFNet: A Progressive Multichannel Fusion Network for Multimodal Sentiment Analysis
1 Introduction
2 Related Work
2.1 Multimodal Fusion in MSA
2.2 Transformer
2.3 Multi-layer Perceptron
3 Methodology
3.1 Problem Definition
3.2 Unimodal Encoders
3.3 Asymmetric Progressive Fusion Coding
3.4 Symmetric Multichannel Fusion
3.5 Prediction
4 Experiments
4.1 Datasets and Metrics
4.2 Implementation Details
4.3 Baselines
4.4 Results
4.5 Ablation Study
4.6 Effect of Kernel Numbers
5 Conclusion
References
Category-Wise Meal Recommendation
1 Introduction
2 Problem Definition
3 Our Proposed Model
3.1 Category-Wise Heterogeneous Graphs Construction
3.2 Category-Wise Propagation
3.3 Category-Wise Interaction Prediction
3.4 Category-Wise Enhanced Training
4 Experiments
4.1 Datasets and Metrics
4.2 Baselines and Hyper-parameters Setting
4.3 Overall Performance
4.4 Ablation Study
5 Related Work
6 Conclusion and Future Work
References
A Data-Free Substitute Model Training Method for Textual Adversarial Attacks
1 Introduction
2 Related Works
3 Method
3.1 Attack Scenario
3.2 Adversarial Substitute Attacks
3.3 DaST-T
4 Experiments
4.1 Datasets
4.2 Baselines
4.3 Automatic Evaluation Metrics
4.4 Attacking Results
4.5 Ablations and Discussions
5 Conclusion
References
Detect Overlapping Community via Graph Neural Network and Topological Potential
1 Introduction
2 Preliminaries
2.1 Topological Potential
2.2 Bernoulli-Poisson Model
3 Proposed Model
3.1 Acquisition of Node Embeddings with Different Orders
3.2 Fusion of Node Embeddings with Different Orders
3.3 Division of Overlapping Communities
4 Experiments
4.1 Experimental Setup
4.2 Performance of Community Detection
4.3 Significance of Recovering Overlapping Scale
5 Conclusion
References
DeFusion: Aerial Image Matching Based on Fusion of Handcrafted and Deep Features
1 Introduction
2 Related Work
2.1 Image Matching
2.2 Using Handcrafted Features
2.3 Using Deep Features
2.4 Combining Handcrafted Features with Deep Features
3 Attitude-Oriented Image Preprocessing
4 Design and Improvement of the CAR-HyNet Network
4.1 CAR-HyNet Network Structure
4.2 CAR-HyNet Performance Evaluation
5 Decision Level Fusion for Image Matching
5.1 Extracting Handcrafted Features
5.2 Extracting Deep Features
5.3 Fine-Grained Decision Level Feature Fusion
5.4 Fine-Grained Decision Level Feature Fusion Evaluation
6 Experiments
6.1 Lab Setup and Datasets
6.2 Impact of NNDR Thresholds and Fusion Weights
6.3 Time Consumption Evaluation
6.4 Overall Performance Evaluation
7 Discussion and Future Work
8 Conclusion
References
Unsupervised Fabric Defect Detection Framework Based on Knowledge Distillation
1 Introduction
2 Related Work
2.1 Traditional Feature-Based Methods
2.2 Supervised-Based Methods
2.3 Semi-supervised-Based or Unsupervised-Based Methods
3 Framework
3.1 Fabric Classification Based on Knowledge Distillation
3.2 Defect Localization Based on Gaussian Statistical Analysis
4 Experiments
4.1 Datasets
4.2 Comparison Baselines
4.3 Implementation Details
4.4 Overall Comparison
4.5 Indepth Study
5 Conclusion
References
Data Protection and Privacy: Risks and Solutions in the Contentious Era of AI-Driven Ad Tech
1 Introduction
2 Context: Regulatory Frameworks and Philosophical Perspectives
3 Risks to Data Protection and Privacy Triggered by AI Ad Tech
3.1 Information Processing
3.2 Invasion
4 A Critical Approach to Mitigating the Risks
4.1 Conventional
4.2 Non-conventional
5 Concluding Remarks
References
Topic Modeling for Short Texts via Adaptive Plya Urn Dirichlet Multinomial Mixture
1 Introduction
2 Related Work
2.1 Global Word Co-occurrences Based Methods
2.2 Self-aggregation Based Methods
2.3 Dirichlet Multinomial Mixture Based Methods
3 APU-DMM
3.1 Topic-Word Correlation
3.2 Adaptive Plya Urn
3.3 Model Inference
4 Experiment
4.1 Experiment Setup
4.2 Evaluation
4.3 Result Analysis
4.4 Examples of Topic-Word Correlation
5 Conclusion
References
Informative Prompt Learning for Low-Shot Commonsense Question Answering via Fine-Grained Redundancy Reduction
1 Introduction
2 Related Work
2.1 Commonsense Question Answering
2.2 Redundancy in PLMs
3 Approach
3.1 Prompt-Based Framework
3.2 Fine-Grained Redundancy Reduction
3.3 Rethinking Fine-Grained Redundancy Reduction in an Information Theory View
4 Experimental Setup
4.1 Datasets
4.2 Baselines
4.3 Implementation Details
5 Experimental Analysis
5.1 Main Results
5.2 Further Analysis
6 Conclusions and Future Work
References
Rethinking Unsupervised Domain Adaptation for Nighttime Tracking
1 Introduction
2 Methods
2.1 Object Discovery Strategy
2.2 Mean Teacher with Low-Light Enhancement
2.3 Objective Functions
3 Experiments and Results
3.1 Datasets and Implementation Details
3.2 State-of-the-Art Comparisons
3.3 Illumination-Related Evaluation
3.4 Source Domain Evaluation
3.5 Ablation Study
4 Conclusion
References
A Bi-directional Optimization Network for De-obscured 3D High-Fidelity Face Reconstruction
1 Introduction
2 Method
2.1 Global and Local Bi-directional Network Optimization
2.2 Feature Pyramid U-Net: FPU-Net
2.3 Hair Shading Weakens Branches
2.4 Objective Function
3 Experiments
3.1 Datasets
3.2 Experimental Details
3.3 Evaluation Metrics
3.4 Results and Analysis
3.5 Ablation Study
3.6 Generalisation Experiments
4 Conclusion
References
Jointly Extractive and Abstractive Training Paradigm for Text Summarization
1 Introduction
2 Related Work
2.1 Extractive Summarization
2.2 Abstractive Summarization
3 Our Model
3.1 Abstractive Summarization
3.2 Extractive Summarization
3.3 Encoder Combination Method
3.4 Decoder Combination Method
3.5 Training Procedure
4 Experiments
4.1 Datasets
4.2 Baselines
4.3 Implementation Details
5 Result
5.1 Experimental Result
5.2 Informativeness Evaluation
5.3 Human Evaluation
5.4 Ablation Study
5.5 Case Study
6 Conclusion
References
A Three-Stage Framework for Event-Event Relation Extraction with Large Language Model
1 Introduction
2 Related Work
2.1 Automatic Chain of Thought Prompting
2.2 Extraction of Event and Event Relation
3 Methodology for Event-Event Relation Extraction
3.1 Challenge of Auto-CoT for Event-Event Relation Extraction
3.2 Framework for Event-Event Relation Extraction
3.3 Question Clustering and Selecting Optimal Sampling
3.4 Constructing Demo
4 Experiments
4.1 Datasets
4.2 Evaluation Metrics
4.3 Results
5 Ablation Study
6 Conclusion
References
MEFaceNets: Muti-scale Efficient CNNs for Real-Time Face Recognition on Embedded Devices
1 Introduction
2 Related Work
2.1 Face Recognition Loss Functions
2.2 Lightweight CNNs
2.3 Lightweight CNNs for Face Recognition
3 MEFaceNets
3.1 Motivation
3.2 MEBottleneck: An Muti-scale Efficient Bottleneck
3.3 MEFaceNet Architecture
4 Experiments
4.1 Data Set
4.2 Experimental Settings
4.3 Effection of Different Convolution Kernels in MEFaceNet
4.4 Effection of GELU
4.5 Model Evaluation
5 Conclusion
References
Optimal Low-Rank QR Decomposition with an Application on RP-TSOD
1 Introduction
2 Proposed OP-TSOD
2.1 Preliminary of Randomized QR Decomposition
2.2 Problem Analysis of RP-TSOD
2.3 Objective Function for OP-TSOD
2.4 Optimizing Projection Matrix
3 Experimental Results
3.1 Experimental Settings
3.2 Experimental Results on Synthetic Data
3.3 Experimental Results on Real Data
3.4 Time Complexity Analysis
4 Conclusion
References
EDDVPL: A Web Attribute Extraction Method with Prompt Learning
1 Introduction
2 Methodology
2.1 Problem Formulation
2.2 DOM-View Prompt Construction
2.3 Template-View Prompt Construction
2.4 Verbalizer Construction
2.5 Model Training and Inference
3 Experiments
3.1 Dataset
3.2 Evaluation Metrics
3.3 Implementation Details
3.4 Baseline Models
3.5 Overall Performance
3.6 Ablation Study
4 Related Work
4.1 Web Information Extraction
4.2 Prompt Learning
5 Conclusion
References
CACL:Commonsense-Aware Contrastive Learning for Knowledge Graph Completion
1 Introduction
2 Related Work
2.1 Reasoning About Commonsense Knowledge Graphs
2.2 Contrastive Learning
2.3 KGE Model
3 Methodology
3.1 Commonsense Knowledge Translator
3.2 Contrastive Learning
3.3 KGE Score Function
3.4 Commonsense Knowledge Generation
3.5 Train the Model
3.6 Link Prediction
4 Experiments and Results
4.1 Dataset
4.2 Experiment Settings
4.3 Automatic Metrics
4.4 Experiment Results
4.5 Ablation Study
4.6 Case Study
5 Conclusion
References
Graph Attention Hashing via Contrastive Learning for Unsupervised Cross-Modal Retrieval
1 Introduction
2 Method
2.1 Notation and Problem Definition
2.2 Network Architecture
2.3 Construction of Contrastive Adjacency Matrix
2.4 Loss Function
3 Experiments
3.1 Datasets
3.2 Baseline Methods and Evaluation Metrics
3.3 Implementation Details
3.4 Performance
3.5 Ablation Studies
4 Conclusion and Future Work
References
A Two-Stage Active Learning Algorithm for NLP Based on Feature Mixing
1 Introduction
2 Related Work
3 Methodology
3.1 Task Definition
3.2 System Overview
3.3 Two-Stage Acquisition Function
4 Experiment
4.1 Environment Setting
4.2 Dataset and Baselines
4.3 Results
4.4 Ablation Study
5 Conclusion
References
Botnet Detection Method Based on NSA and DRN
1 Introduction
2 Related Work
3 The Proposed Method
3.1 Improved Upsampling Method
3.2 Detection Model
4 Experimental
4.1 Dataset
4.2 Data Preprocessing
4.3 Sample Distribution
4.4 Experimental Results
4.5 Ablation Study
5 Conclusion
References
ASRCD: Adaptive Serial Relation-Based Model for Cognitive Diagnosis
1 Introduction
2 Related Works
3 ASRCD Model
3.1 Task Overview
3.2 Model Description
4 Experiments
4.1 Datasets
4.2 Experiment Settings
4.3 Baseline Performance Comparison
4.4 Ablation Experiment
5 Discussions
5.1 CSRG Analysis
5.2 Case Study
6 Conclusion
References
PyraBiNet: A Hybrid Semantic Segmentation Network Combining PVT and BiSeNet for Deformable Objects in Indoor Environments
1 Introduction
2 Related Work
2.1 Convolutional Neural Networks (CNNs)
2.2 Vision Transformers (ViTs)
2.3 Hybrids of CNNs and ViTs
3 Approach
4 Experiments
4.1 Semantic Segmentation on ADE20K and DOS
4.2 Ablation Study
5 Conclusion
References
Classification of Hard and Soft Wheat Species Using Hyperspectral Imaging and Machine Learning Models
1 Introduction
2 Materials and Methods
2.1 Data Collection
2.2 Hyperspectral Image Acquisition
3 Proposed Methodology
3.1 Image Preprocessing and Mean Spectra Extraction
3.2 Model Development
4 Results and Discussion
5 Conclusion and Future Work
References
Mitigation of Voltage Violation for Battery Fast Charging Based on Data-Driven Optimization
1 Introduction
2 Lithium-Ion Battery Model
2.1 DFN Model
3 Multi-objective Fast-Charging Strategy
3.1 Markov Decision Process Formulation
3.2 Multi-objective Reinforcement Learning Algorithm
4 Simulation Results
5 Conclusion
References
Author Index