Computer Vision · Multimodal Learning

Chengming Xu

Senior Researcher at Youtu Lab, Tencent · Ph.D. in Data Science, Fudan University

I work on deep learning for computer vision with limited supervision, with recent interests in visual in-context learning, multimodal reasoning, and controllable generation.

Research interests: few-shot learning, visual in-context learning, vision-language models, and video generation/editing.

Email Google Scholar GitHub Full Publications

Selected Recent Works

View full list →

* Equal contribution / core contributor. † Corresponding author.

JAVEDIT: Joint Audio-Visual Instruction-Guided Video Editing with Agentic Data Curation

Yinan Chen*, Chuming Lin*, Xijie Huang, Chengming Xu, et al.

arXiv preprint, 2026

Paper Project Code

PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

Haojun Chen*, Haoyang He*, Chengming Xu*, et al.

arXiv preprint, 2026

Paper Project

What Semantics Survive the Connector? Diagnosing VLM-to-DiT Alignment in Video Editing

Hangyu Lin*, Chao Wen*, Chengming Xu†, Jianxiong Gao, et al.

arXiv preprint, 2026

Paper

Dual Latent Memory for Visual Multi-agent System

Xinlei Yu, Chengming Xu, Zhangquan Chen, et al.

ICML 2026

Paper Code

FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

Xijie Huang*, Chengming Xu*, Donghao Luo, et al.

CVPR 2026

Paper Project

VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

Xinlei Yu, Chengming Xu, Guibin Zhang, et al.

CVPR 2026

Paper Code

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow

Xinlei Yu, Chengming Xu, Guibin Zhang, et al.

ICLR 2026

Paper Code

Towards Reliable and Holistic Visual In-Context Learning Prompt Selection

Wenxiao Wu, Jing-Hao Xue, Chengming Xu†, et al.

NeurIPS 2025

Paper Code