导师简介-吴晓雨

作者：发布时间：2026-04-20

姓名：吴晓雨

职称 / 硕（博）导：教授 / 博导、硕导

博士招生专业：信息与通信工程

学硕招生专业 / 方向：信息与通信工程 / 智能视频处理

专硕招生专业 / 方向：人工智能 / 智能视听技术

主要研究领域：计算机视觉、智能视频分析、多模态学习

电子邮箱Email：wuxiaoyu@cuc.edu.cn

个人简介

博士、教授、博士生导师，现任信息与通信工程学院人工智能系主任，媒体融合与传播国家重点实验室智能视音频团队成员。2009年于中国科学院自动化研究所获工学博士学位，同年7月起任职于中国传媒大学。2018年10月至2019年10月在美国北卡罗来纳州立大学进行访问学者研究。

长期深耕图于计算机视觉与人工智能领域的研究，重点聚焦图像与视频智能分析、多模态学习及跨模态检索等技术方向，并积极推动视频理解技术在广电、传媒与文化科技等领域的应用。主持/参与国家自然科学基金等科研项目45项，发表包括TIP、ICLR、ACM MM、EAAI等高水平期刊/会议学术论文100余篇；授权发明专利19项、软件著作权22项，出版学术著作2部，获学术奖项3项。

主讲课程包括机器学习、深度学习与神经网络、数字图像处理、智能视频分析等。曾获全国高校电子信息类专业课程实验案例设计竞赛二等奖、北京市高校第十一届青年教师教学基本功比赛优秀奖、中国电影电视技术学会影视科技优秀论文一等奖等奖项。指导学生多次获国内外学科竞赛奖项，包括ICCV 2025中长视频故事级描述算法竞赛第一名、全国大学生计算机应用能力与信息素养大赛人工智能技术与应用赛项（本科组）一等奖，以及中国“互联网+”大学生创新创业大赛北京市三等奖等；并曾两度获评“北京市普通高校优秀本科毕业设计（论文）优秀指导教师”。

承担的主要科研项目

[1] 校级科研课题，动态异常定义引导的开放世界视频异常检测，2025.05-至今

[2] 校级科研课题，面向舆论场热点事件的多模态社会理解技术研究，2025.05-至今

[3] 广电总局中长期计划项目，基于多模型多算法的视听内容后期制作智能化流程研究与应用，参与，2024.08-2025.08.

[4] 国家重点研发计划子课题，2021YFF0900701-3，基于镜头语言分析的机位计算技术，2021.11-2024.11，主持.

[5] 国家重点研发计划课题，云演艺沉浸式体验关键技术与系统研发，2021.11-2024.11，参与.

[6] 横向课题(来源于清华大学)，视频语义描述算法模型改进测试与数据加工技术，2023.11-2024.06.主持.

[7] 国家自然科学基金青年科学基金项目， 61801441，基于音视频特征多任务学习的暴力视频检测方法研究， 2019-01-01 至 2021-12-31，主持

[8] 横向课题(来源于清华大学)，跨媒体样本增强与数据集构建，2020.06-2020.12，主持

[9] 校级科研课题，多模态媒体内容智能监测技术研究，2019.11-2020.11，主持

[10] 国家科技支撑计划子课题， 2015BAK22B02-03，基于图像识别的智能终端线上线下融合技术研究，2015.11-2017.12，主持.

[11] 国家科技支撑计划子课题，数字文化资源公益服务与商业运营并行互惠运行模式研究国家科技支撑课题， 2012BAH01F01-01，主持.

[12] 国家科技支撑计划课题，2014BAH10F02-01，云计算环境下的流媒体服务管控技术研究及体系研制，已结题，参与.

代表性学术成果

（一）近5年代表性学术论文：

[1] ZihaoLiu(学生), XiaoyuWu, JianqinWu, XuxuWang, LinlinYang.Language-guided Open-world Video Anomaly Detection under WeakSupervision[C]. InternationalConferenceonLearningRepresentations(ICLR), 2026.(CCF-A会议)

[2] Jianqin Wu(学生),Xiaoyu Wu, Zihao liu.Define-to-Detect: Towards Robust and Generalizable Text-Guided Open-World VAD[C].IEEE International Conference on Multimedia and Expo (ICME),2026.(CCF-B会议)

[3] Zhenpeng Zeng(学生), Xiaoyu Wu,et al. TCRS-QA: Training-Free Chain-of-Thought Reasoning for Shot-Aware Storyline Question Answering in Long-Form Videos[C].International Conference on Multimedia Retrieval(ICMR),2026.(CCF-B会议)

[4] JianqinWu(学生), XiaoyuWu, JiayaoQian. Representation Enhancementand Hierarchical Semantic Alignment for Text-video Retrieval[J]. Engineering Applications of Artiϧcial Intelligence,2025.(SCI，中科院一区）

[5] XuXuWang(学生), XiaoyuWu, ZihaoLiu.Enhancing Video Anomaly Understanding via Multi-Task Instruction Tuning. IEEE Signal Processing Letters, 2025(SCI期刊)

[6] Cong Jin,Meixiu Lin,Fengjuan Wu,Xiaoyu Wu,et al. TVMTrailer: A Text-Video-MusicAIGC Framework for Film Trailer Generation[J]. IEEE Transactions on Systems Man and Cybernetics-Systems(SCI，中科院一区,通讯一作)

[7] YuJiangPu(学生), XiaoyuWu,LuLuYang,ShengjinWang. Learning Prompt-Enhanced

Context Features for Weakly-Supervised Video Anomaly Detection[J]. IEEE Transactions on Image Processing (T-IP). 2024. (中科院一区，SCI期刊)

[8] ZihaoLiu(学生), XiaoyuWu. ShengjinWang. Adaptively Buildinga Video-language Model for Video Captioning and Retrieval without Massive Video Pretraining[C]. ACM Multimedia Conference 2024.(CCF-A 会议)

[9] ZihaoLiu(学生), XiaoyuWu. ShengjinWang. Violent Video Recognition Based on Global-Local Visual and Audio Contrastive Learning[J]. IEEE Signal Processing Letters.2024.(SCI期刊)

[10] Xiaoyu Wu, Jiayao Qian, Lulu Yang. MGSGA: Multi-grained and Semantic-Guided Alignment forText-Video Retrieval[J]. Neural Processing Letters.2024(56):1-24.(SCI期刊)

[11] 吴晓雨，蒲禹江，王生进. 基于语义嵌入学习的特类视频识别[J].电子学报.2023(11):3225-3237.(EI期刊)

[12] Xiaoyu Wu, Jiayao Qian, Tiantian Wang. Text-video retrieval method based on enhanced self-attention and multi-task learning[J]. Multimedia Tools and Applications, 2023(82): 24387 -24406.(SCI期刊)

[13] YujiangPu(学生), XiaoyuWu,ShengjinWang.Semantic Multimodal Violence Detection Based on Local-to-global Embedding[J]. Neurocomputing. 2022(514):148-161.(SCI期刊)

[14] YouweiLu(学生), XiaoyuWu. Video story telling based on gated video memorability filtering[J]. Electronics Letters,2022(58):576-578. (SCI期刊)

[15] YujiangPu(学生), XiaoyuWu. Locality-Awar eAttention Network with Discriminative Dynamics Learning for Weakly Supervised Anomaly Detection[C]. International Conference on Multimedia and Expo(ICME) 2022:1-6.(CCF-B 会议)

[16] Zihao Liu(学生), Xiaoyu Wu.Multi-Task Video Captioning with a Stepwise Multimodal Encoder[J].Electronics,2022,11(57):1-17.(SCI期刊)

[17] Xiaoyu Wu,Tiantian Wang, Lei Yang.Cross-Modal Learning Based on Semantic Correlation and Multi-Task Learning forText-Video Retrieval[J].Electronics, 2020,9(12):1-16.(SCI期刊）

[18] 吴晓雨，顾超男，王生进. 多模态特征融合与多任务学习的特种视频分类[J]. 光学精密工程。2020(28):1177-1186.(EI期刊)

（二）发明专利：

[1] 吴晓雨，尚仪萌等. 优化方法、识别方法、优化装置、识别装置、设备和介质，已授权， ZL 20231 0849178.2，2026年01月23日.

[2] 吴晓雨，卢友伟，刘子豪等. 视频记忆性预测方法、装置、设备和存储介质,已授权，ZL 20221 0829630.4，2026年01月27 日.

[3] 吴晓雨，金立标，邱驹成. 一种虚拟相机位姿调整方法、系统以及计算机程序产品，已授权，ZL 202411014647.X，2025年9月26 日.

[4] 吴晓雨，侯聪聪，杨磊. 基于注意力机制的双模态任务学习的暴力视频识别方法, 发明专利，已授权，ZL20201 0645107.7，2024年7月12日.

[5] 吴晓雨，张峰，岳秋睿.一种暴力视频分类方法、系统和存储介质, 发明专利，已授权，ZL 20201 0739026.3，2024年3月12日.

[6] 吴晓雨，郭天楚，杨磊等.构建及训练人脸识别特征提取网络的方法，已授权，ZL 201610976349.8，2020年9月4日.

[7] 吴晓雨，杨磊，朱贝贝，朱若琳. 基于分步识别和融合关键部位检测的色情图像识别方法，已授权，ZL 201710465377.8，2020年7月7日.

[8] 吴晓雨，杨成，谭笑等.基于深度层级特征融合的中国传统视觉文化符号识别方法，已授权，ZL 201610976349.8，2020年4月7日.

[9] 王彩虹，吴晓雨，张亚娜.一种面向舞蹈场景的智能导播系统，已授权，ZL 202411567344.0，2025年10月31 日.

[10] 金立标，贾博舒，吴晓雨，王兵，郭永康.一种虚拟相机位姿调整方法、系统以及计算机程序产品，已授权，ZL 20241 0298013.5，2025年11月4日.