Để chia sẻ các kết quả nghiên cứu, tăng cường giao lưu, kết nối giữa các nhóm, Trường CNTT&TT tổ chức seminar định kỳ hàng tháng.
Seminar tháng 12 sẽ được tổ chức vào 11.30-12.30 ngày thứ hai, 06/01/2025
Thông tin bài trình bày
Understand and Reconstruct Multimodal Egocentric Scenes
Hiểu và khôi phục khung cảnh góc nhìn thứ nhất đa phương thức
Abstract
Every day, the world generates numerous egocentric videos from mixed/augmented reality, lifelogging, and robotics. These videos are like humans looking at the world from an ego perspective, hence the name, egocentric videos. Understanding these videos and reconstructing egocentric scenes are essential to future AI applications. In this talk, I will first introduce two recent methods developed by my group on leveraging large language models (LLMs) to understand multimodal third-person and egocentric videos. These methods show incredible generalizability over traditional task-specific computer vision models. Following that, I will introduce methods leading to real-world audio-visual scene synthesis.
Hàng ngày, thế giới tạo ra vô số video góc nhìn thứ nhất từ các công nghệ thực tế hỗn hợp, ghi nhật ký cuộc sống và robot. Những video này giống như con người nhìn thế giới từ góc nhìn của chính mình, được gọi là video góc nhìn thứ nhất. Việc hiểu và khôi phục các cảnh góc nhìn thứ nhất là rất quan trọng đối với các ứng dụng AI trong tương lai. Bài trình bày sẽ giới thiệu hai phương pháp phát triển gần đây, sử dụng các mô hình ngôn ngữ lớn (LLMs) để hiểu video đa phương thức từ góc nhìn của người thứ ba và video góc nhìn thứ nhất. Các phương pháp này cho thấy khả năng tổng quát đáng kinh ngạc so với các mô hình thị giác máy chuyên biệt theo nhiệm vụ truyền thống. Các phương pháp tổng hợp cảnh âm thanh-hình ảnh trong thế giới thực cũng được trình bày.
Chenliang Xu
Prof.
University of Rochester
United States
Bio
Prof. Chenliang Xu an Associate Professor in the Department of Computer Science at the University of Rochester and an affiliated faculty member of the Goergen Institute for Data Science and Artificial Intelligence (GIDS-AI). His research originates in computer vision and tackles interdisciplinary topics, including video understanding, audio-visual learning, vision and language, and methods for trustworthy AI. Prof. Chenliang Xu received my Ph.D. in Computer Science at the University of Michigan, Ann Arbor, in 2016.
Đăng ký tham dự