Theo kế hoạch hàng tháng của Trường Công nghệ Thông tin và Truyền thông, Đại học Bách khoa Hà Nội, Nhà trường tổ chức seminar khoa học tháng 2 năm 2024 vào ngày 27/02. Buổi seminar có sự tham dự của hơn 40 giảng viên, nghiên cứu sinh, học viên cao học trực tiếp tại Trường cùng nhiều người tham dự online qua Zoom. Bên cạnh đó, buổi seminar cũng được phát livestream trực tuyến trên Fanpage cùa Trường Công nghệ Thông tin và Truyền thông.
Buổi seminar có sự góp mặt của GS. Peter Peer, Trưởng phòng thí nghiệm Computer Vision, Đại học Ljubljana với bài trình bày “Sinh trắc học dựa trên hình ảnh: hiện tại và tương lai” (Image-based Biometrics: Today and Tomorrow)
Bài thuyết trình giới thiệu các thông tin cơ bản về sinh trắc học, phương thức hoạt động. Ngoài ra, các vấn đề của các hệ thống sinh trắc học như việc trích xuất các loại thông tin đa dạng, hiệu quả của các đặc trưng và cách thức vận dụng chúng trong các ứng dụng thực tiễn cũng được trình bày. Đặc biệt, bài thuyết trình cũng giới thiệu những công nghệ sinh trắc học đã được triển khai và những công nghệ chưa được triển khai cùng với lý do đằng sau đó.
Sau bài trình bày của GS. Peter Peer, TS. Nguyễn Thị Thu Trang, GV Trường CNTT&TT đã mang đến buổi seminar bài trình bày “Tác động của thanh điệu và ngữ điệu đối với xử lý ngôn ngữ nói tiếng Việt” (How do tones and pitch impact Vietnamese spoken language processing?)
Bài trình bày giới thiệu một cơ chế để biểu diễn các thanh điệu trên các âm vị tiếng Việt và mô hình hóa các đặc trưng về ngữ điệu và các đặc điểm về âm học, ngữ âm và ngôn ngữ học cho một số các bài toán xử lý ngôn ngữ nói tiếng Việt đáng chú ý như tổng hợp tiếng nói (TTS), nhận dạng tiếng nói (ASR), hiểu ngôn ngữ nói (SLU), nhận dạng cảm xúc trong tiếng nói (SER), phát hiện và chuẩn đoán lỗi sai trong phát âm (MD&D). Tiếng Việt là một ngôn ngữ có thanh điệu, trong đó các thanh điệu khác nhau trên một cấu trúc âm tiết có thể tạo ra các từ có ý nghĩa khác nhau. Ví dụ, từ “ma” khi mang các thanh điệu ngang, huyền, hỏi, ngã, sắc, nặng tạo thành các từ có ý nghĩa khác nhau (ma, mà, mả, mã, má, mạ). Đặc điểm này mang lại những đặc trưng và những thách thức riêng cho tiếng trong các bài toán xử lý ngôn ngữ nói tiếng Việt.
TS. Trang đã đề xuất một số mô hình có kết quả tốt hơn các kiến trúc tiên tiến hiện có, tăng F1-score khoảng 3% đến 12% trên tiếng Việt và một số ngôn ngữ có ngữ điệu khác. Bên cạnh đó, nhóm nghiên cứu của TS. cũng đã xây dựng và công bố các bộ dữ liệu về tiếng nói cho cộng đồng nghiên cứu. Các bộ dữ liệu này được thiết kế đặc biệt để phục vụ cho các bài toán xử lý ngôn ngữ nói tiếng Việt khác nhau, bao gồm nhưng không giới hạn trong SLU, MD&D và nhận dạng người nói.
Buổi seminar thu hút sự quan tâm của nhiều học giả và các nhà khoa học. Các vấn đề trọng điểm như nhận dạng bằng sinh trắc học, hay bằng giọng nói là những vấn đề được nhiều người quan tâm và thảo luận tại buổi seminar. Đây cũng là các bài toán quan trọng, có ý nghĩa trong bối cảnh chuyển đổi số của xã hội như quản lý thông tin cá nhân, dữ liệu dân cư…
Chia sẻ với Nhà trường, GS. Peter Peer cho rằng hoạt động seminar khoa học kết hợp ăn trưa là một ý tưởng vô cùng thú vị, là một trải nghiệm rất đặc biệt đối với GS. GS. hy vọng sẽ tiếp tục được hợp tác với Trường CNTT&TT trong các hoạt động nghiên cứu, hội thảo sau này.