Để chia sẻ các kết quả nghiên cứu, tăng cường giao lưu, kết nối giữa các nhóm, Trường CNTT&TT tổ chức seminar định kỳ hàng tháng. Seminar tháng 2 sẽ được tổ chức vào 11.30-12.30 ngày thứ 3, 27/2/2024.
Buổi seminar sẽ được livestream trên Fanpage của Trường CNTT&TT
Thông tin bài trình bày.
Người trình bày 1: GS. Peter Peer (Head of the Computer Vision Laboratory, University of Ljubljana)
Tiêu đề: Sinh trắc học dựa trên hình ảnh: hiện tại và tương lai (Image-based Biometrics: Today and Tomorrow)
Tóm tắt: Bài thuyết trình giới thiệu các thông tin cơ bản về sinh trắc học, phương thức hoạt động. Ngoài ra, các vấn đề của các hệ thống sinh trắc học như việc trích xuất các loại thông tin đa dạng, hiệu quả của các đặc trưng và cách thức vận dụng chúng trong các ứng dụng thực tiễn cũng được trình bày. Đặc biệt, bài thuyết trình cũng giới thiệu những công nghệ sinh trắc học đã được triển khai và những công nghệ chưa được triển khai cùng với lý do đằng sau đó.
Abstract: This talk introduces basic information about biometrics and how it works. In addition, issues of biometric systems such as extracting diverse types of information, the effectiveness of features and how to apply them in practical applications are also presented. In particular, this talk also presents biometric technologies that have been deployed and those that have not been deployed along with the reasons behind them.
Người trình bày 2: TS. Nguyễn Thị Thu Trang (Trường CNTT&TT)
Tiêu đề: Tác động của thanh điệu và ngữ điệu đối với xử lý ngôn ngữ nói tiếng Việt (How do tones and pitch impact Vietnamese spoken language processing?)
Tóm tắt: Tiếng Việt là một ngôn ngữ có thanh điệu, trong đó các thanh điệu khác nhau trên một cấu trúc âm tiết có thể tạo ra các từ có ý nghĩa khác nhau. Ví dụ, từ “ma” khi mang các thanh điệu ngang, huyền, hỏi, ngã, sắc, nặng tạo thành các từ có ý nghĩa khác nhau (ma, mà, mả, mã, má, mạ). Đặc điểm này mang lại những đặc trưng và những thách thức riêng cho tiếng trong các bài toán xử lý ngôn ngữ nói tiếng Việt. Bài trình bày giới thiệu một cơ chế để biểu diễn các thanh điệu trên các âm vị tiếng Việt và mô hình hóa các đặc trưng về ngữ điệu và các đặc điểm về âm học, ngữ âm và ngôn ngữ học cho một số các bài toán xử lý ngôn ngữ nói tiếng Việt đáng chú ý như tổng hợp tiếng nói (TTS), nhận dạng tiếng nói (ASR), hiểu ngôn ngữ nói (SLU), nhận dạng cảm xúc trong tiếng nói (SER), phát hiện và chuẩn đoán lỗi sai trong phát âm (MD&D). Các mô hình đề xuất cho các kết quả tốt hơn các kiến trúc tiên tiến hiện có, tăng F1-score khoảng 3% đến 12% trên tiếng Việt và một số ngôn ngữ có ngữ điệu khác. Bên cạnh đó, chúng tôi cũng đã xây dựng và công bố các bộ dữ liệu về tiếng nói cho cộng đồng nghiên cứu. Các bộ dữ liệu này được thiết kế đặc biệt để phục vụ cho các bài toán xử lý ngôn ngữ nói tiếng Việt khác nhau, bao gồm nhưng không giới hạn trong SLU, MD&D và nhận dạng người nói.
Abstract: Vietnamese is a tonal language in which different tones, when applied to the same syllabic structure, can yield different meanings. For example, the word “ma” can mean “ghost”, “mother”, “which”, “young rice plant”, “tomb”, or “horse”, depending on the tone. This characteristic introduces some challenges in Vietnamese spoken language processing. This work presents a novel mechanism to represent phonemes with tones, and to model pitch features alongside acoustic, phonetic, and linguistic ones for a range of significant Vietnamese spoken language processing tasks. These tasks include Text-To-Speech (TTS), Automatic Speech Recognition (ASR), Spoken Language Understanding (SLU), Speech Emotion Recognition (SER), and Mispronunciation Detection and Diagnosis (MD&D). Our proposed models consistently outperform existing state-of-the-art architectures, showing an approximate 3% to 12% increase in F1-score across both Vietnamese and other tonal languages. Furthermore, due to the limited resources of the Vietnamese language, we have also developed and released publicly speech datasets. These datasets are specifically designed to serve as benchmarks for various Vietnamese spoken language processing tasks, including but not limited to SLU, MD&D, and speaker recognition.