Để chia sẻ các kết quả nghiên cứu, tăng cường giao lưu, kết nối giữa các nhóm, Trường CNTT&TT tổ chức seminar định kỳ hàng tháng.
Seminar tháng 6/2025 sẽ được tổ chức vào 11.30-12.30 ngày thứ năm, 05/06/2025
Thông tin bài trình bày
CoT2Align: Chắt lọc tri thức từ mô hình ngôn ngữ lớn khác bộ từ vựng
Abstract
Các mô hình ngôn ngữ lớn (LLMs) đạt hiệu năng hàng đầu trong nhiều tác vụ xử lý ngôn ngữ tự nhiên, nhưng gặp thách thức khi triển khai do chi phí tính toán cao và giới hạn về bộ nhớ. Chắt lọc tri thức (Knowledge Distillation – KD) là một giải pháp đầy hứa hẹn, cho phép chuyển giao kiến thức từ mô hình lớn (teacher) sang mô hình nhỏ hơn (student). Tuy nhiên, các phương pháp KD hiện tại thường giả định rằng teacher và student dùng chung bộ từ vựng và bộ tách từ (tokenizer), điều này làm hạn chế tính linh hoạt của phương pháp. Một số nghiên cứu đã đề cập đến sự không khớp về từ vựng, nhưng lại bỏ qua yếu tố quan trọng là khả năng suy luận trong quá trình rút trích kiến thức. Để khắc phục khoảng trống này, chúng tôi đề xuất CoT2Align — một khung KD phổ quát kết hợp giữa tăng cường lập chuỗi suy nghĩ (Chain-of-Thought – CoT) và cơ chế căn chỉnh xuyên CoT (Cross-CoT Alignment) nhằm nâng cao hiệu quả chuyển giao khả năng suy luận. Bên cạnh đó, chúng tôi mở rộng phương pháp vận chuyển tối ưu (Optimal Transport) vượt ra khỏi căn chỉnh theo từng token, tiến tới căn chỉnh theo cấp độ chuỗi (sequence-level) và từng tầng mạng (layer-wise), cho phép thích ứng với độ dài chuỗi khác nhau mà vẫn giữ được tính toàn vẹn ngữ cảnh. Các thực nghiệm toàn diện cho thấy CoT2Align vượt trội so với các phương pháp KD hiện có trong các thiết lập bộ từ
Ngo Van Linh
Ph.D.
Trường Công nghệ Thông tin và Truyền thông
Đại học Bách khoa Hà Nội
Bio
TS. Ngô Văn Linh là giảng viên trường Công nghệ thông tin và Truyền thông, Đại học Bách khoa Hà Nội. TS. Linh là thành viên nhóm học máy, BKAI. Hướng nghiên cứu chính của TS. tập trung vào các chủ để topic models, online learning, continual learning, recommender systems, and natural language processing. Một số nghiên cứu của TS. Linh và nhóm đã được công bố tại hội nghị (AAAI, ACML, PAKDD, ACL, EMNLP, Coling) và tạp chí (MLj, TKDE, Neurocomputing, KAIS) uy tín.
Từ biến thể di truyền đến y học chính xác: Dự án 1000 hệ gen người Việt
Abstract
Nghiên cứu về hệ gen đang phát triển nhanh chóng giúp tăng cường sự hiểu biết của chúng ta về sức khỏe và bệnh tật. Nền tảng di truyền đóng vai trò quan trọng trong khả năng mắc bệnh, phản ứng với thuốc điều trị và sức khỏe của con người. Các dự án hệ gen người trên thế giới đã là công cụ then chốt trong việc khám phá đa dạng sin học của con người và mở đường cho y học chính xác. Dự án 1000 hệ gen người Việt (1KVG) là một cột mốc quan trọng trong nỗ lực này. Dự án tập trung giải trình tự toàn bộ hệ gen của 1.000 cá nhân thuộc nhóm dân tộc Kinh, từ đó xây dựng được một cơ sở dữ liệu các biến thể di truyền cho người Việt.
Các mục tiêu chính của dự án 1KVG là thiết lập các bảng tham chiếu toàn diện cho các nghiên cứu về gen như làm nền tảng cho các nghiên cứu tương quan trên toàn hệ gen, các nghiên cứu về dược lý gen, và các bệnh di truyền. Cùng với đó, các dự án về các loại thuốc cụ thể như carbamazepine và nevirapine, cũng như các bệnh di truyền như tiểu đường và bệnh tim mạch, sẽ hỗ trợ thêm việc phát triển các xét nghiệm di truyền để dự đoán các phản ứng có hại của thuốc và đánh giá nguy cơ bệnh.
Sáng kiến đột phá này hứa hẹn sẽ cải thiện đáng kể các phương pháp y học chính xác theo đặc trưng gen của người Việt.
Le Duc Hau
Assoc.Prof.
Trường Công nghệ Thông tin và Truyền thông
Đại học Bách khoa Hà Nội
Bio
PGS. TS. Lê Đức Hậu nhận bằng Tiến sĩ về Tin sinh học từ Đại học Ulsan, Hàn Quốc vào năm 2012. Hiện ông đang là Trưởng phòng thí nghiệm Tin sinh học, Trung tâm BK.AI, Trường Công nghệ Thông tin và Truyền thông, Đại học Bách khoa Hà Nội, Việt Nam. Các nghiên cứu của ông tập trung vào việc đề xuất các phương pháp tính toán cho các vấn đề liên quan đến bệnh tật và thuốc trong y học cá thể và khám phá thuốc, đặc biệt là xác định các dấu ấn sinh học liên quan đến bệnh, và dự đoán mục tiêu thuốc cũng như đáp ứng thuốc. Song song đó, ông đã phát triển các công cụ tin sinh học cho cộng đồng nghiên cứu và ứng dụng y sinh. Cho đến nay, ông đã xuất bản hơn sáu mươi bài báo trên các tạp chí và hội nghị uy tín, phần lớn trong số đó là các tạp chí trong danh mục ISI. Ngoài ra, ông là thành viên ban chương trình và là người phản biện cho các hội nghị/tạp chí quốc tế uy tín. Hơn nữa, ông là chủ nhiệm và là thành viên chủ chốt của nhiều đề tài và dự án cấp quốc gia/bộ. Đặc biệt, ông là chủ nhiệm của dự án về hệ gen lớn nhất tại Việt Nam (Xây dựng cơ sở dữ liệu hệ biến thể di truyền cho quần thể người Việt, https://genome.vinbigdata.org).
Đăng ký tham dự