PTN Khoa học dữ liệu – DSLab

PTN Khoa học dữ liệu – DSLab

1. Thông tin chung

  • Tên tiếng việt: Phòng thí nghiệm Khoa học dữ liệu
  • Tên tiếng Anh: Data Science Laboratory (DSLab)
  • Trưởng phòng thí nghiệm: PGS. TS. Thân Quang Khoát
  • Địa chỉ:  Phòng 1002, Nhà B1, trường Đại học Bách khoa Hà Nội
  • Website: http://ds.soict.hust.edu.vn

2. Giới thiệu phòng thí nghiệm

Phòng nghiên cứu về Khoa học dữ liệu (DSLab) được thành lập và đi vào hoạt động từ năm 2015. Mục tiêu chính của DSLab là: (1) Đẩy mạnh các nghiên cứu chất lượng cao (đạt trình độ quốc tế) về lĩnh vực Khoa học dữ liệu, (2) Tích cực hợp tác với doanh nghiệp để tạo ra những sản phẩm hoặc dịch vụ thông minh, (3) Đào tạo những kỹ sư và nhà khoa học dữ liệu, đáp ứng thị trường ở Việt Nam và quốc tế.

Hiện tại DSLab có hơn 10 nhà nghiên cứu chính, và hơn 50 sinh viên giỏi tham gia. Các thành viên làm việc theo các nhóm chuyên môn, bao gồm: Dữ liệu lớn (Big Data), Học sâu (Deep Learning), Học máy (Machine Learning), Khai phá dữ liệu (Data Mining), Mạng vạn vật (Internet of Things), Thị giác máy tính (Computer Vision), Truy hồi thông tin (Information Retrieval), Xử lý ngôn ngữ tự nhiên (Natural Language Processing).

DSLab là nơi hỗ trợ giảng viên viện CNTT-TT, sinh viên, và các đối tác thực hiện các nghiên cứu cơ bản và ứng dụng. Các nghiên cứu của DSLab đã và đang được tài trợ bởi nhiều nguồn phong phú, chẳng hạn AFOSR (Mỹ), ONRG (Mỹ), NAFOSTED, VINIF SAMSUNG, các doanh nghiệp, …

Hiện nay DSLab đang tích cực hợp tác với nhiều đơn đơn vị trong và ngoài nước, chẳng hạn: Kyoto University (Japan), National Institute of Informatics (NII), University of Trento (Italy), University of California, Davis, (USA), University of Oregon (USA), Japan Advanced Institute of Science and Technology (Japan), La Rochelle University (France), Đại học Quốc Gia Hà Nội, Đại học Việt-Pháp (USTH), VinAI, …

3. Các lĩnh vực nghiên cứu chính (Research areas):

  • Dữ liệu lớn (Big Data)
  • Khoa học dữ liệu (Data Science)
  • Trí tuệ nhân tạo (Artificial Intelligence)

4. Các chủ đề nghiên cứu đang quan tâm (Research Interests)

  • Dữ liệu lớn (Big Data)
  • Học sâu (Deep Learning)
  • Học máy (Machine Learning)
  • Khai phá dữ liệu (Data Mining)
  • Mạng vạn vật (Internet of Things)
  • Thị giác máy tính (Computer Vision)
  • Truy hồi thông tin (Information Retrieval)
  • Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

Các dự án/đề tài NCKH tiêu biểu (trong 5 năm trở lại đây):

1. VINIF (2019-2022):

  • Director: Khoat Than
  • Funding agency: Vingroup Innovation Foundation
  • Project title: Human knowledge in Machine Learning models for big and streaming data

2. VINIF (2019-2021):

  • Director: Nguyen Binh Minh
  • Funding agency: Vingroup Innovation Foundation
  • Project title: V-Chain: a blockchain-based platform for development and deployment of decentralized applications

3. NAFOSTED (2020-2022):

  • Director: Pham Van Hai
  • Funding agency: National Foundation for Science and Technology Development, Vietnam
  • Project title: Study to integrate knowledge graph and deep learning into some decision support systems

4. ONRG (2018-2020):

  • Director: Khoat Than
  • Funding agency: National Foundation for Science and Technology Development, Vietnam
  • Project title: Study to integrate knowledge graph and deep learning into some decision support systems

5. ONRG (2018-2020):

  • Director: Khoat Than
  • Funding agency: US Office of Naval Research Global, and US Air Force Office of Scientific Research
  • Project title: Learning an effective representation for the hidden semantics

6. MOET (2017-2018):

  • Director: Nguyen Binh Minh
  • Funding agency: Ministry of Education and Training, Vietnam
  • Project title: Study to build novel frameworks connecting IoT gateway for fox computing

7. SAMSUNG (2016):

  • Director: Nguyen Kiem Hieu
  • Funding agency: Samsung Vietnam Mobile R&D Center
  • Project title: Neural Language Model for Vietnamese Texts

8. AFOSR (2015-2017):

  • Director: Khoat Than
  • Funding agency: Air Force Office of Scientific Research (USA) and ITC-PAC (US Army)
  • Project title: Inferring the latent structures in big heterogeneous data

9. NAFOSTED (2015-2017):

  • Director: Khoat Than
  • Funding agency: National Foundation for Science and Technology Development, Vietnam
  • Project title: Inference methods for analyzing the semantics in big data

6. Các công bố khoa học tiêu biểu

  • Cuong Ha-Nhat, Dang Tran, Linh Ngo Van, Khoat Than, “Eliminating overfitting of probabilistic topic models on short and noisy text: The role of Dropout”, International Journal of Approximate Reasoning, Springer, 2019.
  • Hoa Le Minh, Son Ta Cong, Quyen Pham The, Linh Ngo Van, Khoat Than, “Collaborative Topic Model for Poisson distributed ratings”, International Journal of Approximate Reasoning, Volume 95, Pages 62-76, Springer, 2018.
  • Linh The Nguyen, Linh Van Ngo, Khoat Than and Thien Huu Nguyen, “Employing the Correspondence of Relations and Connectives to Identify Implicit Discourse Relations via Label Embeddings”, In Proceeding of the Association for Computational Linguistics (ACL), 2019.
  • Kiem-Hieu Nguyen, “BKTreebank: Building a Vietnamese Dependency Treebank”. Proceedings of 11th Language Resources and Evaluation Conference, LREC 2018, Miyazaki, Japan.
  • Ngo Van Linh, Nguyen Kim Anh, Khoat Than, Chien Nguyen Dang, “An Effective and Interpretable Method for Document Classification”, Knowledge and Information Systems (KAIS), Volume 50, Issue 3, pp 763–793,
  • Tung Doan and Khoat Than, “Sparse Stochastic Inference with Regularization”, Advances in Knowledge Discovery and Data Mining. PAKDD 2017. Lecture Notes in Computer Science, vol 10234. Springer, 2017.
  • LH Son, PV Viet, Hai Van Pham, Picture Inference System: A New Fuzzy Inference System on Picture Fuzzy Set, Applied Intelligence, Vol. 46, pp. 652 – 669, 2017.
  • Nguyen, Binh Minh; Tran, Dang and Nguyen, Giang. Enhancing Service Capability with Multiple Finite-capacity Server Queues in Cloud Data Centers. In: Cluster Computing, 2016, vol. 19, issue 4, p. 1747-1767, ISSN 1386-7857 . doi>10.1007/s10586-016-0653-y
  • Hluchý, Ladislav; Nguyen, Giang; Astalos, Jan; Tran, Viet; Sipkova, Viera and Nguyen, Binh Minh. Effective Computation Resilience in High Performance and Distributed Environments. Computing and Informatics, 2016, vol. 35, no. 6, p. 1386-1415, ISSN 1335-9150.
  • Cao, Tien Dung; Hoang Huu Hanh; Huynh, Xuan Hiep; Nguyen, Binh Minh; Pham, Tran Vu; Tran, Minh Quang; Tran, The Vu and Truong, Hong Linh. IoT Services for Solving Critical Problems in Vietnam: A Research Landscape and Directions. IEEE Internet Computing, 2016, vol. 20, no.5, p.76-81, ISSN 1089-7801. doi>10.1109/MIC.2016.97

7. Các hình ảnh sưu tầm tiêu biểu của đơn vị

8. Các kết quả nghiên cứu thực sự tiêu biểu kèm hình ảnh

Nghiên cứu cơ bản: Nhiều thành viên của DSLab đang tích cực nghiên cứu và thu được nhiều kết quả tốt. Các nghiên cứu đã và đang được tài trợ bởi nhiều cơ quan trong và ngoài nước. Các hình dưới đây minh hoạ một vài kết quả.

Sản phẩm ứng dụng:

giasan.vn là trang thông tin phân tích dữ liệu bất động sản trực tuyến. giasan.vn dựa trên các công nghệ xử lý dữ liệu lớn cùng trí tuệ nhân tạo nhằm cung cấp cho người mua nhà và các nhà môi giới các thông tin phân tích trực quan, chi tiết nhất về thị trường bất động sản Việt Nam. giasan.vn hướng tới:

(1) minh bạch hoá dữ liệu thị trường bất động sản;

(2) tiết kiệm thời gian và chi phí nghiên cứu thị trường;

(3) kết nối người mua, người bán và nhà môi giới, nhà đầu tư tiềm năng thông qua phân tích dữ liệu. giasan.vn đã đạt được giải 3 Nhân Tài Đất Việt 2017 và được chuyển giao cho doanh nghiệp khai thác trong năm 2018.

Thư viện mở: Các thành viên của DSLab đã và đang tích cực tạo ra nhiều thư viện hoặc mã nguồn mở cho cộng đồng. Dưới đây là một vài ví dụ.

9. Thông tin về các cán bộ và học viên cao học, NCS tham gia (không gửi tên sinh viên)

Cán bộ:

  1. PGS.TS. Nguyễn Thị Kim Anh
  2. PGS.TS. Lê Thanh Hương
  3. PGS.TS. Phạm Văn Hải
  4. TS. Vũ Tuyết Trinh
  5. TS. Nguyễn Hữu Đức
  6. TS. Nguyễn Bình Minh
  7. TS. Trần Việt Trung
  8. TS. Nguyễn Thị Oanh
  9. TS. Nguyễn Kiêm Hiếu
  10. ThS. Ngô Văn Linh

Nghiên cứu sinh:

  1.  Bùi Thị Thanh Xuân
  2.  Hà Thị Thanh
  3.  Lưu Minh Tuấn
  4.  Cao Thị Thu Hương

Học viên cao học:

  1. Vũ Hoàng Diệu
  2. Nguyễn Văn Sơn
  3. Nguyễn Văn Túc
  4. Trần Xuân Bách
  5. Trịnh Trường Giang

10. Thông tin về các cựu SV, NCS đang thành công ở trong và ngoài nước

  1. Lê Minh Dương (K60), đã có nghiên cứu được công bố tại AAAI 2020 (một trong những nơi hàng đầu về lĩnh vực Trí tuệ nhân tạo), và đang là resident tại VinAI Research
  2. Đào Đức Cường (cựu sinh viên ICT-K56), đã có nghiên cứu được công bố tại AAAI 2019 (một trong những nơi hàng đầu về lĩnh vực Trí tuệ nhân tạo)
  3. Nguyễn Thế Linh (sinh viên K59), đã có nghiên cứu được công bố tại ACL 2019 (một trong những nơi hàng đầu về lĩnh vực Xử lý ngôn ngữ tự nhiên và Trí tuệ nhân tạo)
  4. Nguyễn Văn Minh (sinh viên K59), đã có nghiên cứu được công bố tại COLING 2018 (một trong những nơi hàng đầu về lĩnh vực Xử lý ngôn ngữ tự nhiên)