Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học

doi:10.22144/ctu.jvn.2019.093

Hướng dẫn

Tìm kiếm nâng cao

Tên bài báo

Tìm

Tác giả

Năm xuất bản

Tóm tắt

Lĩnh vực

Phân loại

Số tạp chí

Bản tin định kỳ

Báo cáo thường niên

Tạp chí khoa học ĐHCT

Tạp chí tiếng anh ĐHCT

Tạp chí trong nước

Tạp chí quốc tế

Kỷ yếu HN trong nước

Kỷ yếu HN quốc tế

Book chapter

Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học

Tập 55, Số 4 (2019) Trang: 29-37

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Thái Nhựt Thanh

DOI: 10.22144/ctu.jvn.2019.093

Tóm tắt

Tải về

Thông tin chung:

Ngày nhận bài: 08/07/2019
Ngày nhận bài sửa: 09/08/2019

Ngày duyệt đăng: 29/08/2019

Title:

An approach to scientific paper classification using machine learning

Từ khóa:

Bayes thơ ngây, k-láng giềng gần nhất, máy học véc-tơ hỗ trợ, phân loại văn bản

Keywords:

k Nearest Neighbor, Naïve Bayes, Support Vector Machine, Text classification

ABSTRACT

Publication of research is the ultimate and significant step to recognize scientific work. However, in the submission system with a wide range of subjects (e.g. Association for Computing Machinery with 2,000 subjects), it may take the authors a lot of time to classify a manuscript into an appropriate group of subjects before it is submitted to a journal or conference. Therefore, this article is aimed to propose automatic solutions to extract information and categorize scientific papers on suitable topics. The experiments was based on the data set of scientific articles published in Can Tho University Journal of Science. The input data were pre-processed, extracted, vectorized and classified using three machine learning techniques including support vector machines, Naïve Bayes, and k-nearest neighbors. The experimental results showed that with the accuracy of over 91%, support vector machines technique proved its feasibility for developing the automatic classification system of scientific papers.

TÓM TẮT

Nghiên cứu khoa học là một phần không thể thiếu trong các trường đại học, viện nghiên cứu, phòng thí nghiệm và cả các công ty lớn. Kết quả của các công trình nghiên cứu khoa học thường được trình bày dưới dạng các bài báo được gửi đến các tạp chí, hội thảo. Tuy nhiên, các hệ thống nhận bài của các tạp chí lớn có rất nhiều chủ đề như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM có hơn 2.000 chủ đề, do vậy các tác giả và ban biên tập mất khá nhiều thời gian khi xác định một bài viết thuộc nhóm chủ đề nào trước khi nộp bài cho các tạp chí, hội thảo. Bài viết này đề xuất giải pháp tự động rút trích thông tin và phân loại một bài báo khoa học vào chủ đề nào đó. Dữ liệu vào sẽ được tiền xử lý, rút trích, véc-tơ hóa và phân loại bằng kỹ thuật máy học. Thực nghiệm được xây dựng trên tập dữ liệu là các bài báo khoa học đã được gửi đăng trên Tạp chí khoa học của Trường Đại học Cần Thơ. Các kỹ thuật máy học véc-tơ hỗ trợ (SVM), Bayes thơ ngây (Naïve Bayes), và k-láng giềng gần nhất (kNN) đã được sử dụng để so sánh nhằm tìm ra kết quả tốt nhất. Kết quả thực nghiệm cho thấy kỹ thuật SVM đã cho độ chính xác > 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học.

Trích dẫn: Trần Thanh Điện, Thái Nhựt Thanh và Nguyễn Thái Nghe, 2019. Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học. Tạp chí Khoa học Trường Đại học Cần Thơ. 55(4A): 29-37.

Các bài báo khác

Các mô hình e-learning hỗ trợ dạy và học

Số Công nghệ TT 2017 (2017) Trang: 103-111

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe

DOI: 10.22144/ctu.jsi.2017.014

Tóm tắt

Tải về

Trích dẫn

Nghiên cứu giải pháp ứng dụng học sâu trong hỗ trợ giáo dục

Trong: Nguyễn Chí Ngôn, Nguyễn Thái Nghe (2024) Trang: 259-271

Tác giả: Trần Thanh Điện, Nguyễn Thanh Hải, Huỳnh Ngọc Tuyết, Nguyễn Thái Nghe

Tạp chí: Công nghệ kỹ thuật và công nghệ thông tin trong tiến trình công nghiệp hóa - hiện đại hóa Đồng bằng sông Cửu Long

Tóm tắt

Novel Approaches for Searching and Recommending Learning Resources

23 (2023) Trang: 151-169

Tác giả: Trần Thanh Điện, Nguyễn Thanh Hải, Nguyễn Thái Nghe

Tạp chí: Cybernetics and Information Technologies

Tóm tắt

An approach for learning resource recommendation using deep matrix factorization

6 (2022) Trang: 381-398

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Nguyễn Thanh Hải

Tạp chí: Journal of Information and Telecommunication

Tóm tắt

Four Grade Levels-based Models with Random Forest for Student Performance Prediction at a Multidisciplinary University

15 (2021) Trang: 1-12

Tác giả: Trần Thanh Điện, Lê Duy Anh, Nguyễn Hồng Phát, Nguyễn Văn Tuấn, Trịnh Thanh Chánh, Lê Minh Bằng, Nguyễn Thanh Hải, Nguyễn Thái Nghe

Tạp chí: Lecture Notes in Networks and Systems

Tóm tắt

Personalized Student Performance Prediction Using Multivariate Long Short-Term Memory

8 (2021) Trang: 238-247

Tác giả: Trần Thanh Điện, Pham Huu Phuoc, Nguyễn Thanh Hải, Nguyễn Thái Nghe

Tạp chí: Communications in Computer and Information Science

Tóm tắt

Deep Matrix Factorization for Learning Resources Recommendation

13 (2021) Trang: 167-179

Tác giả: Trần Thanh Điện, Nguyễn Thanh Hải, Nguyễn Thái Nghe

Tạp chí: Lecture Notes in Computer Science

Tóm tắt

An approach for semantic-based searching in learning resources

12 (2020) Trang: 183-188

Tác giả: Trần Thanh Điện, Lê Văn Trung, Nguyễn Thái Nghe

Tạp chí: The 12th IEEE International Conference on Knowledge and Systems Engineering (KSE 2020)

Tóm tắt

Tăng tốc tìm kiếm tài nguyên học tập theo nội dung bằng kỹ thuật xử lý dữ liệu lớn

(2020) Trang: 171-178

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Nguyễn Thanh Hải, Nguyen Ngoc Tuan

Tạp chí: Conference on Information Technology and its Applications, Đà Nẵng, 27/11/2020

Tóm tắt

Course Recommendation with Deep Learning Approach

Tran Khanh Dang, Josef Küng, Makoto Takizawa, Tai M. Chung (2020) Trang: 63-77

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Lưu Hoài Sang, Nguyễn Thanh Hải

Tạp chí: Communications in Computer and Information Science book series

Tóm tắt

Deep Learning Approach for Automatic Topic Classification in an Online Submission System

5 (2020) Trang: 700-709

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Nguyễn Thanh Hải

Tạp chí: Advances in Science, Technology and Engineering Systems Journal

Tóm tắt

Deep Learning with Data Transformation and Factor Analysis for Student Performance Prediction

11 (2020) Trang: 711-721

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Lưu Hoài Sang, Nguyễn Thanh Hải

Tạp chí: International Journal of Advanced Computer Science and Applications

Tóm tắt

An Approach for Plagiarism Detection in Learning Resources

11814 (2019) Trang: 722-730

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Huynh Ngoc Han

Tạp chí: Lecture Notes in Computer Science

Tóm tắt

Article classification using natural language processing and machine learning

(2019) Trang: 78-84

Tác giả: Trần Thanh Điện, Nguyễn Thái Nghe, Bui Huu Loc

Tạp chí: The International Conference on Advanced COMPuting and Applications (ACOMP)

Tóm tắt

Vietnamese | English

Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn

Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên

Vui lòng chờ...