Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Tập 55, Số 4 (2019) Trang: 29-37
Tải về

Thông tin chung:

Ngày nhận bài: 08/07/2019
Ngày nhận bài sửa: 09/08/2019

Ngày duyệt đăng: 29/08/2019

 

Title:

An approach to scientific paper classification using machine learning

Từ khóa:

Bayes thơ ngây, k-láng giềng gần nhất, máy học véc-tơ hỗ trợ, phân loại văn bản

Keywords:

k Nearest Neighbor, Naïve Bayes, Support Vector Machine, Text classification  

ABSTRACT

Publication of research is the ultimate and significant step to recognize scientific work. However, in the submission system with a wide range of subjects (e.g. Association for Computing Machinery with 2,000 subjects), it may take the authors a lot of time to classify a manuscript into an appropriate group of subjects before it is submitted to a journal or conference. Therefore, this article is aimed to propose automatic solutions to extract information and categorize scientific papers on suitable topics. The experiments was based on the data set of scientific articles published in Can Tho University Journal of Science. The input data were pre-processed, extracted, vectorized and classified using three machine learning techniques including support vector machines, Naïve Bayes, and k-nearest neighbors. The experimental results showed that with the accuracy of over 91%, support vector machines technique proved its feasibility for developing the automatic classification system of scientific papers.

TÓM TẮT

Nghiên cứu khoa học là một phần không thể thiếu trong các trường đại học, viện nghiên cứu, phòng thí nghiệm và cả các công ty lớn. Kết quả của các công trình nghiên cứu khoa học thường được trình bày dưới dạng các bài báo được gửi đến các tạp chí, hội thảo. Tuy nhiên, các hệ thống nhận bài của các tạp chí lớn có rất nhiều chủ đề như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM có hơn 2.000 chủ đề, do vậy các tác giả và ban biên tập mất khá nhiều thời gian khi xác định một bài viết thuộc nhóm chủ đề nào trước khi nộp bài cho các tạp chí, hội thảo. Bài viết này đề xuất giải pháp tự động rút trích thông tin và phân loại một bài báo khoa học vào chủ đề nào đó. Dữ liệu vào sẽ được tiền xử lý, rút trích, véc-tơ hóa và phân loại bằng kỹ thuật máy học. Thực nghiệm được xây dựng trên tập dữ liệu là các bài báo khoa học đã được gửi đăng trên Tạp chí khoa học của Trường Đại học Cần Thơ. Các kỹ thuật máy học véc-tơ hỗ trợ (SVM), Bayes thơ ngây (Naïve Bayes), và k-láng giềng gần nhất (kNN) đã được sử dụng để so sánh nhằm tìm ra kết quả tốt nhất. Kết quả thực nghiệm cho thấy kỹ thuật SVM đã cho độ chính xác > 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học.

Trích dẫn: Trần Thanh Điện, Thái Nhựt Thanh và Nguyễn Thái Nghe, 2019. Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học. Tạp chí Khoa học Trường Đại học Cần Thơ. 55(4A): 29-37.

Các bài báo khác
Số Công nghệ TT 2017 (2017) Trang: 103-111
Tải về
(2019) Trang: 78-84
Tạp chí: The International Conference on Advanced COMPuting and Applications (ACOMP)
 

CTUJoS indexed by Crossref

Vietnamese | English


BC thường niên 2019


Bản tin ĐHCT


TCKH tiếng Việt


TCKH tiếng Anh

 
 
Vui lòng chờ...