Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số 21a (2012) Trang: 52-63
Tải về

Abstract

Text document classification, basically, can be considered as a classification problem. Automatic text document classification is to assign a label to a new document based on the similarity of the document with labeled documents in the training set. Many machine learning and data mining methods have been applied in text document classification such as: Naive Bayes, decision tree, k ? Nearest neighbor, neural network,?

Support vector machine (SVM) is an efficient classification algorithm. It has been applied to machine learning and recognition field. However, it is still not efficient in applying to text document classification because, by the nature, this problem often deals with a large feature space. This paper focuses on applying SVM to text document classification and compares the efficiency of the method with the one of decision tree, a traditional classification algorithm. The research illustrates that SVM along with the feature selection based on the singular value decomposition (SVD) is much better than decision tree method.

Keywords: Decision tree, Support vector machine (SVM), text document classification, single value decomposition (SVD)

Title: Text document classification with support vector machine and decision tree

Tóm tắt

Bài toán phân loại văn bản, thực chất, có thể xem là bài toán phân lớp. Phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học và khai phá dữ liệu đã được áp dụng vào bài toán phân loại văn bản, chẳng hạn: phương pháp quyết định dựa vào Bayes ngây thơ (Naive Bayes), cây quyết định (decision tree), k?láng giềng gần nhất (KNN), mạng nơron (neural network),?

Máy học vectơ hỗ trợ (SVM) là một giải thuật phân lớp có hiệu quả cao và đã được áp dụng nhiều trong lĩnh vực khai phá dữ liệu và nhận dạng. Tuy nhiên SVM chưa được áp dụng một cách có hiệu quả vào phân loại văn bản vì đặc điểm của bài toán phân loại văn bản là không gian đặc trưng thường rất lớn. Bài viết này nghiên cứu máy học vector hỗ trợ (SVM), áp dụng nó vào bài toán phân loại văn bản và so sánh hiệu quả của nó với hiệu quả của giải thuật phân lớp cổ điển, rất phổ biến đó là cây quyết định. Nghiên cứu chỉ ra rằng SVM với cách lựa chọn đặc trưng bằng phương pháp tách giá trị đơn (SVD) cho kết quả tốt hơn so với cây quyết định.

Từ khóa: Cây quyết định, máy học vector hỗ trợ, phân loại văn bản, tách giá trị đơn

Các bài báo khác
Số 17b (2011) Trang: 148-157
Tác giả: Trần Cao Đệ
Tải về
Số 35 (2014) Trang: 31-39
Tải về
Số Công nghệ TT 2013 (2013) Trang: 39-46
Tác giả: Trần Cao Đệ
Tải về
Số 27 (2013) Trang: 56-63
Tác giả: Trần Cao Đệ
Tải về
(2022) Trang: 42-47
Tạp chí: Hội thảo quốc gia lần thứ XXV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông – Hà Nội, 8-9/12/2022
(2017) Trang: 1-15
Tạp chí: HỘI THẢO TOÀN QUỐC VỀ CÔNG NGHỆ THÔNG TIN 2017
(2017) Trang: 113-128
Tạp chí: NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN, FAIR'2017, 17-18/8/2017
(2016) Trang:
Tạp chí: NACIS, 2016, Đà Nẳng, tháng 11-2016
1 (2015) Trang:
Tạp chí: Proceedings Hội thảo quốc tế (IEEE) ISBN: 78-1-4799-8043-7
Vol. 52, No 4A, 2014. (2014) Trang: 403-412
Tạp chí: Tạp chí Khoa học và Công nghệ
1 (2013) Trang: 146
Tác giả: Trần Cao Đệ
Tạp chí: Công nghệ sáng tạo phát triển nông nghiệp VN lần thứ nhất 2013
1 (2012) Trang: 1
Tác giả: Trần Cao Đệ
Tạp chí: ICPR 2012
(2009) Trang:
Tạp chí: WIT Transaction on Modelingd and Simulation
(2011) Trang:
Tác giả: Trần Cao Đệ
Tạp chí: Khoa học và Công nghệ
(2008) Trang:
Tác giả: Trần Cao Đệ
Tạp chí: Hội thảo Khoa học Quốc gia về Công nghệ phần mềm và phần mềm nhóm…
 


Vietnamese | English






 
 
Vui lòng chờ...