Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số 28 (2013) Trang: 9-16
Tải về

Thông tin chung:

Ngày nhận: 17/04/2013

Ngày chấp nhận: 29/10/2013

 

Title:

Text classification: Bag-of-words and ensemble-based learning methods

Từ khóa:

Phân loại văn bản, Mô hình túi từ, Phương pháp tập hợp mô hình máy học, Phân loại có giám sát

Keywords:

Text classification, Bag-of-Words, Ensemble-based Learning Model, Supervised Classification

Abstract

This paper presents an approach to classify text documents usingthe
Bag-of-Word (BoW) model and ensemble-based learning algorithms. The ensemble-based learning algorithms include random multinomial naive Bayes (rMNB) and random oblique decision stump (rODS) models. The bag-of-word model is used to look for the sparse vectors of occurrence counts of words in text documents. The pre-processing step using the bag-of-word model brings out a dataset with a very large number of dimensions. Thus, we propose the new algorithms, called boosting of random multinomial naive Bayes and oblique decision stump models,whichare usually suited for classifying very-high-dimensional datasets. The results of the experiment on a real dataset show that our proposed algorithms have a high performance compared with other algorithms. The new approach has achieved an accuracy of 94.8%.

Tóm tắt

Trong bài này, chúng tôi giới thiệu tiếp cận phân lớp văn bản với độ chính xác cao. Nghiên cứu của chúng tôi dựa trên sự kết hợp giữa phương pháp biểu diễn văn bản bằng mô hình túi từ và các giải thuật xây dựng tập hợp các mô hình học tự động như Bayes thơ ngây ngẫu nhiên (random multinomial naive Bayes (rMNB)), cây xiên phân ngẫu nhiên đơn giản (random oblique decision stump (rODS)). Bước tiền xử lý, bao gồm phân tích từ vựng, xây dựng mô hình túi từ để biểu diễn văn bản dưới dạng véc tơ tần số xuất hiện của từ trong văn bản, số chiều rất lớn. Chúng tôi đề xuất các giải thuật boosting mới dựa trên mô hình cơ bản như cây ngẫu nhiên xiên phân đơn giản (rODS), Bayes thơ ngây ngẫu nhiên (rMNB), cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng phương pháp của chúng tôi đề xuất phân lớp rất hiệu quả khi so sánh với các giải thuật hiện có, đạt được chính xác 94.8%.

Các bài báo khác
Số 29 (2013) Trang: 1-7
Tải về
Số 32 (2014) Trang: 35-41
Tải về
Số 33 (2014) Trang: 49-57
Tải về
Số 27 (2013) Trang: 64-71
Tải về
Số 34 (2014) Trang: 66-73
Tải về
Số Công nghệ TT 2013 (2013) Trang: 80-90
Tải về
Số Công nghệ TT 2015 (2015) Trang: 98-104
Tác giả: Đỗ Thanh Nghị
Tải về
(2018) Trang: 185-199
Tạp chí: Intl Conf. on Future Data and Security Engineering 2018
CPE 2017 (2017) Trang: 1-16
Tạp chí: Concurrency and Computation: Practice and Experience
31 (2017) Trang: 67-93
Tạp chí: The LNCS Journal Transactions on Large-Scale Data- and Knowledge-Centered Systems
12 (2014) Trang: 98-103
Tạp chí: Tạp chí nông nghiệp và phát triển nông thôn
(2015) Trang: 277-285
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2015, ĐHCN Hà Nội, 7/2015
(2016) Trang: 20-39
Tạp chí: The annual International Conference on Future Data and Security Engineering
(2016) Trang: 714-721
Tạp chí: The IEEE Intl Conf. on Cloud and Big Data Computing 2016, Toulouse, France, 7/2016
(2016) Trang: 200-208
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016
(2016) Trang: 871-879
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016
(2016) Trang: 538-544
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR, ĐH. Cần Thơ, 8/2016
(2015) Trang: 32-45
Tác giả: Đỗ Thanh Nghị
Tạp chí: The 2nd International Conference on Future Data and Security Engineering 2015, Ho Chi Minh City, Vietnam, November 23-25, 2015
XVIII (2015) Trang: 147-165
Tạp chí: Transactions on Computational Collective Intelligence
(2015) Trang: 255-266
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
(2015) Trang: 231-241
Tác giả: Đỗ Thanh Nghị
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
(2014) Trang: 285-296
Tạp chí: NAFOSTED Conference on Information and Computer Science
(2014) Trang: 25-34
Tạp chí: Advanced Approaches to Intelligent Information and Database Systems
1 (2013) Trang: 1
Tạp chí: Tạp chí khoa học ĐHĐL Số chuyên đề: Công nghệ Thông tin
1 (2012) Trang: 427
Tác giả: Đỗ Thanh Nghị
Tạp chí: Các hệ thống hỗ trợ quyết định
1 (2012) Trang: 563
Tạp chí: Các hệ thống hỗ trợ quyết định
1 (2011) Trang: 41
Tạp chí: Hội nghị tổng kết 5 năm NCKH &ĐT
(2008) Trang:
Tạp chí: Proceedings of the 6th IEEE International Conference on Data Mining
(2008) Trang:
Tạp chí: International Conference Research, Innovation and Vision for the Future
(2012) Trang:
Tạp chí:  Công nghệ Thông tin & Truyền thông
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: 6th International Conference on Machine Learning and Applications
(2008) Trang:
Tạp chí: Revue des Nouvelles Technologies de l’Information (RNTI)
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2011) Trang:
Tạp chí: Tuyển tập Công trình nghiên cứu CNTT&TT năm 2009
 

Crossref DOI of CTUJoS


BC thường niên 2018


Con số ấn tượng (VN | EN)


Bản tin ĐHCT


TCKH tiếng Việt


TCKH tiếng Anh

 
 
Vui lòng chờ...