Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số 28 (2013) Trang: 9-16
Tải về

Thông tin chung:

Ngày nhận: 17/04/2013

Ngày chấp nhận: 29/10/2013

 

Title:

Text classification: Bag-of-words and ensemble-based learning methods

Từ khóa:

Phân loại văn bản, Mô hình túi từ, Phương pháp tập hợp mô hình máy học, Phân loại có giám sát

Keywords:

Text classification, Bag-of-Words, Ensemble-based Learning Model, Supervised Classification

Abstract

This paper presents an approach to classify text documents usingthe
Bag-of-Word (BoW) model and ensemble-based learning algorithms. The ensemble-based learning algorithms include random multinomial naive Bayes (rMNB) and random oblique decision stump (rODS) models. The bag-of-word model is used to look for the sparse vectors of occurrence counts of words in text documents. The pre-processing step using the bag-of-word model brings out a dataset with a very large number of dimensions. Thus, we propose the new algorithms, called boosting of random multinomial naive Bayes and oblique decision stump models,whichare usually suited for classifying very-high-dimensional datasets. The results of the experiment on a real dataset show that our proposed algorithms have a high performance compared with other algorithms. The new approach has achieved an accuracy of 94.8%.

Tóm tắt

Trong bài này, chúng tôi giới thiệu tiếp cận phân lớp văn bản với độ chính xác cao. Nghiên cứu của chúng tôi dựa trên sự kết hợp giữa phương pháp biểu diễn văn bản bằng mô hình túi từ và các giải thuật xây dựng tập hợp các mô hình học tự động như Bayes thơ ngây ngẫu nhiên (random multinomial naive Bayes (rMNB)), cây xiên phân ngẫu nhiên đơn giản (random oblique decision stump (rODS)). Bước tiền xử lý, bao gồm phân tích từ vựng, xây dựng mô hình túi từ để biểu diễn văn bản dưới dạng véc tơ tần số xuất hiện của từ trong văn bản, số chiều rất lớn. Chúng tôi đề xuất các giải thuật boosting mới dựa trên mô hình cơ bản như cây ngẫu nhiên xiên phân đơn giản (rODS), Bayes thơ ngây ngẫu nhiên (rMNB), cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng phương pháp của chúng tôi đề xuất phân lớp rất hiệu quả khi so sánh với các giải thuật hiện có, đạt được chính xác 94.8%.

Các bài báo khác
Số 29 (2013) Trang: 1-7
Tải về
Số 32 (2014) Trang: 35-41
Tải về
Số 33 (2014) Trang: 49-57
Tải về
Số 27 (2013) Trang: 64-71
Tải về
Số 34 (2014) Trang: 66-73
Tải về
Số Công nghệ TT 2013 (2013) Trang: 80-90
Tải về
Số Công nghệ TT 2015 (2015) Trang: 98-104
Tác giả: Đỗ Thanh Nghị
Tải về
Nguyen Thai-Nghe, Thanh-Nghi Do, Peter Haddawy (2023) Trang: 119-130
Tạp chí: Communications in Computer and Information Science
Nguyen Thai-Nghe, Thanh-Nghi Do, Peter Haddawy (2023) Trang: 29–40
Tạp chí: Communications in Computer and Information Science
18 (2022) Trang: 137-155
Tác giả: Đỗ Thanh Nghị
Tạp chí: International Journal of Web Information Systems
20 (2022) Trang: 219-225
Tạp chí: Journal of information and communication convergence engineering
Tran Khanh Dang·Josef Küng·Tai M. Chung (2022) Trang: 131-144
Tạp chí: Communications in Computer and Information Science
Abdelhak Belhi • Abdelaziz Bouras Abdulaziz Khalid Al-Ali • Abdul Hamid Sadka (2021) Trang: 71-89
Tạp chí: Data Analytics for Cultural Heritage: Current Trends and Concepts
Janusz Kacprzyk (2021) Trang: 315-326
Tạp chí: Lecture Notes in Networks and Systems
Janusz Kacprzyk (2021) Trang: 327-337
Tạp chí: Lecture Notes in Networks and Systems
Janusz Kacprzyk (2021) Trang: 235-246
Tạp chí: Lecture Notes in Networks and Systems
13076 (2021) Trang: 99-112
Tác giả: Đỗ Thanh Nghị
Tạp chí: Lecture Notes in Computer Science
(2020) Trang: 79-84
Tạp chí: KNOWLEDGE AND SYSTEMS ENGINEERING (KSE 2020)
(2019) Trang: 186-196
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
1 (2020) Trang: 1-11
Tác giả: Đỗ Thanh Nghị
Tạp chí: SN Computer Science
(2019) Trang: 41-48
Tạp chí: Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR)
(2019) Trang: 85-92
Tạp chí: Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR)
41 (2019) Trang: 59-77
Tạp chí: The LNCS Journal Transactions on Large-Scale Data- and Knowledge-Centered Systems
(2018) Trang: 185-199
Tạp chí: Intl Conf. on Future Data and Security Engineering 2018
CPE 2017 (2017) Trang: 1-16
Tạp chí: Concurrency and Computation: Practice and Experience
31 (2017) Trang: 67-93
Tạp chí: The LNCS Journal Transactions on Large-Scale Data- and Knowledge-Centered Systems
12 (2014) Trang: 98-103
Tạp chí: Tạp chí nông nghiệp và phát triển nông thôn
(2015) Trang: 277-285
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2015, ĐHCN Hà Nội, 7/2015
(2016) Trang: 20-39
Tạp chí: The annual International Conference on Future Data and Security Engineering
(2016) Trang: 714-721
Tạp chí: The IEEE Intl Conf. on Cloud and Big Data Computing 2016, Toulouse, France, 7/2016
(2016) Trang: 200-208
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016
(2016) Trang: 871-879
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016
(2016) Trang: 538-544
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR, ĐH. Cần Thơ, 8/2016
(2015) Trang: 32-45
Tác giả: Đỗ Thanh Nghị
Tạp chí: The 2nd International Conference on Future Data and Security Engineering 2015, Ho Chi Minh City, Vietnam, November 23-25, 2015
XVIII (2015) Trang: 147-165
Tạp chí: Transactions on Computational Collective Intelligence
(2015) Trang: 255-266
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
(2015) Trang: 231-241
Tác giả: Đỗ Thanh Nghị
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
(2014) Trang: 285-296
Tạp chí: NAFOSTED Conference on Information and Computer Science
(2014) Trang: 25-34
Tạp chí: Advanced Approaches to Intelligent Information and Database Systems
1 (2013) Trang: 1
Tạp chí: Tạp chí khoa học ĐHĐL Số chuyên đề: Công nghệ Thông tin
1 (2012) Trang: 427
Tác giả: Đỗ Thanh Nghị
Tạp chí: Các hệ thống hỗ trợ quyết định
1 (2012) Trang: 563
Tạp chí: Các hệ thống hỗ trợ quyết định
1 (2011) Trang: 41
Tạp chí: Hội nghị tổng kết 5 năm NCKH &ĐT
(2008) Trang:
Tạp chí: Proceedings of the 6th IEEE International Conference on Data Mining
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2011) Trang:
Tạp chí: Tuyển tập Công trình nghiên cứu CNTT&TT năm 2009
(2008) Trang:
Tạp chí: Revue des Nouvelles Technologies de l’Information (RNTI)
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: 6th International Conference on Machine Learning and Applications
(2008) Trang:
Tạp chí: International Conference Research, Innovation and Vision for the Future
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2012) Trang:
Tạp chí:  Công nghệ Thông tin & Truyền thông
 


Vietnamese | English






 
 
Vui lòng chờ...