PHÂN LOẠI THƯ RÁC VỚI GIẢI THUẬT BOOSTING CÂY QUYẾT ĐỊNH NGẪU NHIÊN XIÊN PHÂN ĐƠN GIẢN

Hướng dẫn

Tìm kiếm nâng cao

Tên bài báo

Tìm

Tác giả

Năm xuất bản

Tóm tắt

Lĩnh vực

Phân loại

Số tạp chí

Bản tin định kỳ

Báo cáo thường niên

Tạp chí khoa học ĐHCT

Tạp chí tiếng anh ĐHCT

Tạp chí trong nước

Tạp chí quốc tế

Kỷ yếu HN trong nước

Kỷ yếu HN quốc tế

Book chapter

PHÂN LOẠI THƯ RÁC VỚI GIẢI THUẬT BOOSTING CÂY QUYẾT ĐỊNH NGẪU NHIÊN XIÊN PHÂN ĐƠN GIẢN

Số 19b (2011) Trang: 1-9

Tác giả: Huỳnh Phụng Toàn, Nguyễn Minh Trung, Đỗ Thanh Nghị, Nguyễn Vũ Lâm

Tóm tắt

Tải về

Abstract

Our investigation aims at classifying spam emails based on machine learning algorithms. The representation of the email that we use for classification is the bag-of-words model, which is constructed from the counting the word occurrence in a histogram like fashion. The pre-processing step brings out a dataset with a very large number of dimensions. Thus, we propose a new algorithm boosting of random oblique decision stumps that is usually suited for classifying very-high-dimensional datasets. The numerical test results on a real dataset collected from 1143 spam and 778 non-spam emails showed that our algorithm boosting of random oblique decision stumps outperforms support vector machine (SVM) and Naùve Bayes in terms of Accuracy, F1-Measure, Precision, TP Rate and TN Rate.

Keywords: Spam emails classification, boosting of random oblique decision stump, classification, data mining.

Title: Spam emails classification with boosting of random oblique decision stump

Tóm tắt

Trong bài viết này chúng tôi đưa ra hướng tiếp cận học tự động để phát hiện thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Boosting of Random Oblique Decision Stump). Để thực hiện, đầu tiên phải tạo ra tập dữ liệu gồm một bộ sưu tập các thư rác và thư không phải là thư rác. Kế tiếp thực hiện tiền xử lý dữ liệu, bao gồm các bước phân tích từ vựng, chọn tập hợp từ hữu dụng để phân loại thư rác, xây dựng mô hình túi từ. Bước tiền xử lý sinh ra tập dữ liệu có số chiều rất lớn, chúng tôi đề nghị giải thuật mới có tên là Boosting cây quyết định ngẫu nhiên xiên phân đơn giản cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm trên tập dữ liệu thực thu thập từ 1143 thư rác và 778 thư không phải thư rác cho thấy giải thuật do chúng tôi đề nghị phân lớp chính xác hơn so với giải thuật SVM và Naùve Bayes qua các tiêu chí so sánh như Accuracy, F1-Measure, Precision, TP Rate và TN Rate.

Từ khóa: Phân loại thư rác, giải thuật học Boosting cây quyết định ngẫu nhiên xiên phân đơn giản, giải thuật phân lớp dữ liệu, khai mỏ dữ liệu.

Các bài báo khác

RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN

Số 22b (2012) Trang: 9-17

Tác giả: Huỳnh Phụng Toàn, Đỗ Thanh Nghị, Nguyễn Minh Trung, Nguyễn Vũ Lâm

Tóm tắt

Tải về

Trích dẫn

Khoanh vùng ảnh với phương pháp kết hợp Energy Distance và Energy-Based Model

1 (2024) Trang: 330-335

Tác giả: Huỳnh Phụng Toàn, Huỳnh Xuân Hiệp

Tạp chí: Hội thảo quốc gia lần thứ XXVII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông

Tóm tắt

Mô hình trực quan cây quyết định cho dự báo lan truyền dịch rầy nâu

1 (2013) Trang: 248

Tác giả: Huỳnh Phụng Toàn, Võ Hải Đăng, Đỗ Thanh Nghị

Tạp chí: KY Hội nghị Khoa học tự nhiên 2013

Tóm tắt

Phân loại văn bản với giải thuật Bayes thơ ngây

1 (2013) Trang: 275

Tác giả: Huỳnh Phụng Toàn, Võ Hải Đăng, Đỗ Thanh Nghị

Tạp chí: KY Hội nghị Khoa học tự nhiên 2013

Tóm tắt

Vietnamese | English

Tạp chí khoa học Trường Đại học Cần Thơ
Lầu 4, Nhà Điều Hành, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Điện thoại: (0292) 3 872 157; Email: tapchidhct@ctu.edu.vn

Chương trình chạy tốt nhất trên trình duyệt IE 9+ & FF 16+, độ phân giải màn hình 1024x768 trở lên

Vui lòng chờ...