Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số 19b (2011) Trang: 1-9
Tải về

Abstract

Our investigation aims at classifying spam emails based on machine learning algorithms. The representation of the email that we use for classification is the bag-of-words model, which is constructed from the counting the word occurrence in a histogram like fashion. The pre-processing step brings out a dataset with a very large number of dimensions. Thus, we propose a new algorithm boosting of random oblique decision stumps that is usually suited for classifying very-high-dimensional datasets. The numerical test results on a real dataset collected from 1143 spam and 778 non-spam emails showed that our algorithm boosting of random oblique decision stumps outperforms support vector machine (SVM) and Naùve Bayes in terms of Accuracy, F1-Measure, Precision, TP Rate and TN Rate.

Keywords: Spam emails classification, boosting of random oblique decision stump, classification, data mining.

Title: Spam emails classification with boosting of random oblique decision stump

Tóm tắt

Trong bài viết này chúng tôi đưa ra hướng tiếp cận học tự động để phát hiện thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Boosting of Random Oblique Decision Stump). Để thực hiện, đầu tiên phải tạo ra tập dữ liệu gồm một bộ sưu tập các thư rác và thư không phải là thư rác. Kế tiếp thực hiện tiền xử lý dữ liệu, bao gồm các bước phân tích từ vựng, chọn tập hợp từ hữu dụng để phân loại thư rác, xây dựng mô hình túi từ. Bước tiền xử lý sinh ra tập dữ liệu có số chiều rất lớn, chúng tôi đề nghị giải thuật mới có tên là Boosting cây quyết định ngẫu nhiên xiên phân đơn giản cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm trên tập dữ liệu thực thu thập từ 1143 thư rác và 778 thư không phải thư rác cho thấy giải thuật do chúng tôi đề nghị phân lớp chính xác hơn so với giải thuật SVM và Naùve Bayes qua các tiêu chí so sánh như Accuracy, F1-Measure, Precision, TP Rate và TN Rate.

Từ khóa: Phân loại thư rác, giải thuật học Boosting cây quyết định ngẫu nhiên xiên phân đơn giản, giải thuật phân lớp dữ liệu, khai mỏ dữ liệu.

Các bài báo khác
Số 22b (2012) Trang: 9-17
Tải về
1 (2013) Trang: 275
Tạp chí: KY Hội nghị Khoa học tự nhiên 2013
 


Vietnamese | English






 
 
Vui lòng chờ...