Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
Số 20b (2011) Trang: 189-197
Tải về

Abstract

In this paper, we present a novel improvement of the Roughly Balanced Bagging algorithm (Hido & Kashima, 2008) to deal with the imbalanced data classification. Our proposal use ensemble-based algorithms including Boosting (Freund & Schapire, 1995), Random forest (Breiman, 2001) as base leaner of the orginal Roughly Balanced Bagging instead of a single decision tree (Quinlan, 1993). In addition, the distribution in each subset determined by under-sampling of the majority class is belongs to negative binomial distribution function using adjust parameter. The experimental results on imbalanced datasets from UCI repository (Asuncion & Newman, 2007) showed that our proposal outperforms the orginal Roughly Balanced Bagging.

Keywords: Imbalanced data, Roughly Balanced Bagging, Bagging, Boosting, AdaBoost,RandomForest, Decision Tree, Negative binomial distribution

Title: Classification of imbalanced data with roughly balanced bagging

Tóm tắt

Trong bài báo này, chúng tôi trình bày một cải tiến của giải thuật Roughly Balanced Bagging (Hido & Kashima, 2008) cho việc phân lớp các tập dữ liệu không cân bằng.  Chúng tôi đề xuất sử dụng các giải thuật tập hợp mô hình bao gồm Boosting (Freund & Schapire, 1995), Random forest (Breiman, 2001), làm mô hình học cơ sở của giải thuật Roughly Balanced Bagging gốc, thay vì sử dụng một cây quyết định (Quinlan, 1993). Chúng tôi cũng đề xuất điều chỉnh cách lấy mẫu giảm phần tử lớp đa số theo hàm phân phối nhị thức âm ở mỗi lần. Kết quả thực nghiệm trên các tập dữ liệu không cân bằng được lấy từ nguồn UCI (Asuncion & Newman, 2007) cho thấy rằng phương pháp mà chúng tôi đề xuất cho hiệu quả phân loại chính xác hơn khi so sánh với giải Roughly Balanced Bagging gốc.

Từ khoá: Dữ liệu không cân bằng, Roughly Balanced Bagging, Bagging, Boosting, AdaBoost, Rừng ngẫu nhiên, Cây quyết định, Phân phối nhị thức âm

 


Vietnamese | English






 
 
Vui lòng chờ...