Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Chờ xuất bản
Bài báo - Tạp chí
Số 34 (2014) Trang: 66-73
Tải về

Thông tin chung:

Ngày nhận: 09/05/2014

Ngày chấp nhận: 30/10/2014

Title:

Semantic smoothing of the Bag-of-Words model for improving short text classification using k nearest neighbors

Từ khóa:

Phân lớp văn bản ngắn, mô hình túi từ, ngữ nghĩa, k láng giềng

Keywords:

Text classification, Bag-of-Words, semantic smoothing, k nearest neighbors

ABSTRACT

This paper presents the semantic smoothing of the Bag-of-Words (BoW) model to improve the positive class prediction of k nearest neighbors (kNN) in the short text classification. The BoW model, a representation of the text constructed by counting the occurrence of each word in the text, is popularly used in text classification. The drawback of the BoW model is that it does not take the semantic similarity of words into account. That is often the cause of mismatches in the vocabulary used by kNN. And then, it leads to the poor prediction of the positive class in short text classification. We propose to use the semantic smoothing of BoW to improve the positive class prediction of kNN. The numerical test results on a real dataset show that our approach improves 8% in terms of the positive class prediction while degradesing less than 1% in term of the negative class prediction of kNN algorithm in short text classification.

TóM TắT

Trong bài này, chúng tôi giới thiệu tiếp cận tích hợp ngữ nghĩa với mô hình túi từ nhằm cải tiến hiệu quả dự đoán lớp dương của giải thuật k láng giềng trong phân lớp văn bản ngắn. Mô hình túi từ là mô hình biểu diễn văn bản như véc tơ tần số xuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trong vấn đề phân lớp văn bản. Tuy nhiên, khuyết điểm của mô hình túi từ là không quan tâm đến sự đồng nghĩa của từ, điều này làm giảm hiệu quả dự đoán lớp dương (lớp quan tâm) của giải thuật k láng giềng trong phân lớp văn bản ngắn. Chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ để cải thiện kết quả dự đoán lớp dương của k láng giềng. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng các phương pháp của chúng tôi đề xuất cải thiện dự đoán lớp dương hơn 8% trong giảm chưa đến 1% dự đoán lớp âm của giải thuật k láng giềng trong phân lớp văn bản ngắn.

Các bài báo khác
Số 29 (2013) Trang: 1-7
Tải về
Số 32 (2014) Trang: 35-41
Tải về
Số 33 (2014) Trang: 49-57
Tải về
Số 27 (2013) Trang: 64-71
Tải về
Số Công nghệ TT 2013 (2013) Trang: 80-90
Tải về
Số 28 (2013) Trang: 9-16
Tải về
Số Công nghệ TT 2015 (2015) Trang: 98-104
Tác giả: Đỗ Thanh Nghị
Tải về
(2018) Trang: 185-199
Tạp chí: Intl Conf. on Future Data and Security Engineering 2018
CPE 2017 (2017) Trang: 1-16
Tạp chí: Concurrency and Computation: Practice and Experience
31 (2017) Trang: 67-93
Tạp chí: The LNCS Journal Transactions on Large-Scale Data- and Knowledge-Centered Systems
12 (2014) Trang: 98-103
Tạp chí: Tạp chí nông nghiệp và phát triển nông thôn
(2015) Trang: 277-285
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2015, ĐHCN Hà Nội, 7/2015
(2016) Trang: 20-39
Tạp chí: The annual International Conference on Future Data and Security Engineering
(2016) Trang: 714-721
Tạp chí: The IEEE Intl Conf. on Cloud and Big Data Computing 2016, Toulouse, France, 7/2016
(2016) Trang: 200-208
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016
(2016) Trang: 871-879
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016
(2016) Trang: 538-544
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR, ĐH. Cần Thơ, 8/2016
(2015) Trang: 32-45
Tác giả: Đỗ Thanh Nghị
Tạp chí: The 2nd International Conference on Future Data and Security Engineering 2015, Ho Chi Minh City, Vietnam, November 23-25, 2015
XVIII (2015) Trang: 147-165
Tạp chí: Transactions on Computational Collective Intelligence
(2015) Trang: 255-266
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
(2015) Trang: 231-241
Tác giả: Đỗ Thanh Nghị
Tạp chí: International Conference on Computer Science, Applied Mathematics and Applications
(2014) Trang: 285-296
Tạp chí: NAFOSTED Conference on Information and Computer Science
(2014) Trang: 25-34
Tạp chí: Advanced Approaches to Intelligent Information and Database Systems
1 (2013) Trang: 1
Tạp chí: Tạp chí khoa học ĐHĐL Số chuyên đề: Công nghệ Thông tin
1 (2012) Trang: 427
Tác giả: Đỗ Thanh Nghị
Tạp chí: Các hệ thống hỗ trợ quyết định
1 (2012) Trang: 563
Tạp chí: Các hệ thống hỗ trợ quyết định
1 (2011) Trang: 41
Tạp chí: Hội nghị tổng kết 5 năm NCKH &ĐT
(2008) Trang:
Tạp chí: Proceedings of the 6th IEEE International Conference on Data Mining
(2008) Trang:
Tạp chí: International Conference Research, Innovation and Vision for the Future
(2012) Trang:
Tạp chí:  Công nghệ Thông tin & Truyền thông
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: 6th International Conference on Machine Learning and Applications
(2008) Trang:
Tạp chí: Revue des Nouvelles Technologies de l’Information (RNTI)
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
(2011) Trang:
Tạp chí: Tuyển tập Công trình nghiên cứu CNTT&TT năm 2009
 

Crossref DOI of CTUJoS


BC thường niên 2018


Con số ấn tượng (VN | EN)


Bản tin ĐHCT


TCKH tiếng Việt


TCKH tiếng Anh

 
 
Vui lòng chờ...