Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
(2016) Trang: 668-677
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 2016, ĐH. Cần Thơ 8/2016

Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên, nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết). Điều này gây khó khăn cho việc tách từ tự động một cách chính xác, ảnh hưởng đến kết quả của các bài toán phân tích dữ liệu văn bản như: gom nhóm, phân lớp văn bản. Hai tiếp cận chính để tách từ là dựa trên từ điển và thống kê (hoặc kết hợp hai tiếp cận). Trong bài toán phân lớp văn bản, tách từ mới chỉ là bước tiền xử lý và biểu diễn dữ liệu. Bước kế tiếp là sử dụng một mô hình máy học để huấn luyện bộ phân lớp. Đối với một số mô hình máy học như máy học véc-tơ hỗ trợ (SVM), phân tích thành phần chính, phân tích tương ứng, các từ ghép có thể được phát hiện dựa vào sự đồng xuất hiện của các âm tiết mà không cần đến một bước tách từ chính xác. Trong bài báo này, chúng tôi nghiên cứu so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt.

Các bài báo khác
Số Công nghệ TT 2013 (2013) Trang: 100-108
Tải về
Số Công nghệ TT 2015 (2015) Trang: 113-120
Tải về
Số Công nghệ TT 2015 (2015) Trang: 25-31
Tải về
Số 53 (2017) Trang: 44-52
Tải về
1 (2011) Trang: 1
Tạp chí: 5 năm NCKH & Đào tạo
(2008) Trang:
Tạp chí: CORIA 2008, 5e Conférence en Recherche d’Information et Applications
(2008) Trang:
Tạp chí: Revue des Nounelles Technilogies de l’Information RNTI
 

CTUJoS indexed by Crossref

Vietnamese | English


BC thường niên 2018


Con số ấn tượng (VN | EN)


Bản tin ĐHCT


TCKH tiếng Việt


TCKH tiếng Anh

 
 
Vui lòng chờ...