Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
(2020) Trang: 180-187
Tạp chí: Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, 2020

Trong bài viết này chúng tôi thực hiện huấn luyện mô hình tóm tắt tự động văn bản tiếng Việt trên tập dữ liệu lớn. Chúng tôi bắt đầu từ việc thu thập tập dữ liệu văn bản bao gồm 830.643 bài báo tiếng Việt từ trang Thông tin điện tử VnExpress. Các bài báo được tiền xử lý và chuyển về định dạng thích hợp làm đầu vào cho các thuật toán huấn luyện mô hình tóm tắt tự động. Chúng tôi đề xuất thực hiện huấn luyện mô hình Pointer-generator-Networks theo tiếp cận tóm tắt tóm lược (abstractive text summarization) và mô hình Centroid-based theo hướng tóm tắt rút trích (extractive text summarization), trên tập dữ liệu văn bản lớn. Kết quả thực nghiệm cho thấy mô hình Centroid-based đạt F-score tốt nhất là 49,04 % theo phương pháp đánh giá ROUGE-1 với số trọng tâm k = 2. Mô hình Pointer-generator-Networks cho kết quả tốt hơn so với Centroid-based, đạt F-score là 51,28 % theo phương pháp đánh giá ROUGE-1, trong khi cần nhiều thời gian hơn cho việc huấn luyện mô hình và tóm tắt tự động.

Các bài báo khác
In Hamido Fujita · Philippe Fournier-Viger · Moonis Ali · Yinglin Wang (2022) Trang: 737-746
Tạp chí: Lecture Notes in Computer Science
 


Vietnamese | English


 
 
Vui lòng chờ...