Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Chờ xuất bản
Bài báo - Tạp chí
9 (2016) Trang:
Tạp chí: Fair 2016, ĐHCT, 04 - 05/08/2016
Liên kết:

Ngày nay, có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo văn nói chung và sao chép luận văn, đồ án nói riêng có thể nói là những mặt tiêu cực phổ biến hiện nay cần được phát hiện và ngăn chặn. Các phương phát phát hiện sao chép tài liệu mới nhất được công bố trong các Hội thảo PAN Workshop vừa qua thường dựa trên lập chỉ mục nghịch đảo cho cụm 4 từ (4-gram). Việc xác định một tập hợp con các tài liệu tiềm năng (có thể bị sao chép) dựa trên ngưỡng số 4-gram chung cho thấy một số hạn chế như tập tiềm năng có thể rất lớn và không thể xếp độ ưu tiên theo số lượng 4-gram chung nên có thể dẫn đến việc tìm kiếm sao chép lâu. Trong bài báo này, chúng tôi đề xuất một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi đã cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép. Đồng thời phương pháp được đề xuất cũng có thể song song hóa để chạy trên một cụm máy tính, nhờ đó có thể áp dụng trên các tập dữ liệu có dung lượng lớn như là một thư viện điện tử thực thụ.

 


Vietnamese | English






 
 
Vui lòng chờ...