Đăng nhập
Tìm kiếm nâng cao
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Chờ xuất bản
Bài báo - Tạp chí
In Advances in Computational Collective Intelligence, 12th International Conference, ICCCI 2020 (2020) Trang: 566-578
Tạp chí: Communications in Computer and Information Science

In the evolution of Big Data, efficiently processing large datasets is always a top concern for researchers. A join operation is one of such processing, a common operation appearing in many data queries. This operation generates plenty of intermediate data and data transmis- sion over the network, especially a recursive join operation. Although extremely expensive, a recursive join has a wide variety of domains as database, social network and computer network analyses, compiler, data integration and graph mining. Therefore, this study was carried out to optimize recursive joins based on some solutions in a Spark environ- ment. The solutions leverage the advantages of three-way join operations, Bloom filters, Spark RDD and caching techniques for iterative join com- putation. These significantly reduce the number of executed iterations and jobs, the amount of redundant data, and remotely accessing persis- tent data. Our experimental results show that the optimized recursive join is more efficient than a typical one by reducing the number of itera- tions to half, minimizing data transfer, and thus shorter execution time.

Các bài báo khác
(2020) Trang:
Tạp chí: Kỷ yếu Hội nghị Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR); Nha Trang, ngày 8-9/10/2020

Vietnamese | English

Vui lòng chờ...