Đăng nhập
 
Tìm kiếm nâng cao
 
Tên bài báo
Tác giả
Năm xuất bản
Tóm tắt
Lĩnh vực
Phân loại
Số tạp chí
 

Bản tin định kỳ
Báo cáo thường niên
Tạp chí khoa học ĐHCT
Tạp chí tiếng anh ĐHCT
Tạp chí trong nước
Tạp chí quốc tế
Kỷ yếu HN trong nước
Kỷ yếu HN quốc tế
Book chapter
Bài báo - Tạp chí
39 (2023) Trang: 101–124
Tạp chí: Journal of Computer Science and Cybernetics

Big data processing is attracting the interest of many researchers to process large-scale datasets and extract useful information for supporting and providing decisions. One of the biggest challenges is the problem of querying large datasets. It becomes even more complicated with similarity queries instead of exact match queries. A fuzzy join operation is a typical operation frequently used in similarity queries and big data analysis. Currently, there is very little research on this issue, thus it poses significant barriers to the efforts of improving query operations on big data efficiently. As a result, this study overviews the similarity algorithms for fuzzy joins, in which the data at the join key attributes may have slight differences within a fuzzy threshold.
We analyze six similarity algorithms including Hamming, Levenshtein, LCS, Jaccard, Jaro, and Jaro - Winkler, to show the difference between these algorithms through the three criteria: output enrichment, false positives/negatives, and the processing time of the algorithms. Experiments of fuzzy joins algorithms are implemented in the Spark environment, a popular big data processing platform. The algorithms are divided into two groups for evaluation: group 1 (Hamming, Levenshtein, and LCS) and group 2 (Jaccard, Jaro, and Jaro - Winkler). For the former, Levenshtein has an advantage over the other two algorithms in terms of output enrichment, high accuracy in the result set (false positives/negatives), and acceptable processing time. In the letter, Jaccard is considered the worst algorithm considering all three criteria mean while Jaro - Winkler algorithm has more output richness and higher accuracy in the result set. The overview of the similarity algorithms in this study will help users to choose the most suitable algorithm for their problems.

Các bài báo khác
(2023) Trang: 46-52
Tạp chí: Hội nghị khoa học quốc gia lần thứ XVI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2023), Trường Đại học Sư phạm Kỹ thuật - Đại học Đà Nẵng, 28-29/09/2023
(2023) Trang: 1-10
Tạp chí: Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR 2023), Trường Đại học Sư phạm Kỹ thuật - Đại học Đà Nẵng, 28-29/09/2023
1925 (2023) Trang: 442--455
Tạp chí: Communications in Computer and Information Science
(2021) Trang: 239-251
Tạp chí: Artificial Intelligence in Data and Big Data Processing (ICABDE) December 18-19, 2021
(2021) Trang: 17-25
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
(2021) Trang: 34-42
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
(2021) Trang: 75-83
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
(2021) Trang: 84-91
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
(2021) Trang: 166-174
Tạp chí: Hội nghị khoa học quốc gia về "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin" (Hội nghị FAIR 2021), tại Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh (HUFI), vào 2 ngày thứ năm và thứ sáu, 23 - 24/12/2021
12466 (2020) Trang: 185-200
Tạp chí: Lecture Notes in Computer Science
37 (2021) Trang: 107-122
Tạp chí: Journal of Computer Science and Cybernetics
In Future Data and Security Engineering. Big Data, Security and Privacy, Smart City and Industry 4.0 Applications (2020) Trang: 281-293
Tạp chí: Communications in Computer and Information Science
991 (2019) Trang: 769-778
Tạp chí: Advances in Intelligent Systems and Computing
10752 (2018) Trang: 417-427
Tạp chí: Lecture Notes in Computer Science
(2017) Trang:
Tạp chí: Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Quy Nhơn, 23-24/11/2017
(2017) Trang:
Tạp chí: Kỷ yếu Hội nghị Quốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR 2017), ĐHSP Đà Nẵng, ngày 17-18/8/2017
(2017) Trang:
Tạp chí: Kỷ yếu Hội nghị Quốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR 2017), ĐHSP Đà Nẵng, ngày 17-18/8/2017
(2016) Trang:
Tạp chí: Hội nghị khoa học quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin”, Đại học Cần Thơ, ngày 04 và 05 tháng 8 năm 2016
 


Vietnamese | English






 
 
Vui lòng chờ...