Thông tin chung: Ngày nhận bài: 15/09/2017 Ngày nhận bài sửa: 10/10/2017 Ngày duyệt đăng: 20/10/2017 Title: Applying clustering techniques for identifying similarities among rice varieties Từ khóa: Gom cụm dữ liệu, giống lúa, khai khoáng dữ liệu Keywords: Data mining, clustering, rice varieties | ABSTRACT The Mekong Delta in southern Vietnam is facing climate change and sea level rise. A solution is to quickly and accurately create new high-quality rice varieties that boost yield and adapt well to biological and non-biological factors, especially well-adapt to current harsh conditions. Since 1976, Can Tho University has collected and stored most of traditional seasonal rice varieties of the Mekong Delta. At the moment, Mekong Delta Development and Research Institute of Can Tho University has stored more than 2,000 rice variety samples. They are valuable gene resources that can be used for preserving, exploiting, employing, and creating rice varieties. However, it is possible that there are similarities in these 2,000 samples for some rice varieties. In this paper, clustering techniques are used to create tools for rice variety experts to (i) identify similar samples and (ii) analyze their similarity coefficients. TÓM TẮT Vùng Đồng bằng sông Cửu Long (ĐBCSL) đang ứng phó với biến đổi khí hậu, nước biển dâng. Vấn đề cấp bách đặt ra là cần tìm các giải pháp chọn tạo nhanh và chính xác giống lúa mới, có năng suất, chất lượng cao, chống chịu các tác nhân sinh học và phi sinh học, đặc biệt là thích ứng với điều kiện khí hậu cực đoan đang diễn ra phức tạp. Từ năm 1976 đến nay, Trường Đại học Cần Thơ đã sưu tập và lưu giữ hầu hết các giống lúa mùa cổ truyền của vùng ĐBSCL. Hiện tại, Viện Nghiên cứu Phát triển ĐBSCL - Trường Đại học Cần Thơ đã lưu giữ được khoảng 2.000 mẫu giống lúa. Đây là nguồn tài nguyên gen quý giá phục vụ cho công tác bảo tồn, khai thác, sử dụng và chọn tạo giống lúa. Tuy nhiên, trong 2.000 mẫu giống lúa này có nhiều giống tương đồng với nhau do thu thập ở địa phương khác nhau. Nghiên cứu này ứng dụng các giải thuật gom nhóm dữ liệu (Clustering) để tạo ra phần mềm hỗ trợ cho các chuyên gia về giống lúa (i) phát hiện ra các mẫu lúa giống nhau và (ii) đánh giá được hệ số tương đồng giữa các giống lúa. |