Çalışmanın Özeti

Veri miktarının artışına paralel olarak, ilişkisel veri tabanlarında mükerrer kayıtlar da artmaktadır. Artan bu mükerrer kayıtlar kullanıldıkları rapor veya analizlerde tutarsızlığa sebep olabilmektedir. Bu sorunu en aza indirgemek için yaptığımız çalışmada, kayıtların birbirlerine olan benzerlikleri ve alan uzmanlık bilgisiyle belirlenen ağırlıklar, öz nitelik olarak kullanılarak makine öğrenmesi algoritmaları ile mükerrer kayıtların bulunması hedeflenmiştir. Yapılan işlem sonucunda 9301467 satır veride 28412 mükerrer çift tespit edilmiştir. Bulunan bu mükerrer kayıtlar veri kaynağından temizlenerek verinin daha tutarlı hale gelmesi sağlanmaktadır. 

Çalışmaya buradan ulaşabilirsiniz.

Çalışmanın Sonuçları

Çalışma sonucunda, ilişkisel veri tabanında bulunan, tüm değerleri aynı olan mükerrer kayıtlarla birlikte, bazı değerleri farklı olsa da birbirine benzeyen ve aynı varlığı temsil eden kayıtların tespiti yapılmıştır. Yapılan işlemler sonucunda, veri tabanındaki aynı varlığı temsil eden kayıtlar yaklaşık %99 doğrulukla belirlenmiş, 9.301.467 satır veri içerisinde 28.412 çift mükerrer kayıt başarılı bir şekilde tespit edilmiştir. Bu mükerrer kayıtlar veri tabanından temizlenerek, bu verilerin kullanıldığı rapor ve analizler daha tutarlı hale getirilmiştir.