Deduplikacja baz danych
Celem procesu deduplikacji jest identyfikacja powtarzających się rekordów (duplikatów) odnoszących się do tego samego podmiotu (firmy bądź osoby indywidualnej).
W procesie deduplikacji wybierany jest jeden rekord z puli duplikatów, który będzie unikalnie reprezentował dany podmiot (tzw. "złoty rekord" bądź "master rekord").
Wykorzystywane w procesie deduplikacji algorytmy pozwalają na identyfikację duplikatów nawet pomimo występowania różnic w sposobie zapisu informacji (np. literówek w nazwach firm), należy jednak podkreślić, że wykonanie wcześniejszego etapu normalizacji i standaryzacji zwiększa skuteczność algorytmów deduplikacji.
Co to jest deduplikacja?
Deduplikacja danych jest czynnością polegającą na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie.
Skąd się biorą duplikaty?
Duplikaty najczęściej powstają przy łączeniu różnych baz danych oraz przy ręcznym wprowadzaniu danych, na skutek błędów i "literówek". W bazach, które nigdy nie były deduplikowane odsetek powtórzeń może sięgać nawet kilkunastu % procent.
Czy deduplikować można tylko dane adresowe?
Deduplikować można dane każdego rodzaju, np. dane adresowe, słowniki nazw, kody i nazewnictwo towarów oraz wszelkie inne bazy danych, w których proces wprowadzania danych był słabo kontrolowany.
Czy deduplikacja jest procesem jednoznacznym?
Deduplikacja jest zależna od ustawień konfiguracyjnych, które w zależności od rodzaju danych oraz celu (znajdywanie połączeń, wykluczanie powtórzeń) można odpowiednio przygotować i w rezultacie otrzymać najlepszy wynik. Deduplikacja jest także skalowalna, co oznacza iż jej kryteria mogą być bardziej lub mniej liberalne.
Dlaczego warto wykonywać deduplikację?
Deduplikacja danych to oszczędność i poprawa wizerunku oraz jakości. Przykładowo, posiadając bazę adresową potencjalnych klientów, w momencie chęci skontaktowania się z jej członkami listownie, biorąc pod uwagę sam koszt znaczka pocztowego i perspektywę jednorazowej wysyłki, deduplikacja opłaca się, jeżeli w bazie zostanie zidentyfikowanych już 2% powtarzających się rekordów.
Gdzie i kiedy stosuje się deduplikację?
- w celu wzbogacenia danych (uzupełnienia danych w bazie danymi z innej bazy)
- w systemach CRM, gdy powtarzające się dane komplikują pracę działu handlowego
- w celu wyeliminowania powtarzających się rekordów przed kontaktem z członkami bazy
- przy łączeniu kilku baz danych w jedną bazę
W jaki sposób DataWise wykonuje deduplikację?
DataWise dysponuje autorskim oprogramowaniem do deduplikacji, które działa w architekturze klient-serwer. Serwer usługi jest zintegrowany z narzędziami do standaryzacji i normalizacji danych wejściowych. Całe środowisko może być skonfigurowane w obrębie sieci LAN klienta lub udostępnione poprzez API. Proces deduplikacji może być też wykonany w trybie wsadowym przez DataWise.
Czy reguły deduplikacji są konfigurowalne?
Tak.
Co jest wynikiem deduplikacji (np. bazy firm)?
Jako wynik procesu zwracane są rekordy wejściowe wraz z wystandaryzowanymi polami, które wpływają na proced deduplikacji. Rekordy zaklasyfikowane jako duplikaty mają przypisany wspólny identyfikator.
Czy muszę coś zmieniać w swojej bazie danych aby wykonać deduplikację i wykorzystać jej wynik?
Nie