Introducere în preprocesarea datelor
Date eronate = rezultate eronate
Date = inputul procesuliu de DM
DM lucrează preponderent pe date
Numerice: reale
Nominale: listă de valori
Etapa de preprocesare a datelor poate ocupa până la 50% din întregul proces de data mining.
Introducere în preprocesarea datelor
Date reale
În majoritatea cazurilor au o calitate scăzută => evaluarea preliminară a calităţi
Datele necesare pentru un anumit proiect pot fi prezente în mai multe surse (ex. Compartimente dinferite a unei firme) => colectarea datelor din toate sursele, centralizarea lor
Date din diferite surse pot fi în formate diferite şi astfel incompatibile => aducerea datelor într-o formă centralizată compatibilă
Colectarea datelor
Colectarea datelor
Depistarea surselor de date
Analiza surselor de date
Extragerea datelor din sursele de date
Asamblarea datelor într-un singur format
Colectarea datelor
Depistarea surselor de date
Datele pot proveni dintr-o singură sursă de date sau din surse multiple
Ex: surse multiple = departamente distincte
Sursele de date pot fi compatibile sau incompatibile
Compatibile: fişiere excel cu antet identic
Incompatibile: fişier excel şi bază de date acess
Problema care apare: Integrarea datelor
Trebuie stabilit ce informaţii sunt necesare pentru realizarea proiectului
Trebuie observat dacă toate informaţiile necesare sunt efectiv disponibile.
Colectarea datelor
Criterii ajutătoare de selecţie a datelor necesare:
determinarea atributelor necesare pentru un anumit obiectiv al procesului de data mining
determinarea numărului de atribute ce pot fi prelucrate cu tehnicile alese
determinarea fişierelor şi tabelelor ce prezintă interes pentru prelucrare, şi a datelor din aceste fişiere şi tabele care sunt relevante
Colectarea datelor
Analiza surselor de date
Surse interne ale firmei (calitate controlabilă)
Surse externe firmei (calitate scăzută)
Este necesară validarea surselor de date
Exemple de metode de achiziţie a datelor:
Metode de sondaj, aplicate de diferite firme
Chestionare asociate mărfurilor cumpătate în magazine
Informaţii conţinute în ordinele de plată, a plăţilor cu cărţi de credit sau prin conturi bancare
Diverse alte metode, cele mai multe asociate unor operaţii comerciale pe care le efectuează clienţii.
=> Cunoaşterea tipului de metodă folosit pentru achiziţionarea datelor ne va da ulterior informaţii despre calitatea datelor
Colectarea datelor
Extragerea datelor din sursele de date
Conţine etapele necesare obţinerii datelor sub o formă dorită
De obicei în faza aceasta se lucrează fie cu tabele de genul excel fie cu fişiere text
Extragerea datelor reprezintă selectarea doar acelor fişiere de care va fi nevoie la prelucrare
Datele extrase trebuie să păstreze un indentificator care va permite ulterior asamblarea datelor într-un singur fişier
Documentul este oferit gratuit,
trebuie doar să te autentifici in contul tău.