Preprocesarea Datelor

Cuprins seminar:

1.Colectarea datelor
2.Analiza preliminară a datelor
3.Descrierea datelor
4.Verificarea calităţii datelor
5.Finalizarea etapei de preprocesare

Extras din seminar:

Introducere în preprocesarea datelor

Date eronate = rezultate eronate

Date = inputul procesuliu de DM

DM lucrează preponderent pe date

Numerice: reale

Nominale: listă de valori

Etapa de preprocesare a datelor poate ocupa până la 50% din întregul proces de data mining.

Introducere în preprocesarea datelor

Date reale

În majoritatea cazurilor au o calitate scăzută => evaluarea preliminară a calităţi

Datele necesare pentru un anumit proiect pot fi prezente în mai multe surse (ex. Compartimente dinferite a unei firme) => colectarea datelor din toate sursele, centralizarea lor

Date din diferite surse pot fi în formate diferite şi astfel incompatibile => aducerea datelor într-o formă centralizată compatibilă

Colectarea datelor

Colectarea datelor

Depistarea surselor de date

Analiza surselor de date

Extragerea datelor din sursele de date

Asamblarea datelor într-un singur format

Colectarea datelor

Depistarea surselor de date

Datele pot proveni dintr-o singură sursă de date sau din surse multiple

Ex: surse multiple = departamente distincte

Sursele de date pot fi compatibile sau incompatibile

Compatibile: fişiere excel cu antet identic

Incompatibile: fişier excel şi bază de date acess

Problema care apare: Integrarea datelor

Trebuie stabilit ce informaţii sunt necesare pentru realizarea proiectului

Trebuie observat dacă toate informaţiile necesare sunt efectiv disponibile.

Colectarea datelor

Criterii ajutătoare de selecţie a datelor necesare:

determinarea atributelor necesare pentru un anumit obiectiv al procesului de data mining

determinarea numărului de atribute ce pot fi prelucrate cu tehnicile alese

determinarea fişierelor şi tabelelor ce prezintă interes pentru prelucrare, şi a datelor din aceste fişiere şi tabele care sunt relevante

Colectarea datelor

Analiza surselor de date

Surse interne ale firmei (calitate controlabilă)

Surse externe firmei (calitate scăzută)

Este necesară validarea surselor de date

Exemple de metode de achiziţie a datelor:

Metode de sondaj, aplicate de diferite firme

Chestionare asociate mărfurilor cumpătate în magazine

Informaţii conţinute în ordinele de plată, a plăţilor cu cărţi de credit sau prin conturi bancare

Diverse alte metode, cele mai multe asociate unor operaţii comerciale pe care le efectuează clienţii.

=> Cunoaşterea tipului de metodă folosit pentru achiziţionarea datelor ne va da ulterior informaţii despre calitatea datelor

Colectarea datelor

Extragerea datelor din sursele de date

Conţine etapele necesare obţinerii datelor sub o formă dorită

De obicei în faza aceasta se lucrează fie cu tabele de genul excel fie cu fişiere text

Extragerea datelor reprezintă selectarea doar acelor fişiere de care va fi nevoie la prelucrare

Datele extrase trebuie să păstreze un indentificator care va permite ulterior asamblarea datelor într-un singur fişier

Download gratuit

Documentul este oferit gratuit,
trebuie doar să te autentifici in contul tău.

Structură de fișiere:
  • Preprocesarea Datelor.pps
Alte informații:
Tipuri fișiere:
pps
Nota:
8/10 (1 voturi)
Nr fișiere:
1 fisier
Pagini (total):
30 pagini
Marime:
31.58KB (arhivat)
Publicat de:
NNT 1 P.
Nivel studiu:
Facultate
Tip document:
Seminar
Domeniu:
Inteligența Artificială
Predat:
la facultate
Materie:
Inteligența Artificială
Profesorului:
Adina Lipai
Sus!