Clasificarea metodelor de analiză a datelor

Previzualizare curs:

Extras din curs:

In analiza datelor se studiaza informatii continute in matrici de tipul avand liniile corespunzatoare indivizilor (sau cazurilor) iar coloanele asociate variabilelor. Atunci cand ne alegem tehnica de analiza a datelor pe care dorim sa o aplicam, avand ca suport informatiile oferite de matricea X, trebuie sa avem in vedere ceea ce urmarim in aplicatia noastra.

In cele ce urmeaza vom prezenta o clasificare a tehnicilor de analiza a datelor si o propunere de etapizare a aplicarii lor, in functie de scopul urmarit.

De regula, in analiza pe care dorim sa o facem - atat numarul indivizilor cat si cel al variabilelor fiind mare - suntem confruntati cu o analiza multivariata. Dispunem insa de informatii asupra celor p variabile, informatii colectate de la n indivizi. Din punct de vedere geometric, aceste observatii pot fi reprezentate prin n puncte in spatiul p-dimensional al variabilelor. Daca am analiza doar doua variabile, atunci configuratia celor n puncte ar fi usor de vizualizat ,,plan", iar dificultatea analizei s-ar reduce foarte mult. Insa numarul variabilelor urmarite este - de regula - mare, iar configuratia punctelor este dificil de imaginat.

Intr-o prima etapa a modelarii toate cele p variabile sunt tratate ca variabile input si nu am stabilit nici o variabila scop (output). Prin urmare, sintetizand cele afirmate anterior, un prim obiectiv in analiza realizata ar fi acela de a reduce controlat dimensiunea matricei (reducand numarul de linii sau/si de coloane) si de a gasi un numar mai mic de variabile care sa explice ,,trasaturile" indivizilor.

In acelasi timp, in unele aplicatii se doreste atat asocierea unor scoruri indivizilor, asa incat sa-i putem ordona, cat si o clasificare a acestora in clase cat mai omogene. In aceste situatii vom apela la tehnici descriptive de analiza, tehnici numite nesupervizate. Acestea presupun ca toate variabilele urmarite au acelasi rol in explicarea fenomenului, neprecizandu-se initial nici o distinctie intre ele. Totusi, vom presupune ca ar exista factori ascunsi (latenti) comuni tuturor variabilelor, factori pe care incercam sa-i scoatem la iveala. In categoria metodelor nesupervizate se regasesc, dupa cele mai recente clasificari din domeniul data mining, urmatoarele cinci:

1) Analiza componentelor principale are ca scop reducerea dimensionalitatii datelor initiale. Analiza in componente principale (ACP) permite vizualizarea informatiilor continute intr-un tablou de date cantitative, in particular a corelatiilor existente intre variabile. ACP construieste variabile noi, artificiale si reprezentari grafice care permit vizualizarea relatiilor intre variabile cat si existenta eventuala a unor grupuri de indivizi sau grupuri de variabile.

2) Analiza de corespondente permite studiul corelatiei intre modalitatile a doua variabile calitative. Daca se doreste studiul corelatiei intre modalitatile a mai mult de 2 variabile calitative se foloseste o Analiza de Corespondente Multiple. In cazul in care se doreste studiul legaturilor intre mai multe variabile, unele calitative, altele cantitative, se transforma datele cantitative in date calitative, prin grupare si se foloseste o Analiza de Corespondente Multiple.

3) Analiza factorilor, avand ca scopuri principale identificarea factorilor latenti si asocierea de scoruri indivizilor.

4) Analiza clasificarii, ce are ca scop gruparea in clase cat mai omogene, uneori de indivizi, alteori de variabile.

5) Analiza cosului de piata, avand ca scop determinarea grupelor de produse care sunt achizitionate impreuna de catre cumparatori.

Daca in matricea de date putem identifica o variabila a carei evolutie depinde de celelalte, fie conform legitatii fenomenului, fie ca o constatare a unei analize anterioare, atunci aceasta va fi numita variabila dependenta sau variabila raspuns, iar variabilele care o influenteaza vor fi numite variabilele predictor sau variabile de influenta. Evident, in aceste situatii ne-ar interesa sa cuantificam, printr-o expresie matematica, legatura/legaturile dintre variabila raspuns si variabilele predictor. Vom recurge la asa-numitele metode supervizate care sunt metode explicative de analiza a datelor. In afara de functia explicativa, ele au de regula si o functie predictiva privind comportarea

Download gratuit

Documentul este oferit gratuit,
trebuie doar să te autentifici in contul tău.

Structură de fișiere:
  • Clasificarea metodelor de analiza a datelor.doc
Alte informații:
Tipuri fișiere:
doc
Diacritice:
Da
Nota:
8/10 (1 voturi)
Nr fișiere:
1 fisier
Pagini (total):
9 pagini
Imagini extrase:
9 imagini
Nr cuvinte:
3 102 cuvinte
Nr caractere:
16 557 caractere
Marime:
41.78KB (arhivat)
Publicat de:
Anonymous A.
Nivel studiu:
Facultate
Tip document:
Curs
Domeniu:
Statistică
Tag-uri:
analiza, date, statistici
Predat:
la facultate
Materie:
Statistică
Sus!