1.1 Definirea Depozitelor de Date
Depozitele de Date - DD (DW - data warehouse) reprezenta rezultatul interferentei mediului economic si al tehnologiilor informatice avansate.
Mediul economic este tot mai competitiv, tinde spre globalizare, devine tot mai complex si solicita informatii elaborate pentru sprijinirea deciziilor strategice.
Depozitul de date (sens larg) = o baza de date de foarte mari dimensiuni care este intretinuta separat de bazele de date operationale ale unei organizatii si care este construita din date provenite din sisteme sursa prin extragere, filtrare, transformare si stocare in depozite speciale, in scopul sprijinirii proceselor decizionale.
Depozitele de date sprijina prelucrarea informatiilor pentru analiza, furnizand o platforma solida de consolidare a datelor istorice. Un depozit de date este un ansamblu de date consistente, din punct de vedere semantic, care serveste la o implementare fizica a unui model de date pentru sprijinirea deciziei si stocheaza informatii pe care o organizatie le solicita in luarea deciziilor strategice.
1.2. Organizarea datelor in DD
Sursele de date pentru depozitul de date provin in principal din datele importate din sistemul informatic operational, dar mai pot proveni din datele de arhiva (in perioada de constituire a depozitului) precum si din surse externe (baze de date publice, date demografice, date statistice, date de prognoza economica, date obtinute in urma unor sondaje de opinie etc.).
Integrarea datelor reprezinta un aspect important al depozitului de date si anume ratiunea pentru care acesta este creat. Datele sunt adunate pentru a raspunde nevoilor informationale ale intregii organizatii, asigurand faptul ca rapoartele generate pentru diverse compartimente vor contine aceleasi rezultate.
Sistemul operational este, de obicei, format din mai multe subsisteme relativ independente, create la momente diferite, de echipe diferite, in maniere diferite, ceea ce face greoaie folosirea unui astfel de sistem pentru analiza.
Metadatele
Metadatele sunt informatii despre datele existente in DD, care descriu structura (continutul) depozitului si furnizeaza referinte directe la date.
Ca metadate se stocheaza si diverse viziuni (views) asociate unor categorii de utilizatori.
Metadatele sunt folosite pentru administrarea depozitului de date, deoarece contin informatii despre: sursa datelor, algoritmii de sumarizare, statisticile de utilizare etc. Metadatele sunt create pentru toate numele de date si definitiile din depozit. Metadate aditionale sunt create pentru a asocia intervale de timp la datele extrase si alte campuri care vor fi adaugate prin filtrarea datelor sau prin procesele de integrare.
Exemple de metadate. Descrierea proprietatilor datelor (obiectelor) din lumea reala se face prin intermediul metadatelor, printr-un proces de abstractizare. Astfel, metadatele referitoare la campurile unui depozit de date se vor referi la: denumirea campului (asa cum va fi folosita in tabela relationala fizica), sinonim pentru denumirea campului (asa cum este folosit de utilizatori), tipul de date pentru fiecare camp (asa cum este acceptat de SGBD), indexarea (daca va fi folosit pentru camp), cheia (daca un camp este cheie), formatul campului, descrierea (o definitie a campului).
1.3. Baze de date si Depozite de date
Atat bazele de date cat si depozitele de date contin cantitati mari de date structurate care pot fi consultate rapid, prin structuri de acces optimizate si se bazeaza, in majoritatea cazurilor, pe tehnologia relationala.
Sistemele de baze de date relationale sunt adecvate aplicatiilor curente de gestiune si au ca obiectiv executia on-line a tranzactiilor si proceselor de interogare (sunt sisteme tip OLTP - On Line Transaction Processing). Aceste sisteme implementeaza toate operatiile zilnice dintr-o organizatie.
Sistemele cu depozite de date servesc utilizatorilor sau specialistilor in domeniul analizei datelor si luarii deciziilor, pot organiza si prezenta datele in formate variate, in ordinea solicitarilor, de la diferiti utilizatori (sunt sisteme tip OLAP - On Line Analytical Processing).
Bazele de date din sistemele operationale contin date curente, detaliate, care trebuie actualizate si interogate rapid, in conditii de deplina securitate, constituind suportul sistemelor informationale de prelucrare a tranzactiilor.
Depozitele de date sunt construite special pentru sprijinirea luarii deciziilor. Ele au ca obiectiv regruparea datelor, agregarea si sintetizarea lor, organizarea si coordonarea informatiilor provenind din surse diferite, integrarea si stocare acestora pentru a da decidentilor o imagine adecvata care sa permita regasirea si analiza eficace a informatiilor necesare.
Interogarile obisnuite intr-un depozit de date sunt mai complexe si mai variate decat cele din bazele de date. Ele se aplica asupra unor volume foarte mari de date si presupun calcule complexe (analiza tendintei, medii, dispersii etc.), care necesita adesea agregari.
Bazele de date sunt orientate pe client (customer oriented) si sunt utilizate pentru procesarea tranzactiilor si interogarilor.
DD sunt orientate pe piata (market oriented) si utilizate de manageri si analisti de date.
BD gestioneaza date curente care sunt destul de detaliate pentru a fi usor utilizate inactivitatea operationala.
DD gestioneaza date istorice, furnizand facilitati pentru sintetizare si agregare, precum si pentru stocarea si gestionarea informatiilor cu diferite niveluri de granularitate. Aceste aspecte fac ca datele sa fie usor utilizate de catre decidenti, mai ales in tactica si strategia organizatiei.
La BD sursele de date sunt tranzactiile atomice, iar accesul este de tip citire si scriere.
La DD sursele de date sunt BD operationale, iar accesul este cel mai adesea de tip citire pentru interogari complexe.
O baza de date este proiectata pornind de la sarcini si activitati cunoscute: indexarea, utilizarea cheilor, cautarea unor inregistrari specifice, optimizarea interogarilor. Interogarile unui depozit de date sunt adesea complexe, implicand calcule asupra unor grupuri mari de date cu totalizari pe diferite niveluri, ceea ce presupune activitati speciale: de organizare a datelor, de acces.
Comparatie intre BD si DD
Criteriu BD DD
Procesele operationale informationale
Executie tranzactii analize
Utilizatori toate categoriile manageri, analisti de date
Operatii zilnice asistarea deciziei
Caracterul datelor curente istorice
Nivelul de sinteza primitive, detaliere sintetizare, consolidare
Acces citire, scriere citire
Focalizare culegere date furnizare informatii
Sursa de date este validata filtrata, transformata
Volum de date ordinul GB ordinul TB
Prioritati performante, disponibilitate flexibilitate, autonomie
Software necesar SGBD specializat, SGBD
1.4. Arhitectura depozitelor de date
Sunt cel putin doua arhitecturi de DD care se pot transforma oricand una in cealalta: pe componente, pe niveluri.
1.https://ro.wikipedia.org
2.datawarehouse4u.info
3.Data Warehousing fundamental, Paulraj Ponniah
4.The Data warehouse etl, Wiley, 2000
5.https://www.ibm.com
6.Depozite de date, Dinu Airinei
Pentru a descărca acest document,
trebuie să te autentifici in contul tău.