Trăsăturile, configurația și modul de funcționare pentru Google

Previzualizare proiect:

Cuprins proiect:

1. Google - Introducere 3
Cautarea in WEB 3
Cateva sfaturi pentru o cautare eficienta: 6
Utilizatori 7
Administratie 8
Functionarea Google - pe scurt 8
Hardware 8
Cum manevreaza Google cererile de cautare? 10
Sistemul PageRank 10
Googlebot-ul 11
Sistemul de fisiere Google 11
Scalabilitate: 12
1.1 Motoare de cautare - Evolutie: 1994-2000 13
1.2 Google: Evolutie concomitenta cu Web-ul 14
1.3 Caracteristici ale configuratiei 14
1.3.1 Capacitate imbunatatita de cautare 14
1.3.2. O cercetare academica a motorului de cautare 15
2. Trasaturile sistemului 16
2.1 PageRank: Ordonarea Web-ului 16
2.1.1 Descrierea unui calcul PageRank 16
2.1.2 Explicarea intuitiva 17
2.2 Textul link-ului 17
2.3 Alte trasaturi 18
3. Activitati similare 19
3.1 Extragerea de informatii 19
3.2 Diferente intre Web si colectiile bine controlate 20
4. Configuratia sistemului 21
4.1 Scurta descriere a arhitecturii Google 21
4.2 Structuri majore de date 22
4.2.1 BigFiles 22
4.2.2 Biblioteca (Repository) 22
4.2.3 Indexul documentelor 22
4.2.4 Lexiconul 23
4.2.5 Listele de hit-uri (Hit Lists) 23
4.2.6 Indexul primar (Forward Index) 24
4.2.7 Indexul complementar 25
4.4 Indexarea Web-ului 25
4.5 Cautarea 27
4.5.1 Sistemul de clasificare 27
4.5.2 Scurta recapitulare 28
5. Rezultate si mod de functionare 30
5.1 Parametri pentru stocare 30
5.2 Modul de functionare a sistemului 31
5.3 Procesul de cautare 31
6. Concluzii 32
6.1 Activitati viitoare 32
6.2 Cautare la standarde inalte 32
6.3 Arhitectura scalabila 33
Referinte 34

Extras din proiect:

1. Google - Introducere

Oricat de impartiali incearca jurnalistii sa fie, exista o tendinta clara in presa de a critica tot sau aproape tot ce face Microsoft si de a reda intr-o lumina placuta si optimista realizarile Google.

Este greu de spus cand a inceput aceasta moda si care au fost motivele din spatele ei. Un ochi atent ar observa ca pana la urma este vorba de doi giganti din lumea IT care nu sunt atat de diferiti, factorul primar care face diferenta intre cei doi fiind varsta.

Initial, Google a reprezentat un proiect de cercetare conceput in 1996 de Larry Page si Sergey Brin, doi doctoranzi de la Stanford. Cei doi au plecat de la ipoteza ca un motor de cautare care analizeazaa relatiile dintre website-uri ar duce la obtinerea de rezultate mai bune decat cele furnizate de tehnicile folosite atunci, si anume de cate ori se repeta cuvantul cheie pe pagina.

In martie 2001, Eric Schmidt a devenit membru al consiliului de directori, iar in august 2001, a fost numit CEO-ul companiei. Popularitatea noului motor de cautare s-a datorat design-ului aerisit, simplitatii si acuratetii rezultatelor intoarse, iar numarul de utilizatori a crescut exponential. In timp, dupa succesul motorului de cautare clasic, Google si-a extins bratele virtuale si peste imagini, video, stiri, grupuri, mail, cumparaturi, harti si multe altele. In plus, exista zvonuri ca Google ar planui o retea Internet proprie in Statele Unite, formata cu ajutorul kilometrilor intregi de fibra optica ramasi dupa boom-ul de la sfarsitul anilor '90. Aceasta fibra optica, care strabate suprafete intinse ale Statelor Unite poarta numele de "fibra intunecata" (dark fiber).

Cautarea in WEB

Internetul poate fi considerat ca fiind cea mai mare biblioteca disponibila si actualizata permanent. De aceea uneori gasirea informatiei care ne este necesara poate fi dificila.

World Wide Web (WWW sau Web) reflecta chiar prin numele sau trasaturile sale esentiale :

o este destinat cautarii informatiei in intregul Internet (world wide = in lumea intreaga)

o foloseste hipertextul pentru organizarea informatiei, ceea ce face ca aceasta sa apara ca o panza de paianjen (web) permitand navigarea cu usurinta de la o pagina la alta.

Pentru regasirea informatiei in Web se pot folosi urmatoarele instrumente:

o serviciul de navigare - browserul, care permite accesarea informatiilor prin introducerea adresei de web a paginii (numita URL - Uniform Resource Locator - identificator standard al locului in care se gaseste resursa), sau prin urmarirea unei hiperlegaturi (en. hyperlink) dintr-un alt document (care contine URL-ul paginii respective)

o serviciul de cautare automata - prin:

o instrumente de cautare (search tool)

o instrumente de indexare (indexing tool)

o motor de cautare (search engine)

Browserul permite, in general, efectuarea urmatoarelor operatii:

o navigarea printre paginile web si vizualizarea lor.

o urmarirea legaturilor dintre documente care contin hiperlegaturi.

o copierea informatiilor din Internet pe propriul calculator.

o cautarea informatiei in Internet.

o regasirea rapida a informatiilor prin folosirea ,,semnelor de carte" (,,pagina favorita") si a istoricului.

o accesarea altor servicii Internet: posta electronica, mesagerie instantanee etc.

Asadar, browserul integreaza accesul la mai multe servicii din Internet printr-o interfata accesibila si usor de utilizat.

O alternativa mai rapida pentru ,,rasfoirea" paginilor web in cautarea informatiei dorite este apelarea la un serviciu de cautare, adica un site web care contine in general urmatoarele categorii de informatii:

o instructiuni care arata modul in care trebuie folosit serviciul

o metoda prin care utilizatorul poate sa propuna un subiect pentru cautare

Portalurile sunt site-uri specializate care indeplinesc functia cataloagelor dintr-o biblioteca. Aceste site-uri aranjeaza pe categorii sau domenii diverse site-uri existente in Internet si le ordoneaza in functie de anumite criterii in cadrul categoriilor stabilite (pe subiecte, dupa popularitate, etc.). De multe ori, portalurile ofera si alte servicii pe langa cel de cautare (posta electronica, stiri etc.).

Motoarele de cautare sunt site-uri care au rolul de a ajuta utilizatorul sa gaseasca mai usor si mai direct informatia in Internet. De cele mai multe ori, in cuprinsul unui site cu rol de cautare, se regasesc ambele functionalitati - indexare in catalog si meniu de cautare. Motorul de cautare este in fapt o aplicatie care ,,rasfoieste" paginile web din Internet in cautarea cuvintelor sau frazelor cerute de utilizator. Pentru aceasta sunt folosite niste programe automate care alcatuiesc liste de cuvinte din interiorul site-urilor. Rezultatele cautarii sunt afisate in functie de relevanta stabilita de motorul de cautare, utilizand indexarea termenilor din aceste liste.

Bibliografie:

Google Guide (2003) "How Google Works" Google Guide Retrieved 8 Sept, 2004 from: googleguide.com

Sullivan, R., (2004) "Google and Googlebot Information" searchengineposition.com Retrieved 8 Sept, 2004 from: searchengineposition.com

Brin, S., Page, L. (2000) "The Anatomy of a Large-Scale Hypertextual Web Search Engine" Retrieved 8 Sept, 2004 from: stanford.edu

Barroso, L. A., Dean, J., Holzle, U. (2003) "Web search for a planet: The Google cluster architecture" Micro, IEEE, Volume: 23 , Issue: 2, pp.22-28 Ghemawat, S., Gobioff, H., and Leung, S. T., (2003) "The Google File System" SOSP'03, October 19-22

Traducere de pe pagina: http://wiki.media-culture.org.au/index.php/Google- How_It_Works.

Descarcă proiect

Pentru a descărca acest document,
trebuie să te autentifici in contul tău.

Structură de fișiere:
  • Trasaturile, configuratia si modul de funtionare pentru Google.doc
Alte informații:
Tipuri fișiere:
doc
Diacritice:
Da
Nota:
8/10 (3 voturi)
Nr fișiere:
1 fisier
Pagini (total):
34 pagini
Imagini extrase:
34 imagini
Nr cuvinte:
12 716 cuvinte
Nr caractere:
64 524 caractere
Marime:
253.29KB (arhivat)
Publicat de:
Anonymous A.
Nivel studiu:
Facultate
Tip document:
Proiect
Domeniu:
Calculatoare
Tag-uri:
configuratie, google, index, hardware, software
Predat:
Facultatea de Automatica, Calculatoare, Electronica , Universitatea din Craiova din Craiova
Materie:
Calculatoare
Sus!