ČESKÝ WEB: GOOGLE vyhledávání a jeho funkce Co je to Google? Jak vyhledávat. Page Rank. Crawler. Indexer a Hity.

GOOGLE vyhledávání a jeho funkce Co je to Google? Jak vyhledávat. Page Rank. Crawler. Indexer a Hity.

Vyhledávač Google
Co je GOOGLE a jak pracuje? Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.

Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).

Vyhledávání na Google
Ohodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.

Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.

Zdroje příjmů Google
Popularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).

Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.

Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.

Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)

Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.

URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.

Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).

Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.


Zdroj: český internet informace o Google


MENU a ŠTÍTKY JSOU ODKAZY

... o čem je krása ženy? #MeToo #redcardforZeman #US-Army-DragoonRide 1968 ABBA Accordeon Adiktologie Afrika Agáta Áji Akáty bílé Aktuální info Alkohol Alphaville Amazing Grace Amerika AMOR UT LACRIMA Amy Winehouse Ana Ivanovičová Analogie Analýza André Rieu Andrej Drbohlav Andrej Kiska Android Anna Kurnikova Armáda Arthur Braginsky Barbie Barvy jara Barvy léta Barvy podzimu Barvy zimy Basshunter Beautiful Women Bedřich Smetana Big In Japan Bílá růže Bilance Bioklimatologie Blondýnky Bohémův sen Božejáci Boží Muka Brandi Carlile Brilianty Brunetky Bubáci Bulvární manipulace Bylinky Calvin Harris Cesta pro lásku Cestování Cestování. Moře Cicero Cílená reklama Cinderella Citáty Civilizace Crawler czaktualne CZportal Černá zvěř Česká lidová muzika Česká písnička České dívky české hovory na netu Český atentát český folklor a tance Český Krumlov Český web Člověk a Nemoc Čtyřčata ČUČKAŘ Datacentrum Debaty a názory Delta Goodrem demokracie Den boje za svobodu a demokracii Den deštivý Den pro tebe Denemarková Radka Dětská radost Devastace zmar mafiánství lenost opilství Diamanty Dies irae Diktatura Diskuze Divoký horský tymián Dobromysl obecná Dobrý voják Švejk Dobrý vtip Domov Dovolená Dragoon Drahé kameny Dráty z traverz Dům Dvojčata a housle Dvorak From the New World Dvořák Edith Piaf El Condor Pasa Eliška Hašková Eliška Kaplicky Fuchsová Eric Clapton Etické a humánní principy Evergreen Evropa a my Evropská unie Exekutor v česku Facebook Fejeton Fejetony Fernando Lopez Forever Young Fotografie Fotografie přírody František Kopecký František Poupě Friends Goodbye My Lover Google GOOGLE NEWS Gyros Harlej Havel Heligonka Herec Pavel Nový Hi Historie Hlad Hledání Hledání na internetu Hloupost Hněv milenců HOBBY Hospoda Houbaření Houby How Deep Is My Love Hranolky Humor Humor a vtipy Hvězdy Chtíc aby spal Chytré děti Chytré ženy Chytří muži Ideologie Imunita kojení a spánek Internetové smetiště ÍRÁN Islám It's A Long Way To Tipperary Izrael Jaro Jea Paul Belmondo Jeep Jeleni Jen pro ten dnešní den Ježíšek Jídlo Jiří Bouška Jiří Vašíček Jiřina Fikejzová Jít pro lásku John Denver Josef naše láska Judita Čeřovská Judith Durham The Seekers Kačaba Kaddafi Kamenný most Karel Kryl Karel Kryl a Láska bláznivá Karel Schwarzenberg Kariera Karty Káva Kavalerie kávovar Keep smiling Kelly Family Klaus Kobane Kocourek Koledy Kolotoč svět Komentář Komentáře Komunitní sítě Komunizmus Konvoj Kopretina - jsi nejkrásnější Korona virus Korsika koření Kostel Krajina Krakonoš Krásná země česká Krásné dívky Krásné fotografky Krásné je žít Krásné trumpetistky Kritické myšlení Krmeliště online Krokonoše Krutihlav obecný (Jynx torquilla) Kuras Kvítek jabloňový Lady Gaga Lara Fabian Láska Lavičky Legendy taneční hudby Lékař Lékař a bylinky Leonardo da Vinci Les Levitace Líbej mě Lída Baarová Lidové písně Lindsey Stirling Lita Ford Loudá se půlměsíc Love Story Lůza Lyžování Manipulace Marcus Tullius CICERO Marie Rottrová Markéta Šichtařová Martin Stropnický Martina... Martinské Holé Maruška Max Kašparů Med Město Písek Metanol Meteorotropie Mexican Indian Dancers Migrace Milan Hlavsa Milujme svobodu a ztracená duše národa Mince Miss cizinka ČR Miss World Mix videa Mobbing Modlitba Modrý sarafán Monitorovací přístroje Morálka Moře Motorové kolečko Moudro Moudro pro dnešní den Moudro pro tento den Moudrost věků MUDr. RADKIN HONZÁK Muchomůrky Můj pohled na svět Mustafa Kemal Atatürk Myslivost Na loveckých stezkách Naše děti Naše kuchyně NATO Názory News No Milk Today Novinky O dobrodiních O nejvyšším dobru a zlu O Shenandoah Obrázky Obrázky .gif Occamova břitva OLD DRAGOON vs US ARMY Olympic Games Once Upon A Time In The West Ornitologie Ovar Ovidius Ozbrojení brigádníci Pandemie Partička Paul Anka Diana Penceův efekt Peníze Perský kocourek Sammuel Peru Pes Pět zásad socialismu Petr Novák Petra Němcová Petra Procházková Petrova Bouda Pieta Pinterest Pirati.cz Počasí Poděkování Podnikání Pohádka Pohádky Policie Politika Pověz mi co jíš... Povodně Pozdrav Pán Bůh Praha Pravda Pravopis Prdizlíci President Prezident Pro radost Prodaná nevěsta Prohibice Přátelství Předehra Předjaří Příběhy Příroda Příroda a my Příroda kvete Přítel Přítel rodiny Psychofarmaka Psychologie osobnosti Psychopatologie Ptáci Radujme se Radůza Rande Rangers Rebelové - Mně se líbí Bob Relax Reset Rick Astley Rodina Roman Šebrle Rostou Rudolf Pellar Rusko a zlo Rusovlásky Rušičky Růže Řecko Řemesla a umění Sabrina Salermo Sametová revoluce Sammuel Samsung Santorini Sedm statečných Selský rozum Sen Seneca Seznámení na internetu SIGA Simona Krainová Skřivan Skupinová hloupost (groupthink) Sladké višně Slova na neděli Smetana Smích Socialismus Sociální sítě Sokrates Soud ústavní Soumrak selského stavu South Africa foto Sova Sputnici Srdce jako kámen Stoicismus Stryker Svatý Václav Svědomí Svět internetu Svoboda Svoboda a demokracie Symphony no. 9 Systém Šmejdi ŠMÍRÁK Šperky Šťastná ústa Šťastné dětství Štěstí Šumava Švejk Švýcarský salašnický pes T.G.Masaryk Tanky a Ukrajina Taťána le Moigne Taxmeni teen song's Tenis Tenkrát Tenkrát na východě Tenkrát na západě Teroristé Tester Tetřívek The Beach Boys The ultimate western Tchaj-wan Tine Thing Helseth Tipperary Totalita Toxická psychóza Trampské písničky Traviči orlů Trhové Sviny Trpajzlíci Trubka Ťuhýk obecný Twitter U křížku U řeky U Zborova Učíme se anglicky Události na internetu Události ve světě Ukrajina Umění Urska Zolnir Slovenia Judo US Úsměv Úsměv Anny Úsměv pro mne Úvod a přivítání Václav Havel Válka Vanessa Mae Vánoce Velikonoční svátky jara Velký švýcarský salašnický pes Verše Verše jako píseň Veteráni Veverka Videa Videa jeleni Videa o lásce Viry Vlado Kumpan Vlasta Burian Vlaštovka Volby Volkswagen Vtipy Vtipy a humor Výlety Vyznání pro Pepču Vzpomínky W. A. Mozart: Turecký pochod Waldemar Matuška WCstory Webkamery What is love White Acasias Wimbledon Yvetta Simonová Yvonne Přenosilová Za vaši a naši svobodu Zahrada Zaláskujte se Zamilovaný Závislost Zázraky přírody Zdeničko má ZDROJ Ze smetiště internetu Ze života Zelené Zima v Česku Zimní sporty Zkázoděl Zlatá šedesátá Zlato Zubři online Žáby Žaludy Ženy Židovské Život na dlani Život podle Lucie Žižkovská píseň práce Žurnalistika

CO SE TADY ČTE NEJVÍC Oblíbené