GOOGLE vyhledávání a jeho funkce


Co je GOOGLE a jak pracuje...?
Vyhledávač původně navrhli Sergey Brin a Larry Page v rámci svého výzkumu na Stanfordově univerzitě, aby ověřili funkčnost svého algoritmu pro ohodnocování webových stránek PageRank. Záhy se ukázalo, že kvalita jeho výsledků natolik převyšovala tehdy dostupné vyhledávače, že je Google v krátké době předstihl v úspěšnosti hledání.

Kromě řazení výsledků podle Google PageRanku bylo v Googlu novinkou i kladení důrazu na vyhledávání frází (takže se nestávalo, že víceslovný dotaz vrátil stránky, kde se tato slova vůbec nevyskytovala pohromadě) a ukládání plného textu indexovaných stránek (které umožňovalo u výsledných stránek rovnou zobrazovat relevantní fragmenty textu).
Vyhledávání na GoogleOhodnocování výsledků dotazů nezahrnuje pouze Google PageRank, ale i pozici hledaného slova v dokumentu. Hodnocení v Google byla navrženo tak, aby žádný jednotlivý faktor nemohl mít příliš velký vliv na výsledek. Je-li vyhodnocován jednoslovný dotaz, zkoumá se seznam hitů pro dané slovo. Google má u každého hitu uložen i jeho druh (titulek, text odkazu, URL, obyčejný text velkým písmem, obyčejný text malým písmem, ...) každému druhu je pak přiřazena určitá váha. Na tyto váhy lze nahlížet jako na vektor. Stejně tak je ohodnocen počet hitů pro každý druh - ohodnocení na začátku roste lineárně s počtem, ale pak se závislost "narovnává", takže pokud počet výskytů překročí určitou mez, ohodnocení dále neroste. Skalární součin vektoru vah a vektoru ohodnocení počtu výskytů tvoří ohodnocení relevance dokumentu, jehož kombinace s Google PageRankem určí konečné pořadí dokumentu ve výsledku. Pro víceslovné dotazy je situace komplikovanější - musí se procházet několik seznamů hitů najednou, aby bylo možné ohodnocovat výsledky na základě vzdálenosti jednotlivých výskytů. Pro každou nalezenou skupinu hitů je spočítána vzdálenost výskytu všech nalezených slov v textu dokumentu (nebo odkazu), které je přiřazeno jedno z deseti ohodnocení. Počty výskytů se potom nepočítají jen pro různé druhy hitů, ale i pro každou dvojici druh - vzdálenost. Oba tyto údaje jsou převedeny na příslušná ohodnocení, a jejich skalární součin tvoří ohodnocení relevance dokumentu.
Současný Google
O technologiích, které používá současný vyhledávač Google, není známo mnoho: Google jako komerční firma uvolňuje méně informací, než v době, kdy šlo o akademický projekt. Jisté je, že celý vyhledávač je rozdělen do několika tzv. datacenter, rozmístěných po celém světě. Datacentra zodpovídají dotazy nezávisle, dotazy se mezi ně rozdělují pomocí rotace DNS záznamů (jmenné servery Google na každý dotaz vrací vstupní IP adresu jiného datacentra, vybírá je na základě geografické polohy uživatele a vytížení jednotlivých center). Datacentrum se skládá z velkého počtu "běžných" PC, používajících upravenou verzi operačního systému Linux. Takové počítače které mají lepší poměr cena/výkon než vysoce výkonné (ale současně velmi drahé) servery. Podle odhadů z dubna 2004 se v datacentrech nachází přibližně 63 tisíc počítačů, což z činí cluster Googlu nejvýkonnější na světě. Spolehlivost je zajištěna na softwarové úrovni - při výpadku je počítač vyřazen z clusteru a jeho úlohy převezme jiný.
Zdroje příjmů GooglePopularita Google umožnila jeho zakladatelům založit inzertní systém Google AdWords a Google AdSense. AdWords je v podstatě administrátorské rozhraní, které umožňuje inzerentům, kteří mají u Google založený účet a na něm vloženy finanční prostředky, vytvořit inzerát, který se pak bude zobrazovat vedle fulltextových výsledků v pravém sloupci nazvaném sponsored listings. Tento malý inzerát je svázán pevnými pravidly - má limitovaný rozsah a i jeho obsah je omezen. Inzerenti si pro každý inzerát stanoví i tzv. keywords, čili klíčová slova, po jejichž zadání do vyhledávače Google nebo některé z jeho přidružených stránek, se zobrazí právě onen inzerát. Inzerent platí Google částku, kterou si sám stanoví (min. částku stanoví Google), za každé kliknutí na jeho inzerát. Pořadí inzerátů je stanoveno systémem na základě kombinace několika faktorů - ceny za klik (cost per click) a míry prokliků (click through rate).
Sestava vyhledávače google:Informace vychází z popisu publikovaného prototypu. Protože je google tedy společnost Google Inc komerční firma nejsou z logických důvodů data a stuktura vyhledávače dostupné veřejnosti.
Crawler
Stahuje ze sítě dokumenty, které mu určí URL Server. Crawlerů běží několik paralelně, každý najednou udržuje stovky otevřených spojení k webserverům, aby nebyl zdržován čekáním na jejich odpovědi. Vzhledem k variabilitě internetového obsahu musí být crawler velice robustní a odolný vůči atypickým případům, jako jsou např. online hry.
Store server
Dokumenty od Crawleru komprimuje a ukládá do Repository. Každé stránce je přiřazen identifikátor docID (ten se generuje, kdykoliv je získáno nové URL)
Indexer
Má několik úkolů:
Parsuje dokumenty do sady tzv. hitů - každý hit zaznamená výskyt slova v dokumentu společně s jeho pozicí, kapitalizací a relativní velikostí písma, jakým je napsáno. Hity jsou ukládány do "zásobníků" (barrels), které tak tvoří částečně setříděný index.
Z parsovaných dokumentů také filtruje odkazy (anchors), které se ukládají do k tomu určeného souboru. U každého odkazu je uloženo, odkud a kam vede, a také text odkazu.
URLresolver
dále zpracovává soubor s odkazy na URL - převádí relativní cesty na absolutní URL a na docID. Tyto informace ukládá do indexu dokumentů, který mimo jiné slouží jako zdroj dat pro URL Server. Texty odkazu také přidává do indexu k dokumentu, na nějž směřují. Informace o vzájemných odkazech se používají pro výpočet PageRanku.
Třídič (sorter)
přetřiďuje index do zpětného indexu - hity místo podle docID řadí podle wordID (ID slova, které se používá v hitu). Třídič zároveň vytváří seznam použitých wordID a jejich četností, z nichž je programem DumpLexicon vytvořen nový slovník (lexicon).
Vyhledávač (searcher)
běží na webserveru a s použitím slovníku, zpětného indexu a PageRanků odpovídá na dotazy.

Zdroj: český internet informace o Google

MENU:

Sociální sítě Krásná země česká O nejvyšším dobru a zlu Tenkrát na východě Dies irae Svoboda Beautiful Women Fotografie Krásné je žít Historie Den boje za svobodu a demokracii Ze smetiště internetu Láska Humor a vtipy Kariera Můj pohled na svět Svoboda a demokracie České dívky české hovory na netu Cesta pro lásku Chytré ženy Slova na neděli Zaláskujte se czaktualne Česká písnička Příroda Skupinová hloupost (groupthink) Amerika Analogie Dobrý vtip Svět internetu Vtipy Analýza Cestování Prezident Události ve světě Videa o lásce Česká lidová muzika CZportal Internetové smetiště Peníze Radujme se Ukrajina Válka Úsměv Debaty a názory Google Ideologie Moudro pro dnešní den Sametová revoluce Trpajzlíci Etické a humánní principy Evergreen Facebook Moudro pro tento den Názory Pověz mi co jíš... Videa Český web #redcardforZeman Den pro tebe Fotografie přírody Hloupost Islám Komunizmus Krásné dívky Lavičky Marie Rottrová Počasí Teroristé Události na internetu Umění Vtipy a humor What is love Za vaši a naši svobodu teen song's Člověk a Nemoc Šťastné dětství Aktuální info Bilance Civilizace Domov Dvorak From the New World Fejeton Humor Karel Kryl Karel Kryl a Láska bláznivá Kavalerie Komentář Komunitní sítě Konvoj Líbej mě News Pravda Rusko a zlo Tenkrát na západě Trubka Verše Verše jako píseň Vzpomínky Zamilovaný #US-Army-DragoonRide Accordeon Barvy jara Barvy podzimu Blondýnky Brilianty Brunetky Citáty Devastace zmar mafiánství lenost opilství Diamanty Dovolená Dragoon Evropa a my Hledání na internetu Hospoda Jít pro lásku Komentáře Legendy taneční hudby Les Lidové písně Lindsey Stirling Myslivost Novinky Prdizlíci Předehra Přátelství Příběhy Příroda kvete Rusovlásky Selský rozum Socialismus Srdce jako kámen Tenis US Václav Havel Vánoce Waldemar Matuška Ze života Úsměv pro mne Český atentát Řecko Štěstí Život na dlani 1968 Afrika Alkohol Barvy léta Bedřich Smetana Bohémův sen Bubáci Cestování. Moře Chytří muži Cílená reklama Diktatura Drahé kameny Dětská radost Eric Clapton Evropská unie Forever Young Goodbye My Lover HOBBY Hlad Hledání Hněv milenců It's A Long Way To Tipperary Izrael Jeleni Josef naše láska Judita Čeřovská Kaddafi Kocourek Koledy Kopretina - jsi nejkrásnější Korsika Krajina Krásné fotografky Levitace Love Story Lyžování Lékař Martinské Holé Moudro Město Písek Na loveckých stezkách Naše kuchyně Once Upon A Time In The West Ozbrojení brigádníci Perský kocourek Sammuel Petr Novák Poděkování Praha Psychopatologie Předjaří Příroda a my Radůza Rodina Santorini Seneca Smích Svatý Václav T.G.Masaryk Tanky a Ukrajina Tester The ultimate western Totalita Traviči orlů Twitter U řeky Veteráni Videa jeleni Vlado Kumpan Volby Výlety Zdeničko má Zima v Česku Zimní sporty Zázraky přírody ÍRÁN Úsměv Anny český folklor a tance Řemesla a umění Šperky ... o čem je krása ženy? ABBA AMOR UT LACRIMA Agáta Akáty bílé Alphaville Amy Winehouse Ana Ivanovičová Andrej Kiska Android Anna Kurnikova Armáda Arthur Braginsky Atacama Barbie Barvy zimy Basshunter Bioklimatologie Božejáci Boží Muka Brandi Carlile Bylinky Bílá růže Chtíc aby spal Chytré děti Cicero Cinderella Delta Goodrem Den deštivý Diskuze Divoký horský tymián Dobromysl obecná Dobrý voják Švejk Dráty z traverz Dvojčata a housle Dvořák Dělání Dům Edith Piaf El Condor Pasa Eliška Kaplicky Fuchsová Exekutor v česku Fejetony Fernando Lopez František Kopecký František Poupě Friends Harlej Havel Herec Pavel Nový Hi Houbaření Houby Hvězdy Imunita kojení a spánek Jaro Jea Paul Belmondo Jeep Jen pro ten dnešní den Ježíšek Jiřina Fikejzová Jiří Vašíček John Denver Judith Durham The Seekers Kamenný most Karel Schwarzenberg Karty Kačaba Keep smiling Kelly Family Klaus Kobane Kolotoč svět Kostel Krakonoš Krmeliště online Krokonoše Krásné trumpetistky Kuras Kvítek jabloňový Káva Lara Fabian Leonardo da Vinci Lita Ford Loudá se půlměsíc Lékař a bylinky Lída Baarová Manipulace Marcus Tullius CICERO Markéta Šichtařová Martin Stropnický Martina... Maruška Max Kašparů Med Megan Fox Metanol Meteorotropie Mexican Indian Dancers Migrace Mince Miss World Miss cizinka ČR Mix videa Mobbing Modlitba Modrý sarafán Monitorovací přístroje Motorové kolečko Moudrost věků Moře Mustafa Kemal Atatürk Naše děti No Milk Today O Shenandoah O dobrodiních OLD DRAGOON vs US ARMY Obrázky Obrázky .gif Olympic Games Ovar Ovidius Partička Paul Anka Diana Peru Pes Petra Němcová Petra Procházková Petrova Bouda Pinterest Pirati.cz Podnikání Pohádka Pohádky Policie Politika Poušť Povodně Pozdrav Pán Bůh President Pro radost Prodaná nevěsta Prohibice Psychologie osobnosti Přítel Přítel rodiny Rande Rangers Rebelové - Mně se líbí Bob Relax Reset Rick Astley Roman Šebrle Rostou Rudolf Pellar Rušičky SIGA Sabrina Salermo Sammuel Samsung Sedm statečných Sen Seznámení na internetu Simona Krainová Skřivan Sladké višně Slovensko Smetana Sokrates Soud ústavní Soumrak selského stavu South Africa foto Sova Sputnici Stoicismus Stryker Symphony no. 9 Systém Taxmeni Taťána le Moigne Tenkrát The Beach Boys Tine Thing Helseth Tipperary Trampské písničky Trhové Sviny U Zborova U křížku Urska Zolnir Slovenia Judo Učíme se anglicky Vanessa Mae Velikonoční svátky jara Velký švýcarský salašnický pes Veverka Vlasta Burian Vlaštovka Volkswagen Vyznání pro Pepču W. A. Mozart: Turecký pochod WCstory Webkamery White Acasias Wimbledon Yvetta Simonová Yvonne Přenosilová Zahrada Zelené Zkázoděl Zlato Zlatá šedesátá Zubři online koření kávovar Áji Úvod a přivítání Černá zvěř Český Krumlov Čtyřčata Šmejdi Šumava Švejk Švýcarský salašnický pes Šťastná ústa Žaludy Ženy Židovské Život podle Lucie Žižkovská píseň práce Žurnalistika Žáby

CO SE TADY ČTE NEJVÍC Oblíbené

Related Posts Plugin for WordPress, Blogger...