Předem je potřeba říci, že není veřejný přesný princip fungování, zpracování a řazení výsledků jednotlivých vyhledávačů. Nicméně jsou známá obecná pravidla a techniky.

Jak funguje vyhledávání?

Vyhledávací roboti (Seznam, Google aj.) procházejí veškerý obsah na internetu formou hypertextových odkazů – crawling. Z takto navštívených stránek si roboti indexují důležité aspekty stránek do vlastní databáze, na základě které pak zobrazují výsledky v SERP. Pro představu Google index měl v roce 1998 26 miliónů stránek, v roce 2000 1 bilión a v roce 2008 1 trilión (to je již opravdu hodně nul). Je potřeba brát v potaz obrovský rozvoj sociálních sítí v posledních letech, indexace textu v obrázcích, zvuku ve video souborech, obsahu emailů atd. Dostáváme se tedy opět o velký skok dopředu.

Při zpracovávání dotazu je používáno mnoho technologií a postupů. Jedním ze základních principů je Lemmatizace.

Lemmatizace převede slovní spojení (klíčové slovo) na lemma (jeho základ) a určí jeho kontext, který je určován jako parametr pro zpracování. Kontext vychází ze statistiky výskytu daného slovního spojení. Pokud je tedy např. hledáno slovní spojení „nabídka kurzů“, bude se jako základ uvažovat „kurz“ ve spojení výuky, tedy nabídky vzdělávacích kurzů. Oproti tomu nebude brán zřetel např. na měnové kurzy.

Jako varianta zpracování dotazu je možnost určování na základě statistického zpracování jazykových korpusů (soubor počítačově uložený textů). Nejznámější pro ČR je korpus zpracovávaný Ústavem Českého národního korpusu na Filozofické fakultě Univerzity Karlovy. Pro strojové zpracování existují např. synchronní korpusy (žánrově vyvážené, vydané v relativně kratším časovém období) SYN2000, SYN 2005, SYN2010. Pro představu korpus SYN 2010 obsahuje 100 000 000 textových slov (jedná se o současnou psanou češtinu). Problém je s rychlým vývojem obsahu a variacích slov na internetových stránkách a nutnosti pro každý další jazyk pracovat s adekvátním korpusem.

Pro zpracování a výpis v SERP se čím dál tím více bere v úvahu bohatost textu a jeho kontext. Při zpracování klíčového slova se určuje hodnocení  (rank) stránky ke každému klíčovému slovu zvlášť. Je tedy částečně zkreslující informace o ranku celé stránky, na které se uživatelé často zaměřují. Při posuzování relevance stránky se nebere v potaz pouze kvalita stránek a zpětné odkazy, ale také aktuálnost obsahu na základě dění ve společnosti. Nestačí tedy stránky vytvořit, správně nastavit SEO faktory, ale udržovat je novým a zajímavým obsahem, který bude reflektovat potřeby uživatelů, přivede nové návštěvníky a bude zvyšovat bohatost obsahu celých stránek.

S pozdravem
Ing. Jakub Vytiska