Vyhledávání informací a jejich filtrování

V této části zaměříme především na témata, která s vyhledáváním těsně souvisí, ale v uvedeném kurzu se jim nevěnuje prostor či pozornost. Půjde především o to, jak vyhledávání vlastně funguje, jaké jsou moderní technologie pro efektivnější vyhledávání a více se podíváme také na WoS a Scopus, jako dvě klíčové databáze odborných textů.

Jak jsme již uvedli, schopnost vyhledávat informace patří mezi zcela zásadní kompetence. Představuje jistý diferenční znak mezi členstvím ve společnosti informační a znalostní. Známé heslo, že vědění je moc, se zde potkává s tím, že moc je fixována na schopnost vyhledávat informace. Proto je třeba této části kompetenčního rámce věnovat náležitou pozornost a zájem.

Definování informační potřeby

Mohlo by se zdát, že první krok při vyhledávání určitých informací je technicky neměnný a stabilní. Uživatel musí definovat svoji informační potřebu a na základě její explikace – například formou klíčových slov – pak může přistoupit k vyhledávání. Zde jsou dvě podstatná ale – předně se očekává, že člověk ví, co potřebuje – pak je definice explicitní a vyhledávací proces v zásadě otázkou jisté řemeslné zručnosti. Složitější (a ve skutečnosti asi častější) situace je taková, že potřebu explikovat neumíme. Řešíme například příliš složitý problém, máme téma, u kterého neumíme pojmenovat klíčový koncept atp. Ještě méně jasně ohraničená je pak situace, kdy nevíme, že danou informaci vůbec potřebujeme.

Jak mohou vyhledávače v takovém případě pomoci? V současné době se hovoří o rozdílu mezi informačním vyhledáváním a objevováním. Pomocí digitálního informačního kurátorství je možné například tvořit tematické sbírky, které mapují určitou oblast. Uživatel k nim pak přistupuje tak, že mu odkrývají určitou oblast lidského poznání a díky tomu mu dávají onu základní orientaci a vhled. Aby pak mohl zformulovat vyhledávací dotaz, který ho dovede k cíli.

Tvorba takových sbírek je sice dlouhodobě diskutovaná a reflektovaná, ale zatím existuje velice málo efektivně použitelných příkladů. Mnohem častější je, že například učitel nebo knihovník takovou sbírku vytvoří speciálně pro potřeby svých uživatelů. Ti pak s jeho kolekcí mohou pracovat a případně ji dále doplňovat nebo rozvíjet.

Takové kolekce mohou být součástí organizace informací, které si vytváří každý uživatel sám a o kterých budeme ještě mluvit. Důležité je, že existují jak teoretické, tak také technicky dostupné možnosti, jak uživateli ukázat, co by pro něj mohlo být zajímavé a důležité. A jednou z hojně diskutovaných cest je personalizace vyhledávání.

Personalizace vyhledávání

Vyhledávače mají o uživatelích obrovské množství informací – Google o nás ví, jak jsme staří, jaký je náš gender, ale také to, co nás baví a zajímá. Docela zajímavým faktem je, že to možná ví přesněji a lépe, než bychom to sami napsali do nějakého dotazníku. Pokud je člověk přihlášený v prohlížeči nebo vyhledávači (hranice mezi těmito dvěma pojmy se v případě Google Chrome postupně tenčí), provozovatel může sbírat informace o tom, co hledáme, vytvářet si různé modely toho, co by nás mohlo zajímat a ty poté promítat do výsledků vyhledávání.

Cílem personalizace výsledků vyhledávání je to, aby uživatel našel, co potřebuje a pokud možno co nejdříve. Například pokud bude vědět, že je člověk zahrádkářem, tak při slově „kopulace“ mu nabídne botanický pojem, nikoli pohlavní styk. Nebo u chemika při slově „latex“ nabídne plast, nikoli značkovací jazyk atp.

Vyhledávače přitom upravují výsledky na základě velkého množství parametrů. Mimo zmíněných zájmů a demografických informací, se do personalizace promítá také například geografická poloha, zkušenost s předchozím vyhledáváním atp. Personalizace výsledků vyhledávání (ale také obsahu obecně) je kritizována ze dvou základních pozic. Tou první je, že parametry nejsou přesně známé. Člověk se stává obětí datového modelování, se kterým může sotva něco udělat. Pokud uvážíme, že informace, které nacházíme na internetu, mají vliv na to, jak se politicky rozhodujeme nebo třeba na ekonomickou aktivitu, je zřejmé, že obrovská moc v rukou vyhledávačů, která je současně jen velice málo regulovaná, představuje velký bezpečnostní problém.

Druhou obtíží je to, že taková forma filtrování obsahu vede k tvorbě tzv. informačních bublin. Dochází k tomu, že vyhledávače přirozeně nabízejí informace, které chceme konzumovat a ty, které pro nás nejsou zajímavé (například reflektují jiný politický či náboženský názor), schovává. Díky tomu vznikají skupiny osob, které sdílejí jistý narativ, který je stále více oddělený od zbytku společnosti. Výsledkem je pak stále více rozdělená a fragmentarizovaná společnost, která nesdílí společné události a příběhy. Efektivní doručování obsahu tak může mít podobné dopady jako propaganda či cenzura.

Jde o jeden z důvodů, proč určitá část společnosti nechce užívat personalizované výsledky (jakkoli je to samozřejmě rychlé a pohodlné) a preferuje méně komfortní cestu. Vyhledávače jako DuckDuckGo, usilují o to, aby výsledky vyhledávání byly co možná nejméně personalizované.

Je ale třeba říci, že do této oblasti vstupuje ještě rozměr politicko-legislativní. V některých zemích může být část obsahu běžně dostupná skrze vyhledávač nelegální (například v EU může jít o údaje o osobě, která nechce, aby se o ní tato data objevovala online, v Číně naopak o filtrování a monitorování určitých citlivých témat, jako je podobnost Si Ťin-pchinga s Medvídkem Pú). Různé státy mohou tedy do výsledků vyhledávání zasahovat a měnit je.

Moderní technologie

Rádi bychom se také zastavili u vybraných technologií, které mohou vyhledávání v budoucnu výrazným způsobem ovlivnit či měnit. Zřejmě nejvíce se hovoří o sémantickém webu, který by měl přinést několik zásadních změn. Tou první je práce s přirozeným jazykem. Již samo sousloví „vyhledávací dotaz“ v sobě obsahuje to, že by mělo jít o otázku, na kterou chce uživatel odpověď. Nikoli ve formě tisíců odkazů na webové stránky, ale v podobě jasně strukturované věty – chce vědět, kdo je to Aj Wej Wej nebo kdy zemřel Václav Havel. Tato změna nebude jen technická, ale především faktická – místo kritické práce se zdroji se bude uživatel často (jistě ne vždy) spoléhat na to, jakou odpověď mu poskytne vyhledávač. To bude mít vliv jak na to, co vyhledáváme, ale také na způsob práce s prameny, formami a způsoby učení atp.

Druhým efektem s dalekosáhlými důsledky bude možnost lepšího propojování informací. Díky sémantizaci by mělo být snazší nabízet automaticky relevantní příbuzný obsah a toto doporučování na základě potřeb uživatele různě upravovat. Výsledkem by měla být síť propojených dokumentů, mezi kterými bude možné procházet a výrazně tak zefektivnit studium, které získá méně lineární charakter a více se oběma zmíněnými aspekty sémantického webu přiblíží objevování než vyhledávání.

Velkým tématem současnosti je analýza sentimentu – tedy emocí, které jednotlivé dokumenty nebo třeba příspěvky na sociálních sítích mají. Díky nim by mohlo být snazší automaticky posuzovat relevanci zpráv a lépe upravovat výsledky vyhledávání.

Jak již bylo naznačeno v tématu o personalizaci, zřejmě největším tématem bude ale doručování (klastrování) obsahu. Doporučování relevantního obsahu znají všichni uživatelé sociálních sítí – na zdi na Twitteru či na Facebooku se nemůže zobrazovat vše a algoritmus na základě strojového učení rozhoduje, co bude asi uživatele zajímat. V tomto ohledu mohou být velice zajímavé jak systémy související se sémantizací webu, tak také strojové učení, analýza emocí nebo umělá inteligence. Opět půjde o poměrně složitý problém etiky a sociální integrace, ale jde nesporně o téma s velkým ekonomickým potenciálem, který je také zajímavý pro vyhledávání a doručování obsahu ve specializovaných formách, jako je dnes video či hudba, v budoucnu to mohou být ale také třeba vědecké články nebo zajímavá výzkumná data.

S tím těsně souvisí také akcentace sociálních vazeb jako jistého zdroje informací. Budování stále pevnějších bublin může vést k tomu, že právě druzí lidé budou stále významnějším zdrojem konkrétních informací. Příkladem může být sociální síť vědců Researchgate, kde lze budovat tematické komunity na sdílení vědeckých dat, textů a dalších artefaktů. Klíčové informace tak dostává jen uživatel, který je členem příslušné vědecké komunity či sociální struktury. Pro některé pedagogické směry, jako je konektivismus, představuje právě budování osobních vzdělávacích sítí a rozvoj sociálního kapitálu zásadní část učebního procesu. Znalosti podle něj vznikají v síti a podle toho, jaký má který uživatel přístup k síti. To je pro učení se klíčové. Takový koncept dobře reflektuje stávající technické změny, ale současně přináší možné sociální (a politické) problémy.

WoS a Scopus

Na tomto místě bychom se neradi věnovali výhodám a nevýhodám databází nebo tomu, jak se v nich vyhledává, ale rádi bychom je zasadili do kontextu výše popsaného. Web of Science a Scopus jsou dvě velké databáze, které jsou rozhodující pro měření prestiže vědeckých výstupů. Na rozdíl například od ERIC, který je určený pro texty o vzdělávání, mají silně filtrovaný obsah, který je v určitém ohledu souměřitelný. Jakkoli obě databáze rostou, nejde o náhodný výběr z knihoven, ale o pečlivě vytvořené databáze.

Obě přitom z hlediska práce s výsledky nabízejí několik zajímavých funkcí, které je dobré zmínit, protože mají těsnou vazbu k tomu, čemu se v této oblasti věnujeme. Předně tím, jak jsou konstruované (nikoli na základě indexace roboty s běžnými referencemi, ale formou redakčního schvalování na základě jasných kritérií), mohou sloužit pro tvorbu přehledových studií, analýzu témat nebo vyhledávání osob či pracovišť, které se věnují nějaké problematice. Lze pomocí nich dobře mapovat publikační chování s ohledem na jednotlivá témata nebo například přesouvání zájmu o nějaké téma mezi vědními obory. Tyto informace jsou zásadní pro vědeckou práci a každý student vysoké školy by s nimi měl umět pracovat.

Obě databáze také vytvářejí tzv. impakt faktor, tedy číslo, které hodnotí důležitost nebo prestiž určitého časopisu. Ten je (stejně jako samotná indexace) navázaný na financování vědy, ale také třeba na hodnocení pracovišť nebo kariérní postup jednotlivých vědců. To logicky vede k tomu, že se objevují predátorské časopisy či konference, které se snaží do těchto databází dostat a pak na publikování příspěvků získávají peníze od autorů článků.

Existence obou databází je spojena ještě s jedním významným problémem a to je dostupnost vědeckých článků. Pokud se chce člověk dostat k plným textům, které jsou v databázích obsaženy, může mít štěstí v tom, že jeho instituce má dané zdroje předplacené nebo je přístup k nim zajišťován pomocí Open Access přístupu. V opačném případě stojí před dilematem, zda má zaplatit v průměru mezi 10–60 dolary za článek, jehož obsah nezná anebo k němu nebude mít přístup.

Na tento problém reagují LibGen a SciHub, tedy dvě „pirátské“ služby, které umožňují bezplatně stahovat velkou část vědeckých článků. Argumentují tím, že věda má být především otevřená a že je většinou financovaná z veřejných prostředků, tedy by k jejím výsledkům měl být veřejný přístup. Bezplatný přístup je výhodný také pro vědce, kteří mají šanci na vyšší citovanost, a především pro vzdělávání. Právě argument s právem na vzdělání bez ohledu na ekonomické možnosti instituce, kde se člověk vzdělává, může být velice silný. Placené databáze totiž vytvářejí silnou sociální nerovnost mezi chudými a bohatými univerzitami, respektive mezi těmi, kdo se učí sami a těmi, kdo se vzdělávají na univerzitách.

Na druhou stranu jsou tím poškozovány časopisy a vydavatelé, kteří přicházejí o prostředky na redakční práci či provozovatelé databází. Otázka, do jaké míry je správné podobné nástroje využívat, je složitá a může vést k silné diferenci mezi etickou a právní stránkou celého problému.

Pokud si potřebujete osvojit základy vyhledávání informací, pak je tím správným místem pro vás Kurz práce s informacemi, respektive tyto jeho moduly: