Obecný úvod do umělé inteligence — kapitola 7
Systémy umělé inteligence jsou přímo závislé na datech, která jsou jim poskytnuta. Metody strojového učení potřebují ke svému fungování datové sady (datasety), na kterých se nejen učí, ale také testují. Jejich dostupnost dat má tedy zásadní vliv na jejich výslednou kvalitu. Strojové učení hledá vzorce v množství dat a snaží se v nich nacházet smysl.
Konkrétní příklady dat mohou být obrázky, videa, zvuky, texty (takže například tabulky, články na wikipedii a podobně) nebo také 3D objekty. Dále můžeme data dělit například také na strukturovaná a nestrukturovaná.
Různé systémy umělé inteligence a různé techniky strojového učení vyžadují různé typy dat. Pokud vytváříme například systém na doporučování zboží v internetovém obchodě, trénovací sada bude obsahovat data o proklicích uživatelů na webu (tzv. historická data). Naopak systém pro odhalování podvodů v bance (detekce anomálií) může obsahovat třeba seznam transakcí na zablokovaných účtech.
V případě, že nemáme pro daný úkol k dispozici dostatek dat vytvořených lidmi, umíme si je vytvořit uměle. Syntetická data jsou zcela nebo částečně uměle vytvořena. Takže nezaznamenávají jevy reálného světa, ale jeho simulace. Učíme-li například model rozpoznávat zvířata na nedostatečném množství fotografií, můžeme velikost dat zdvojnásobit přidáním zrcadlové kopie každé z fotek.
Anotace neboli označování dat je klíčovou součástí přípravy trénování modelu při učení s učitelem. Modelům strojového učení jsou během trénování ukazována vstupní data (například obrázky psů a koček), společně s informací o požadovaném výstupu (obrázkům jsou přiřazovány informace, například názvy plemen psů). Takto popsaným (anotovaným) strukturovaným datům se říká dataset. Model se díky němu naučí, které vstupy patří ke kterým výstupům.
Po natrénování díky tomu dokáže reagovat na vstupy, které nikdy předtím neviděl, na základě jejich podobností. Aby učení s učitelem fungovalo a model dělal správná rozhodnutí, potřebujeme dataset, ze kterého se model může učit.
Dataset je obvykle velké množství dat, která se používají pro trénování, testování a validaci systémů strojového učení (tzv. modelů strojového učení). Mohou to být třeba hlasové záznamy, hudba, videa, obrazy... Volba datasetu z velké části definuje, co bude model umět, jak se bude chovat a jaké úlohy řešit. Dataset by měl obsahovat kvalitní a pro danou úlohu relevantní data, aby se zajistilo, že model bude dobře fungovat.
Označování dat typicky začíná tím, že lidé roztřídí neoznačená data, například manuálním označením všech obrázků v datové sadě, které obsahují fotografie koček.
Formát anotace může být velmi jednoduchý (ano/ne), i velmi podrobný (např. identifikace pixelů na fotografii). Model strojového učení se na základě takového datasetu během trénování naučí časté vzory (např. jak se rozhodují lidé). Výsledkem je natrénovaný model, který lze použít k předpovědi nebo klasifikaci nových dat.
Vytváření anotovaných dat je časově (a mnohdy finančně) náročný proces, při kterém je přiřazován smysluplný a informativní „štítek“ každému datovému příkladu, aby se z něj model strojového učení mohl učit.
Když máme data správně anotována, je třeba je rozdělit do tří částí — na trénovací, validační a testovací sadu dat.
Největší soubor obvykle tvoří trénovací data. Ta slouží k tomu, aby v nich AI našla opakující se vzory použitelné k určení správného výsledku. Trénovací data má systém plně k dispozici (včetně anotací), zatímco validační a testovací data jsou mu skryta.
V přestávkách mezi trénováním přichází na řadu validační data pro „ladění“ systému. Validační data by neměla obsahovat stejné vzorky jako data trénovací. Validace modelu nám totiž říká, jestli se model doopravdy naučil danou úlohu řešit, nebo zná jen zpaměti anotace všech dat (podobným případům v oboru říkáme „přeučení“ — overfitting).
Po natrénování modelu a výběru nejlepšího řešení pomocí validace přichází testovací fáze. Pomocí testovací sady dat (která opět neobsahuje vzorky použité pro trénování ani pro validaci) pak odhadujeme, jaké úspěšnosti dosahuje výsledný model v reálném světě. Například jako procento odpovědí modelu shodných s naší anotací.
Pokud se jedná o data, kvantita nemusí nutně odpovídat kvalitě. Nejdůležitější je, aby byla data dostupná, spolehlivá, reprezentativní a na správné úrovni detailů. Jedním z problémů, kterému se v poslední době věnuje velká pozornost, je předpojatost dat (viz následující kapitola Proč umělá inteligence diskriminuje).
Aby se systém umělé inteligence choval férově a nediskriminoval, je nutné mít nezkreslená data. Proto je důležité data i techniky jejich sběru pravidelně kontrolovat. Model při svém trénování nerozezná nepřesnosti, myšlenkové zkratky a předsudky v datech, ale zvýší-li to jeho úspěšnost, přijme je za své.
Autor textu: Marta Slepánková
Editoři: Herbert Ullrich, Vojtěch Jindra, Eva Nečasová
Odborní garanti: Pavel Kordík, Jiří Materna, Antonín Král
Datum poslední revize: 02/24
Doporučujeme k dalšímu studiu
Bezplatný online kurz v češtině určený každému, kdo se chce dozvědět, co to je umělá inteligence, čeho lze a nelze jejím prostřednictvím dosáhnout a jak ovlivňuje naše životy. Pro účast v kurzu nejsou zapotřebí pokročilé znalosti matematiky ani znalost programování. Do českého prostředí kurz přináší prg.ai. Přejít na kurz →
IČ: 17914582
Datovka: 4czjq6u
Číslo účtu: 2002446742/2010
Poptáváte vzdělávací akci či spolupráci?
Ozvěte se Kláře na: klara@aidetem.cz
Další kontakty naleznete v sekci Lidé.