Umělá inteligence pro řízení průmyslových robotů


Samoučící se roboti

Umělá inteligence pro řízení průmyslových robotů

 

Průmysloví roboti jsou schopni extrémní přesnosti a rychlosti, ale je třeba je naprogramovat velmi pečlivě, aby dokázali například uchopit obrobek. To je obtížné a časově náročné a takoví roboti obvykle pracují pouze v kontrolovaném prostředí.

 

Našim cílem je nabídnout technologii hlubokého a posilovaného strojového učení jako způsob řízení další generace průmyslových robotů.  S využitím této technologie se pak roboti učí prostřednictvím pokusů a omylů, stejně jako při výchově dětí. 

 

Naše technologie je založena na hlubokých neuronových sítích, které pomáhají identifikovat fotografie, rozpoznávat řeč a překládat z jednoho jazyka do druhého ve společnostech jako je Google, Facebook nebo Microsoft. Používáme další generaci umělé inteligence nazývané posilované učení, které pomáhá strojům řešit úkoly opakovanými pokusy a omyly.

 

Hluboké učení se ukázalo jako nesmírně zdatné v úlohách vnímání. Pokud dodáme dostatečné množství fotografií do neuronové sítě která simuluje síť neuronů v mozku - může se naučit identifikovat všechno na této fotografii. Ovšem posilované učení může posunout robotiku dál -  umožňuje strojům provádět akce založené na tom, co vnímaly. Když neuronová síť poskytuje "obraz" světa kolem robota, mohou algoritmy posilovaného učení pomoci v tomto prostředí vykonávat určitý úkol.  Kombinace těchto dvou technologií hlubokého a posilovaného učení tak umožňuje využívat umělou inteligenci v reálném prostředí. 

 

Technologii hlubokého a posilovaného učení testujeme pomocí robotických simulátorů, jako je Gazebo což je prostředí podobné videohře. Abychom pomohli robotům pochopit stav hry - kde je robot, kde je nástroj, kde je výrobek, používáme rekurentní neuronové sítě. Jedná se v podstatě o neuronové sítě, které vykazují druh krátkodobé paměti. Robot nemůže pochopit co se děje ve hře tím, že se podívá na jeden záběr, musí se podívat na posloupnost záběrů, aby pochopil jestli se nástroj pohybuje doleva nebo doprava, jestli se urychluje nebo zpomaluje. Pak mohou algoritmy posilovaného učení reagovat na to, co neuronové sítě vnímají. Stejně jako neurony v mozku uvolňují dopamin, když uděláte něco pozitivního, posilované strojové učení funguje na podobném systému odměn. Jinými slovy, pokud pohyb robota vede k vyššímu skóre - digitálnímu dopaminu - přizpůsobí se jeho chování.

 

I když je reálný svět mnohem složitější než hra, často jeho výzvy řešíme podobně. U průmyslového robota může být odměna za to, když zvedne obrobek a umístí ho na správné místo. A tato odměna může být odebrána, když obrobek upustí. Pak když dáme robotovi úkol, jako například přemístění obrobku z pracovního prostoru obráběcího stroje a umístění nového polotovaru na obrábění, stráví noc aby zjistil jak to udělat a ráno je připraven vychystávat obráběcí stroj stejně jako kdyby byl naprogramován odborníkem.

 

Posilované strojové učení (Reinforcement Learning)

Během posilovaného strojového učení softwarový agent provádí pozorování a podniká akce v prostředí a na oplátku získává odměny. Jeho cílem je naučit se jednat způsobem, který maximalizuje očekávané dlouhodobé odměny. Stručně řečeno, agent působí v prostředí a učí se pokusem a omylem, aby maximalizoval své odměny a minimalizoval svou ztrátu.

Agentem může být program, který sleduje aktualizovaná data v reálném čase a rozhodne jak upravit např. způsob uchycení válcového obrobku robotickou rukou tak, aby získal pozitivní odměnu když obrobek neupustí při přemisťování na vychystávací stůl a negativní odměnu když obrobek upustí.

Algoritmus používaný softwarovým agentem k určení jeho akcí se nazývá jeho strategie. Strategií například může být neuronová síť, která přijímá na vstupu aktualizovaná data v reálném čase a vyvozuje akci, která má být přijata.


Neuronová síť v mozku.


Umělá konvoluční hluboká neuronová síť.


Posilované strojové učení (Reinforcement Learning)

Hra kterou nikdo nedokáže vysvětlit – překonání Polanyiho paradoxu

Naučit se hrát strategickou hru Go (vznikla před 2 500 lety v Číně) bylo vždy obtížné - Konfucius radil, že "pánové by neměli ztrácet čas triviálními hrami - měli by studovat Go„, ale naprogramovat počítač pro tuto hru se zdálo nemožné.

Odhaduje se, že na standardní kartě Go je asi 2 × 10 na170 možných pozic – více než počet atomů obsažených ve vesmíru a hráči Go nejsou schopni popsat jak zvládají tuto obrovskou komplexitu hry – situace popsaná ve 20. století matematikem Michaelem Polanyim: "Víme víc, než můžeme říct.„ - tento Polanyiho paradox byl nepřekonatelnou překážkou pro programování Go - jak napsat program, který obsahuje nejlepší strategie pro hraní hry, když žádný člověk nedokáže formulovat tyto strategie?

V říjnu 2016 Google DeepMind – Londýnská pobočka společnosti Google specializující se na hluboké strojové učení porazila 4 – 1 se svoji aplikací AlphaGo využívající hluboké neuronové sítě mistra světa ve hře Go Lee Sedola z Jižní Koreje a překonala Polanyiho paradox – Sedol po porážce řekl: „Cítil jsem se bezmocný. .  . mám rozsáhlé zkušenosti, pokud jde o hraní hry Go, ale nikdy jsem nebyl pod takovým tlakem.„

Styl Lee Sedola byl popisovaný jako "Intuitivní, nepředvídatelný, kreativní, intenzivní, divoký, komplikovaný, hluboký, rychlý, chaotický" - charakteristiky, které podle něj mu dávají definitivní výhodu nad jakýmkoli počítačem.

Přesto byl Lee Sedol poražen protože tým DeepMind nenaprogramoval AlphaGo s vynikajícími strategiemi Go a heuristikou. Místo toho použil sílu hlubokého strojového učení (Deep Machine Learning) na oblast posilovaného učení (Reinforcement Learning) a vytvořil systém, který se sám učil. AlphaGo byl vytvořen k rozpoznání jemných vzorů, které se vyskytují ve velkém množství dat, a spojení akcí (například hrát kámen na určité místo na desce) s výsledky (jako například vyhrát hru Go). Software měl přístup k 30 mil. herních pozic z online úložiště a v podstatě mu bylo řečeno: "Využij je, abys zjistil, jak vyhrát."  


Vítězství umělé inteligence nad mistrem světa ve hře GO znamená překonání Polanyiho paradoxu a přináší nové možnosti ve využití hlubokých konvolučních neuronových sítí v oblastech vyžadujících vlastnosti jako je intuice, kreativita nebo schopnost analýzy komplexních problémů.