Zelflerende robots lossen taken op met 3D-camera

ids 1

Het uitproberen van verschillende gedragingen is een van de klassieke leermethoden. Succes of mislukking bepaalt welk gedrag wordt overgenomen. Dit principe kan worden overgedragen op de wereld van de robots. Bij het Instituut voor Intelligente Procesautomatisering en Robotica van het Karlsruhe Institute of Technology (KIT) richt de Robot Learning Group (ROLE) zich op verschillende aspecten van machinaal leren. De wetenschappers onderzoeken hoe robots kunnen leren taken op te lossen door ze zelfstandig uit te proberen. Deze methoden worden met name gebruikt voor het leren manipuleren van objecten, bijvoorbeeld voor het grijpen van objecten in een typisch bin picking scenario. Een Ensenso N10 3D-camera direct aan de ‘kop’ van de robot zorgt voor de benodigde beeldgegevens.

Het grijpen van willekeurig liggende objecten is een centrale taak, vooral in de industriële automatisering. De huidige bin picking-oplossingen zijn echter vaak inflexibel en sterk aangepast aan het te grijpen werkstuk. De onderzoeksprojecten van de Robot Learning Group beloven een oplossing, bijvoorbeeld met robots die zelfstandig leren om voorheen onbekende objecten uit een container op te pakken.

Om zo’n taak te leren, begint de robot eerst met willekeurige grijppogingen, zoals een mens dat zou doen. Een neuraal net verbindt de gemaakte 3D-beelden met de al dan niet geslaagde grijppogingen. Voor elk beeld wordt het grijpresultaat, dat werd bepaald door een krachtsensor in de grijper, opgeslagen. De AI (kunstmatige intelligentie) gebruikt de opgeslagen gegevens om zinvolle grijppunten voor de objecten te identificeren en ‘traint’ dus zelf. Zoals gebruikelijk bij moderne methoden van machinaal leren zijn grote hoeveelheden gegevens en veel grijppogingen hiervoor essentieel. De onderzoekers van het KIT zijn er echter in geslaagd om het aantal van deze laatste aanzienlijk te verminderen en zo ook de tijd die nodig is voor het leren te verkorten.

De juiste grip verkort de trainingstijd

In tegenstelling tot de analytische - of modelmatige - grijpmethoden hoeft de ROLE-robot niet over de vooraf beschreven kenmerken voor herkenning te beschikken. Het speelt echter wel een belangrijke rol in hoe vaak het systeem in staat is geweest om een object met ‘soortgelijke’ beelden succesvol vast te leggen. De grip die de robot uitprobeert, is cruciaal voor een sneller leersucces. Met behulp van een neuraal netwerk kunnen grijpresultaten worden voorspeld met behulp van bestaande kennis.

“Voor een goed werkend systeem hebben we momenteel ongeveer 20.000 grijpexperimenten nodig, wat overeenkomt met ongeveer 80 uur trainingstijd op de robot”, legt Lars Berscheid, onderzoeker bij het KIT en onderdeel van de Robot Learning Group, uit. Deze cijfers zijn benaderende waarden en zijn afhankelijk van vele factoren, zoals de grijpsnelheid van willekeurige grepen, die op zijn beurt weer wordt beïnvloed door onder andere de geometrie van de componenten. Zoals gebruikelijk bij leer­systemen is de hoeveelheid beschikbare gegevens de beperkende factor voor de mogelijkheden van het systeem.

“Daarom is een essentiële taak van ons onderzoek om het aantal nood­zakelijke grijppogingen te verminderen. De centrale wetenschappelijke vraag is dan ook: Welke grepen moeten worden uitgeprobeerd om zo snel mogelijk zoveel mogelijk informatie te verkrijgen en zo de trainingstijd te verkorten”, voegt Berscheid eraan toe.

Op dit punt wordt ook gebruikgemaakt van transferleren. De kennis van een reeds getraind neuraal netwerk kan worden gebruikt voor de herkenning van voorheen onbekende objecten. Hoe groter het aantal en het bereik van de trainingsobjecten van het systeem, hoe beter het kan generaliseren naar onbekende objecten. Dit kan de noodzaak van specifieke training van objecten voor toepassingen blijvend elimineren. Het doel op lange termijn is een controlesysteem dat zelfstandig en flexibel willekeurige en onbekende zaken met industriële betrouwbaarheid kan aangrijpen.

Leren zonder een model

Dit is precies het cruciale verschil met de bin picking-oplossingen van vandaag. Het onderzoekssysteem van de Robot Learning Group werkt zonder een ‘aangeleerd’ model van het te grijpen werkstuk en dus ook voor onbekende objecten. In principe zijn er geen beperkingen met betrekking tot hun vorm en aard. Ook kennis van materiaal- en oppervlakte-eigenschappen is niet nodig en wordt impliciet aangeleerd. Dit is het grote voordeel van de modelloze aanpak, waarbij noch de ­3D-vorm van een object, noch de wiskundige modellering van het grijpproces noodzakelijk is.

ids 2

Het zou flexibel kunnen worden gebruikt in de industrie en met minder programmeerinspanning. De automatisering van vele nieuwe toepassingen zou mogelijk zijn - van intralogistiek tot servicerobotiek. Tegelijkertijd kunnen naast het grijpen zelf ook andere vormen van objectmanipulatie, zoals het verplaatsen, worden gerealiseerd. De robot leert objecten zelfstandig te bewegen, zodat ze in de volgende stap beter te grijpen zijn. Hierdoor kan een doos volledig worden geleegd zonder verdere apparatuur (bijvoorbeeld schudplaten).

De opleiding van de robot werkt volledig zonder menselijke tussenkomst. In de praktijk is juist deze automatisering van het leerproces een van de grootste uitdagingen. Pas als het systeem aan alle eisen voldoet, bijvoorbeeld een bepaalde cyclustijd, kan het productief worden ingezet in de productie en natuurlijk verder worden geleerd. Ook hier zijn er tijdsvoordelen ten opzichte van de gebruikelijke procedure voor bin picking-toepassingen. Enerzijds is het ROLE-systeem zeer snel met slechts 20 milliseconden bij het berekenen van de volgende grip. Anderzijds wordt bij de ingebruikname van het systeem de handmatige programmering gereduceerd. Bin picking kan dus aanzienlijk aan flexibiliteit winnen.

3D-beeldgegevens als basis

De visuele gegevens voor de robot worden geleverd door een Ensenso 3D-camera. Deze kijkt van bovenaf naar de container, die willekeurig gevuld is met objecten van één of meerdere types. Het beeldverwerkingssysteem projecteert een contrastrijke textuur op de inhoud van de container en genereert een 3D-puntwolk van de van bovenaf zichtbare vlakken als basis voor de berekening van het dieptebeeld in grijswaarden. Deze stap wordt direct in de Ensenso SDK geïmplementeerd. Het dieptebeeld wordt vervolgens geschaald naar een resolutie van slechts 12.000 pixels en gebruikt als input voor de AI-algoritmes. Het neurale netwerk zorgt dan voor de beeldanalyse en de logische stappen voor de volgende greep in de doos. De camera wordt direct op de ‘kop’ van de robot gemonteerd om flexibel verschillende experimenten te kunnen uitvoeren. “We hebben gekozen voor een Ensenso N10 camera omdat het model een minimale afstand van slechts 30 cm tot het object toelaat en een groot algemeen afstandsbereik heeft. Als actieve stereocamera in het infraroodbereik, die ook geschikt is voor bewegende scènes, voldoet hij aan al onze eisen”, legt Berscheid de keuze van het cameramodel uit. De robuuste, compacte aluminium behuizing van de Ensenso N10­camera, met schroefbare GPIO-aansluitingen voor trigger en flitser en USB 2.0-aansluiting, is uitgerust met twee monochrome CMOS-sensoren (global shutter, 752 x 480 pixels) en een infraroodgolfpatroonprojector die op 850 nm werkt.

Vooraf gekalibreerd en geleverd met een MVTec HALCON interface en objectgeoriënteerde API (C++, C#/.NET), heeft de 3D-camera brandpuntsafstanden van 3,6 tot 16 mm en is geschikt voor werkafstanden tot 2.000 mm en kan zelfs gebruikt worden voor 3D-detectie van bewegende objecten. ROLE-groepsonderzoekers gebruiken de NxLib van de Ensenso SDK om dieptebeelden vast te leggen en te verwerken met OpenCV en TensorFlow.

Vooruitzichten

De methoden die bij het KIT zijn ontwikkeld, zijn toonaangevend, maar de onderzoekers hebben hun doel nog niet bereikt. “Hoewel Bin Picking al betrouwbaar werkt met eenvoudige objecten zoals schroeven, is er nog wel wat onderzoek nodig om tot productrijpheid te komen, vooral voor het grijpen van complexere, onbekende objecten. De methoden die we ontwikkelen zijn echter fundamenteel en flexibel en kunnen voor verschillende taken worden gebruikt”, aldus Lars Berscheid. Zelflerende systemen blijven een centraal thema binnen het roboticaonderzoek. ­Vanuit toepassingsgerichte projecten realiseren wetenschappers zich ook de behoefte aan meer flexibiliteit in de productie, wat in de robotica vaak leidt tot het gebruik van meer sensoren en dus ook meer beeld­verwerking.

ids 3

Binnen het KIT zal het onderzoek zich blijven richten op twee centrale onderwerpen: enerzijds hoe basismethoden van leren verbeterd en versneld kunnen worden. Technieken zoals training met behulp van een digitale tweeling, simulatie op de computer en vervolgens overdracht naar een echte robot, maar ook de overdracht van kennis tussen verschillende taken zijn veelbelovend. Aan de andere kant onderzoeken de wetenschappers welke nieuwe toepassingen beter of zelfs voor het eerst geautomatiseerd kunnen worden met leerrobotsystemen. Er zijn hier boeiende mogelijkheden, bijvoorbeeld in de omgang met textiel (grijp- en vouwbare handdoeken en kleding), de ontmanteling van industriële onderdelen zoals elektromotoren voor recycling, het schilderen van onbekende objecten op basis van cameragegevens, of de omgang met vloeistoffen of korrelige media. Dit werk wordt aangeleerd in een ­simulatie en vervolgens overgebracht naar de echte robot.

Uitdagingen zijn bijvoorbeeld hoe een verdere verhoging van de grijpsnelheid en de robuustheid van het systeem kan worden bereikt. “Met het ROLE-systeem kunnen we in principe een grijpsnelheid van meer dan 95% bereiken”, legt Berscheid uit. Dat betekent dat maximaal vijf van de honderd grijppogingen geen succes hebben. De vraag die nu rijst: kunnen de resterende mislukte pogingen verder worden gereduceerd door langer te leren?

Een ander niet-triviaal probleem is hoe het systeem omgaat met ont­brekende 3D-gegevens in het dieptebeeld. Momenteel beperkt het ROLE-team zich tot het verticaal van bovenaf grijpen van objecten. Maar hoe kan het systeem alle zes vrijheidsgraden gebruiken? Er worden ook nieuwe oplossingen gezocht voor andere typische uitdagingen van het modelvrij picken van bakken, in het bijzonder voor de volgende processtappen zoals de opslag of de verdere verwerking van de gegrepen objecten.

KIT-wetenschappers hebben nog veel onderzoek te doen, maar de benaderingen en eerdere resultaten tonen het immense potentieel van machinaal leren voor industrieel gebruik. 3D-beeldverwerking is hier onvermijdelijk mee verbonden en levert belangrijke basisgegevens op voor de besturing van de ‘robothanden’ in de richting van een perfecte grip. Gezien, opgeslagen, geleerd - dat is de toekomst.