Het beste uit de internationale pers

In China gaan humanoïde robots naar school

Net als bij baby’s ervaren deze robots de fysieke wereld vooral door aanraking, en dat gaat met veel vallen en opstaan: ze vouwen broeken op en strijken kleding in de slaapkamer; ze maken maaltijden klaar, persen sap en wassen af in de keuken en ze schikken bloemen, dweilen en ruimen tafels af in de woonkamer. Elke robot heeft een eigen ‘trainer’ – een soort docent met een VR-headset. Met een controller doet zo’n trainer allerlei verschillende handelingen voor: optillen, vasthouden, trekken, gieten enzovoort. Elke beweging wordt ongeveer tweehonderd keer herhaald.  

Dit is de superfabriek voor datacollectie in Zhiyuan, een van de grootste centra voor de verzameling van robotgegevens in de hele wereld. Hij is opgedeeld in vijf verschillende scenario’s: industrie, detailhandel, kantoor, horeca en particulier. Honderd trainers draaien dag- en nachtdiensten, samen met meer dan dertig analisten en tien beheerders die de data verzamelen en verwerken.

Af en toe treden er kleine foutjes op: een robot kan een waterkoker bijvoorbeeld niet rechtop houden

De faciliteit produceert per dag tussen de dertig- en vijftigduizend datapunten: stukjes multidimensionale informatie die worden vastgelegd door de bewegingen van de robots, informatie zoals waar een arm zich bevindt, hoe snel hij beweegt en wat voor effect dat heeft. 

Af en toe treden er kleine foutjes op: een robot kan een waterkoker bijvoorbeeld niet rechtop houden, doet te veel kruiden in een gerecht of stoot een vaas omver. De trainers stellen hun bewegingen dan geduldig bij. 

Hoe effectief is deze robottraining? Yao Maoqing, een directeur van Agibot, legt uit: ‘We bevinden ons nog in een vroeg stadium. Een robot kan op dit moment negen van de tien keer een glas water inschenken op een tafel die hij eerder is tegengekomen.’

Beperkingen

Toch wil het bij onbekende scenario’s of objecten nog wel eens misgaan. Bovendien betreft het hier vooral op zichzelf staande vaardigheden; de robots zijn nog niet in staat om meerdere bewegingen te combineren. 

Om de robots algemener te laten functioneren moet hun omgeving voortdurend worden aangepast en verfijnd. Zo veranderen de trainers regelmatig de verlichting, gebruiken ze objecten met verschillende vormen en verandert alles constant van plek.

Het uitbreiden van de AI-capaciteit (het ‘denkvermogen’) van een robot vereist veel data. Eerst worden multidimensionale fysieke gegevens – zoals beeld, fysieke impulsen en exacte bewegingen – geregistreerd en in een computerprogramma verwerkt, waarna ze weer in de robot zelf worden geïmplementeerd.

Toch blijft een gebrek aan gegevens de grootste bottleneck in de ontwikkeling van mensachtige intelligente robots.

Dit geeft Yao Maoqing ook zonder meer toe: ‘Datasets voor robots zijn veel te klein om grote taalmodellen (LMM’s) op te kunnen toepassen.’ Dit komt door fundamentele verschillen in het soort data: LLM’s baseren zich op een enorme hoeveelheid tekst die afkomstig is van het internet, terwijl data voor robots afhankelijk zijn van fysieke interacties met de wereld. Om een robot bijvoorbeeld aan te leren een glas water in te schenken moeten trainers allerlei informatie nauwkeurig registreren waaronder het armtraject, de kracht van de robothand, de temperatuur van het water, en zo voort.  

Het is dan ook ongelooflijk duur om dit soort data te verzamelen. Nvidia Research maakte onlangs bekend dat voordat Tesla’s mensachtige robot Optimus een accu in een doos kon plaatsen, er een team van veertig personen nodig was om data te verzamelen. Optimus ‘fabrieksklaar’ maken zou miljoenen uren aan training en honderden miljoenen dollars vereisen. 

Alternatieven

Om deze uitdaging directer aan te gaan hebben verscheidene roboticabedrijven over de hele wereld hun datasets openbaar gemaakt om technologische uitwisseling en vooruitgang te bevorderen, zo ook AgiBot en Fourier Robotics.

Naast een-op-eeninstructie, waarbij een mens de training verzorgt, wordt er ook gewerkt aan goedkopere methodes, zoals robots foto’s en video’s leren interpreteren zodat ze bekender worden met menselijke handelingen. 

AgiBot onthulde in maart het eerste Chinese ‘General Embodied Base Model’. Door online video’s van huishoudelijke taken te bekijken, zoals kookinstructies, kunnen robots de basisprincipes van het koken afleiden zonder voorafgaande praktische ervaring (zogeheten zero-shot learning). Zo kan een robot bijvoorbeeld herkennen dat water borrelt als het kookt, en dat je aardappels eerst moet schillen. Daarna is het alleen nog een kwestie van oefenen in de praktijk.