DeepMind's RT-2 transformeert robotbesturing via AI-chat

FFrits 31 juli 2023 10:33

DeepMind's nieuwe robotics transformer versie 2 (RT-2) maakt het mogelijk om robots te bedienen via AI-chat. Dit model, dat is getraind op afbeeldingen, tekst en coördinaten van robotbewegingen, kan met een enkel commando zowel een actieplan als de benodigde coördinaten genereren.

RT-2: Een revolutie in robotbesturing

DeepMind's RT-2 is een revolutionaire ontwikkeling in de wereld van kunstmatige intelligentie en robotica. Dit grote taalmodel is niet alleen getraind op afbeeldingen en tekst, maar ook op de coördinaten van een robotbeweging in de ruimte. Dit betekent dat het model, eenmaal getraind, kan worden gepresenteerd met een afbeelding en een commando, en vervolgens zowel een actieplan als de benodigde coördinaten voor de uitvoering van het commando kan genereren. Deze ontwikkeling betekent een grote stap voorwaarts in de interactie tussen mens en machine.

RT-2 is geen toevallige innovatie, maar de vrucht van een reeks eerdere ontwikkelingen. Met name de projecten PaLI-X en PaLM-E van Google hebben de basis gelegd voor RT-2. Deze zogenaamde visie-taalmodellen zijn programma's die gegevens van tekst en afbeeldingen combineren, zodat het programma een vermogen ontwikkelt om de twee te relateren. RT-2 gaat echter verder door niet alleen een actieplan te genereren, maar ook de coördinaten van de beweging in de ruimte.

Het trainingsproces van RT-2 is bijzonder omvangrijk en divers. Het model wordt niet alleen getraind op combinaties van beeld en tekst, maar ook op acties die uit opgenomen robotdata zijn gehaald. Deze benadering zorgt voor een zeer dynamische en flexibele training, waardoor RT-2 uiterst bekwaam is in het genereren van zowel een actieplan als de coördinaten van de beweging in de ruimte, op basis van een gegeven commando en afbeelding.

RT-2 tests tonen gebruiksvriendelijkheid en efficiëntie

Eenmaal getraind, wordt RT-2 onderworpen aan een grondige reeks tests. Deze tests vereisen dat de robot taken uitvoert zoals het oppakken, verplaatsen en laten vallen van objecten. Wat bijzonder is, is dat deze taken worden uitgevoerd door het invoeren van commando's in natuurlijke taal, net zoals je zou doen bij het vragen aan ChatGPT om iets te componeren. Dit laat zien hoe intuïtief en gebruiksvriendelijk RT-2 is, en hoe het de interactie tussen mens en machine kan vereenvoudigen.

RT-2's vermogen om te generaliseren naar echte situaties

Nog een indrukwekkende eigenschap van RT-2 is het vermogen om te generaliseren naar een verscheidenheid aan echte situaties. Dit betekent dat het model kan omgaan met gloednieuwe, nooit eerder geziene objecten en situaties. Volgens de auteurs vereist dit redenering, symboolbegrip en menselijke erkenning. Dit toont de veelzijdigheid en aanpasbaarheid van RT-2, evenals de potentie die het model heeft voor toekomstige toepassingen in de echte wereld.

Uitdagingen in real-time reacties van RT-2

Hoewel RT-2 veelbelovend is, zijn er ook uitdagingen. Eén daarvan is de rekenintensieve aard van grote taalmodellen zoals RT-2. Dit kan een probleem worden bij het verkrijgen van reacties, vooral bij de besturing van de robot in real-time. Dit is iets dat in de toekomst moet worden aangepakt voor het volledig realiseren van het potentieel van deze technologie.

Meer artikelen

Lees ook

Hier zijn een aantal interessante artikelen op andere sites uit ons netwerk.