Onderzoekers ontdekken zwakke plekken in de veiligheidsregels van AI-chatbots

FFrits 29 juli 2023 20:11

Volgens nieuw onderzoek van de Carnegie Mellon University is het voorkomen dat kunstmatige intelligentie chatbots schadelijke inhoud creëren moeilijker dan aanvankelijk gedacht. De onderzoekers hebben nieuwe methoden ontdekt om de veiligheidsprotocollen te omzeilen.

Veiligheidsprotocollen van AI-services

AI-services zoals ChatGPT en Bard zijn populair vanwege hun vermogen om nuttige antwoorden te genereren op basis van gebruikersinvoer. Hierbij kan gedacht worden aan het genereren van scripts, ideeën en zelfs complete teksten. Deze services hebben veiligheidsprotocollen die ervoor zorgen dat de bots geen schadelijke inhoud creëren, zoals vooringenomen berichten of potentieel lasterlijke of criminele inhoud.

Gebruikers zijn nieuwsgierig en hebben methoden ontdekt om de AI te misleiden, zogenaamde 'jailbreaks', waardoor de veiligheidsprotocollen kunnen worden omzeild. Maar deze 'jailbreaks' kunnen meestal gemakkelijk door ontwikkelaars worden gecorrigeerd.

Een nieuwe vorm van 'jailbreak'

Het onderzoeksteam van Carnegie Mellon University heeft een nieuwe vorm van 'jailbreak' ontdekt. Deze is niet door mensen, maar door computers ontwikkeld. Deze nieuwe vorm maakt het in feite mogelijk om een oneindig aantal 'jailbreak'-patronen te creëren.

Nieuwe aanval omzeilt veiligheidsrails

Volgens de onderzoekers is de nieuwe aanval effectief in het ontwijken van veiligheidsrails in bijna alle AI-chatbot-services op de markt. Hieronder vallen zowel open source-diensten als zogenaamde 'out-of-the-box' commerciële producten zoals ChatGPT, OpenAI’s Claude en Microsoft’s Bard.

In reactie op het onderzoek heeft OpenAI-developer Anthropic aangegeven dat het bedrijf al aan het werk is om beveiligingen te implementeren en te verbeteren tegen dit soort aanvallen. Het bedrijf experimenteert met manieren om de basisbeveiligingen van het model te versterken en onderzoekt tegelijkertijd aanvullende verdedigingslagen.

Meer artikelen

Lees ook

Hier zijn een aantal interessante artikelen op andere sites uit ons netwerk.