Innovatie in AI-onderzoek: KAIST introduceert FLASK, een fijnmazig evaluatiekader voor taalmodellen

FFrits 24 juli 2023 01:31

KAIST heeft een nieuwe evaluatiemethode voor taalmodellen ontwikkeld, genaamd FLASK. Dit fijnmazige evaluatiekader is ontworpen om de prestaties van taalmodellen op vaardigheden te beoordelen, en kan zowel gebruikt worden voor menselijke als modelgebaseerde evaluaties.

LLMs en hun verbeterde capaciteiten

Taalmodellen, ook wel LLMs genoemd, zijn in de afgelopen jaren steeds verfijnder geworden. Bijzonder is dat ze nu in staat zijn om overeen te stemmen met menselijke waarden, wat betekent dat ze nuttige, eerlijke en onschadelijke antwoorden kunnen geven. Het potentieel van deze modellen is nog verder aangewakkerd door technieken voor fijne afstemming, zoals instructieafstemming en versterkend leren van menselijke feedback. Deze methoden hebben de prestatie van LLMs sterk verbeterd.

Om tekortkomingen in huidige evaluatiesystemen aan te pakken, hebben onderzoekers in de natuurlijke taalverwerking (NLP) een nieuw evaluatieprotocol ontwikkeld genaamd FLASK. Dit staat voor Fine-grained Language Model Evaluation based on Alignment Skill Sets. FLASK verandert de traditionele grove scoreprocedure in een meer gedetailleerde setup. Dit maakt een taakagnostische vaardigheidsbeoordeling mogelijk, afhankelijk van de gegeven instructie.

Vier primaire vaardigheden van FLASK

Voor een grondige beoordeling van de prestaties van taalmodellen, stelt FLASK vier primaire vaardigheden voor, die verder worden onderverdeeld in 12 fijnmazige vaardigheden. Deze vaardigheden zijn onder andere logisch redeneren, kennis van feiten en algemene kennis, probleemoplossend vermogen, en consistentie met gebruikersvoorkeuren. Elke vaardigheid wordt beoordeeld met een score tussen 1 en 5 door menselijke beoordelaars of geavanceerde LLMs. Dit biedt een gedetailleerde studie van de prestaties van het model op basis van de vaardigheidsset, het doeldomein en de moeilijkheidsgraad.

Uit het onderzoek blijkt dat zelfs de meest geavanceerde open-source LLMs nog steeds onderpresteren in vergelijking met proprietary LLMs. In termen van logisch denken en achtergrondkennis presteren ze respectievelijk ongeveer 25% en 10% minder. Dit toont de noodzaak aan voor continue verbetering en ontwikkeling in de wereld van open-source taalmodellen.

Toepassingen van FLASK in de praktijk

Flask is niet alleen een nuttig hulpmiddel voor onderzoekers, maar ook voor praktijkmensen in het veld van kunstmatige intelligentie. Het helpt bij het nauwkeurig begrijpen van de huidige staat van een model en biedt expliciete stappen voor het verbeteren van de modeluitlijning. Bedrijven die private LLMs creëren, kunnen bijvoorbeeld modellen ontwikkelen die goed scoren op de FLASK-HARD set, terwijl de open-source gemeenschap zou moeten werken aan het creëren van basis modellen met hoge capaciteiten in logisch denken en achtergrondkennis.

Belangrijke vaardigheden voor LLM's

Om een LLM efficiënt te kunnen laten functioneren, is het essentieel dat het model kan voldoen aan de instructies van de gebruiker. Onderzoekers hebben vier kernvaardigheden geïdentificeerd die hierbij van groot belang zijn. Deze zijn verder onderverdeeld in een totaal van twaalf skills. Deze variëren van de consistentie en geldigheid van redenering tot efficiënt gebruik van redenering en typische realisatie, evenals veracity, reflectief denken, perceptiviteit, volledigheid, begrip, beknoptheid, leesgemak en schadevrijheid.

Meer artikelen

Lees ook

Hier zijn een aantal interessante artikelen op andere sites uit ons netwerk.