Leren om te onthouden: een synaptisch plasticiteitgestuurd raamwerk voor continu leren

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (ML Research)

Mensen hebben een buitengewoon vermogen om gedurende hun leven continu te leren. Het vermogen om eerder aangeleerde kennis toe te passen op nieuwe situaties, omgevingen en taken vormen het belangrijkste kenmerk van menselijke intelligentie. Op biologisch niveau wordt dit meestal toegeschreven aan het vermogen om selectief herinneringen gedurende een voldoende lange tijdsperiode op te slaan en te besturen in neurale verbindingen die synapsen worden genoemd. In tegenstelling tot biologische hersenen hebben conventionele kunstmatige neurale netwerken (ANN's) niet het vermogen om de sterkte van synaptische verbindingen tussen neuronen te regelen. Dit leidt tot een extreem korte geheugenlevensduur in ANN's - het effect dat bekend staat als catastrofaal vergeten.

In het afgelopen decennium was het grootste deel van het onderzoek op het gebied van kunstmatige intelligentie gericht op het overtreffen van de prestaties op menselijk niveau bij geïsoleerde, duidelijk omschreven taken, zoals het spelen van computerspelletjes, het sorteren van spam-e-mails, het classificeren van katten van honden en het herkennen van spraak, alleen om er een paar te noemen. Als gevolg hiervan kan het grootste deel van de AI om ons heen in ons dagelijks leven worden aangeduid als kunstmatige kunstmatige intelligentie of zwakke AI. Sterke AI daarentegen verwijst naar mensachtige AI die elke intelligente taak kan uitvoeren, terwijl hij continu kan leren, selectief kan vergeten, snel kan worden aangepast aan nieuwe taken en gebruik kan maken van eerdere ervaringen. Deze eigenschappen kregen pas recent aandacht van AI-onderzoekers.

Waarom continu leren? De sleutel tot steeds veranderende scenario's

Vergeten en missen van kennisoverdracht vormen een van de belangrijkste uitdagingen op de weg van zwakke AI naar sterke AI. In tegenstelling tot mensen, die selectief vergeten, vergeten machines catastrofaal. Dienovereenkomstig, terwijl een "baby leert kruipen, lopen en dan rennen" (~ Dave Waters), zou AI volledig vergeten te kruipen zodra het leerde lopen, en het zou vergeten te lopen zodra het leerde lopen. Laten we, voordat we mogelijke oplossingen voor de uitdaging van voortdurend levenslang leren bekijken, eerst een eenvoudig voorbeeld bekijken van een op AI gebaseerde zoekactie naar kledingcatalogi.

Een machine learning-model dat is getraind op een gegevensset met kledingartikelen uit seizoen (A), zou buitengewoon goed presteren bij het zoeken tussen de producten van dit seizoen (A). Zodra het seizoen verandert, kunnen modetrends echter ook veranderen. Zodra modetrends veranderen, kunnen nieuwe productcategorieën, modellen en stijlen aan de catalogus worden toegevoegd (bijv. Hoge hakken in plaats van sneakers, lange jassen in plaats van korte jassen etc.). Het model dat is getraind op de gegevens van het eerste seizoen (A) zou niet goed presteren bij het zoeken door items die in het nieuwe seizoen zijn toegevoegd. Het trainen van ons model op basis van de gegevens van het nieuwe seizoen zou zelfs leiden tot een catastrofaal vergeten van de mogelijkheid om te zoeken tussen de items van het vorige seizoen.

Gemeenschappelijke manier om vergeten op te lossen?

Een van de eerste technieken om catastrofaal vergeten in ANN's te verminderen, staat bekend als 'replay' of 'repetitie'. Om verder te gaan met ons cataloguszoekvoorbeeld, om de informatie die in het eerste seizoen is geleerd, te behouden, wordt het machine learning-model eenvoudig helemaal opnieuw getraind op het mengsel van gegevens uit beide seizoenen, dwz eerder geleerde kennis wordt afgespeeld op het getrainde model de gegevens van het nieuwe seizoen. Over het algemeen zou bijscholing van het model telkens wanneer de datadistributies "verschuiven" resulteren in exploderende kosten voor gegevensopslag en inspanningen die nodig zijn om intelligente systemen te behouden, en niet te vergeten de dramatische vermindering van de schaalbaarheid van het systeem. Ten slotte kan het opslaan van onbewerkte gegevens van eerdere taken de vereisten voor gegevensprivacy van de real-world applicatie grotendeels schenden.

In deze context hebben veel onderzoekers zich gericht op het simuleren van neurale plasticiteit in ANN's en daarmee de noodzaak om ruwe gegevens op te slaan (1,2,3,4,5,6) te verminderen. Dit wordt meestal gedaan in de zogenaamde "taak-incrementele" setup, waar elke nieuw toegevoegde datumbak als een afzonderlijke taak wordt beschouwd en de informatie over het taaklabel wordt verondersteld beschikbaar te zijn op het testtijdstip. Terugkomend op het cataloguszoekvoorbeeld, zou dit vereisen dat de informatie over het seizoenslabel (taaklabel) in elke zoekopdracht wordt opgenomen; daarom zou het classificeren van een bepaald kledingstuk a-priori informatie vereisen over het seizoen waartoe het behoort (taaklabel). Het hebben van een dergelijk "taaklabel" zou de uitvoer van het model automatisch verminderen tot de klassen die tot de veronderstelde taak behoren. In ons voorbeeld hierboven zou het model dus alleen worden beperkt tot het specifieke seizoen. Aan deze veronderstellingen kan zelden worden voldaan in echte toepassingen.

Een afzonderlijke lijn van werkzaamheden pakt een realistischer scenario aan. In dit "klassestijgende" scenario wordt de classificatieoutput van het model continu uitgebreid naarmate nieuwe klassen worden geleerd. In deze context is een algemene strategie om een ​​zogenaamde generatieve geheugencomponent (bijvoorbeeld 7,8,9) te introduceren. Hier wordt in plaats van onbewerkte gegevens op te slaan, een generatief model zoals GAN of VAE (zie vorige blogpost) getraind om ervaring te genereren die opnieuw moet worden afgespeeld. Vandaar dat in het catalogusvoorbeeld items (met de overeenkomstige klasse) van het eerste seizoen zouden worden gegenereerd en afgespeeld in het model.

Bestaande generatieve geheugenbenaderingen baseren zich meestal op het idee van een diepe generatieve replay, waarbij het generatieve model herhaaldelijk wordt omgeschoold door de combinatie van momenteel beschikbare echte gegevens (nieuw seizoen) en de afleveringsafleveringen die zijn gesynthetiseerd door de vorige generator (afgelopen seizoen). Afgezien van het feit dat ze zeer inefficiënt zijn in de training, zijn deze benaderingen echter gevoelig voor een effect dat bekend staat als 'semantisch driften'. "Semantische drifting" verwijst naar de kwaliteit van de afbeeldingen die bij elke herhaling van het geheugen worden gegenereerd, afhankelijk van de eerder gegenereerde afbeeldingen, wat vatbaar is voor foutpropagatie en dus resulteert in kwaliteitsverlies en vergeten.

Voorgestelde oplossing - Leren van plasticiteit in een generatief geheugennetwerk

Tot nu toe hebben we geleerd dat het herhalen van ervaringen een eenvoudige en nuttige strategie is om het vergeten in ANN's in het algemeen te overwinnen, en in het bijzonder in de uitdagende "klasse-incrementele" situatie. Deze strategie is echter alleen van toepassing wanneer de herhalingen niet als ruwe gegevens worden bewaard, maar in de vorm van relevante en efficiënt opgeslagen geheugenpatronen.

Om dit aan te pakken, hebben we in ons recente werk een methode voorgesteld met de naam Dynamic Generative Memory (DGM) - een end-to-end trainbaar raamwerk voor continu leren dat synaptische plasticiteit simuleert met leerbare harde-aandachtsmaskers toegepast op de parameters van een generatief netwerk (GAN) . Harde aandacht maskering identificeert de netwerksegmenten die essentieel zijn voor het onthouden van momenteel aangeleerde informatie en verhindert hun updates tijdens het toekomstige leren. Het netwerk wordt verder gestimuleerd om eerder geleerde kennis te hergebruiken, die werd opgeslagen in dergelijke "gereserveerde" netwerksegmenten die een positieve voorwaartse overdracht van kennis opleverden. Daarom kan in ons voorbeeld van een productcatalogus kennis over de catalogusitems van het vorige seizoen effectief worden hergebruikt bij het leren over de items van het nieuwe seizoen. Al met al kan DGM leren over nieuwe taken zonder oude kennis opnieuw te hoeven gebruiken, waardoor de trainingsefficiëntie wordt verbeterd en robuuster wordt in het licht van catastrofaal vergeten.

Bijgevolg kan DGM informatieve en diverse voorbeelden van eerder aangeleerde categorieën genereren bij elke stap van continu leren, zoals weergegeven in de onderstaande afbeelding. Door deze voorbeelden te vervangen door het taakoplossende model (D) wordt een model verkregen dat hoge classificatieprestaties kan behouden voor alle klassen die tijdens het voortdurende leerproces zijn waargenomen.

Op schaalbaarheid

Gezien de beperkte netwerkgrootte is het onvermijdelijk dat met een groeiend aantal taken om te leren, de modelcapaciteit op een bepaald moment is uitgeput. Dit probleem wordt verergerd bij het simuleren van neurale plasticiteit met maskering van het aandachtsniveau op parameterniveau. Om voldoende capaciteit en constante expressieve kracht van het onderliggende netwerk te garanderen, houdt DGM het aantal "vrije" parameters (dat wil zeggen zodra deze effectief kunnen worden bijgewerkt) constant door het netwerk uit te breiden met precies het aantal parameters dat was gereserveerd voor de vorige taak. Het kernidee hier is dat met een gegeven positieve voorwaartse overdracht van kennis (d.w.z. parameterherbruikbaarheid), het aantal parameterreserveringen voor nieuwe taken in de loop van de tijd moet afnemen en de netwerkgroei op een bepaald punt zou moeten verzadigen.

Raadpleeg de volledige paper over arXiv voor technische details over de DGM-methode.

Hoewel het nog steeds ver verwijderd is van het volledig oplossen van het probleem van catastrofaal vergeten, en ondanks verschillende beperkingen, toont DGM efficiënte netwerkgroei en robuustheid tegen catastrofaal vergeten in een uitdagende "klassement-incrementele" opstelling. Wij geloven dat het gepresenteerde onderzoek ons ​​kan helpen ons begrip van continu leren te vergroten - een essentieel vermogen op weg naar het bereiken van een sterke AI, die in de loop van de tijd adaptief en progressief kan leren (en vergeten).

Ons werk over levenslang leren wordt gepresenteerd op de CVPR 2019.

Over de auteur: Oleksiy Ostapenko, een Associate Research Engineer bij het SAP machine learning onderzoeksteam, werkt aan de uitdagingen van voortdurend levenslang leren die in dit artikel worden besproken in zijn paper die op de CVPR van dit jaar zal worden gepresenteerd.