Impact van open source op AI

Mark Collier: Open source drijft innovatie èn veiligheid in AI

door Eveline Meijer, beeld Shutterstock en The Linux Foundation

Het overgrote deel van de huidige AI-golf wordt achter gesloten deuren gemaakt, door bedrijven die alle code en trainingssets voor zichzelf houden. Als we veiligere AI willen én AI sneller willen ontwikkelen, is open source de beste route, vindt Mark Collier. AG Connect ging tijdens de Open Source Summit in Amsterdam met hem in gesprek. 

Mark Collier is voor velen bekend van opensource-cloudplatform OpenStack, dat hij hielp opzetten. Ook was hij lange tijd COO van de OpenStack Foundation. Het verrast dan ook niet dat open source volgens hem een grote rol speelt bij de opkomst van nieuwe technologie. "Het hebben van een opensource-optie of deze kunnen bouwen helpt iedere keer om sneller te innoveren", betoogt Collier.

"Maar nog veel belangrijker: je kunt input geven in de toekomst van een platform dat de economische activiteit wereldwijd gaat definiëren. En het geeft je de kans om deel te nemen aan die economische activiteit." Een van de belangrijkste aspecten van open source is immers dat ontwikkelaars wereldwijd kunnen bijdragen aan een project of dit verder kunnen doorontwikkelen.

Tegenwoordig richt Collier zich op de volgende grote revolutie: AI. Dat doet hij bij The Linux Foundation, waar hij General Manager van AI & Infrastructure is. Ook daarin speelt open source volgens hem een belangrijke rol. Vanwege eerder genoemde punten, maar ook vanwege veiligheid. Opensourceprojecten zijn per definitie transparant en bieden inzicht in hoe een product tot stand komt.

Juist dat is bij AI belangrijk, vindt Collier. "Als AI niet transparant is, dan ontstaan er een hoop zorgen over wat er gebeurt als we daar onze belangrijkste systemen aan koppelen. We weten dan bijvoorbeeld niet voldoende over waar de data vandaan kwamen en wie toegang heeft tot die data." 

Mark Collier

Transparantie

Binnen de opensourcegemeenschap is al een tegenbeweging gaande. Er zijn al diverse opensourcedatasets om modellen op te trainen. Nvidia bracht in augustus de Granary-dataset uit, gericht op spraakmodellen. Deze dataset bevat maar liefst een miljoen uur aan audio. Daarnaast verscheen BigDocs-7.5M van ServiceNow, met 7,5 miljoen documenten, bedoeld om AI-modellen te trainen om documenten te begrijpen en code te genereren op basis van plaatjes. Nog een voorbeeld is de Surya Dataset van IBM en NASA, waarmee AI-modellen getraind kunnen worden om bijvoorbeeld zonnevlammen te voorspellen.

Voordeel van deze datasets is dat voor iedereen inzichtelijk is waar een model op getraind wordt. Welke data zijn gebruikt? Zit daar enige bias in? Waar komen de data vandaan? Alleen door een dataset open source te maken, zijn die vragen te beantwoorden. 

Wat is dan wel échte opensource-AI?

Open source vs. open weight

Een dataset is echter slechts een klein onderdeel van een AI-systeem. Hoe een AI-model gemaakt is, is net zo goed belangrijk. Het Chinese DeepSeek zette daar een volgende grote stap in. Terwijl de meeste bedrijven hun modellen nog achter gesloten deuren ontwikkelden, maakte DeepSeek in januari dit jaar zijn AI-model open source beschikbaar. Niet lang daarna volgden andere bedrijven dat voorbeeld, waaronder OpenAI. 

Tenminste, tot op zekere hoogte. Veel bedrijven, ook DeepSeek, delen vooral de parameters van de modellen. Of, zoals de Radboud Universiteit het uitlegt: ze delen de executable van de software en niet de broncode. De modellen zijn prima te gebruiken, maar onleesbaar. Bij echte opensourcesoftware heb je ook inzicht in de broncode en de werking van het systeem. Wat nu veel gedeeld wordt, is dus niet open source. Het is wat we 'open weight' noemen. 


Wat is dan wel échte opensource-AI? Daar heeft de Open Source Initiative een definitie voor opgesteld, die nog verder doorontwikkeld wordt. Opensource-AI stelt gebruikers in staat om:

  • Het systeem voor elk doeleinde te gebruiken, zonder dat daar toestemming voor gevraagd moet worden;
  • Te bestuderen hoe het systeem werkt en de componenten te inspecteren;
  • Het systeem voor elk doeleinde aan te passen, inclusief om zijn output te veranderen;
  • Het systeem met anderen te delen, met of zonder aanpassingen, voor elk doeleinde.

Dit betekent dat niet alleen de parameters van een model gedeeld moeten worden om echt open source te zijn, maar ook de code die gebruikt is om het systeem te trainen, de broncode die gebruikt is om de dataset te maken en de dataset zelf. "Kun je de lijst met data om juridische redenen niet delen, dan moet je een erg gedetailleerd alternatief aanleveren", zegt Stefano Maffulli van de Open Source Initiative tijdens de Open Source Summit.

Zijn er dan al wel echte opensourcemodellen? Jazeker. Het T5-model van Google, Amber en CrystalCoder van LLM360, OLMo van Ai12 en Pythia van Eleuther AI zijn voorbeelden van AI-modellen die wel open source zijn. 

Open weight is al winst

Met open weight-modellen is echter niets mis, vindt Collier. "Die bieden nog steeds een groot voordeel voor mensen die iets kant-en-klaars willen pakken en dat willen verwerken in hun eigen producten, waarbij ze hun privacy willen behouden. Dat is een krachtig iets, zelfs als dat niet volledig voldoet aan de definitie van open source."

Dat grote bedrijven nu vooral open weight-modellen uitbrengen, ziet hij ook als winst. "Wat DeepSeek ons liet zien is dat je niet 100% van de infrastructuur hoeft te hosten om een model uit te proberen. Hun model is beschikbaar bij meerdere infrastructuuraanbieders. Daardoor konden ze voldoen aan de enorme vraag die uit het niets ontstond, zonder dat de servers plat gingen. Dat is enorm krachtig." 

Eveline Meijer is freelance techredacteur