Jouw content als trainingsdata voor AI — het klinkt abstract, maar het is iets wat nu al gebeurt. AI-bedrijven hebben hun modellen getraind op enorme hoeveelheden data van het internet. Blogposts, social media berichten, productbeschrijvingen, nieuwsbrieven. Waarschijnlijk staat jouw content daar ook tussen. Maar mag dat zomaar? En wat kun je ertegen doen?
Hoe werkt jouw content als trainingsdata?
AI-modellen leren door enorme hoeveelheden tekst en beelden te analyseren. Dat proces heet scraping of tekst- en datamining. Geautomatiseerde software crawlt het internet en verzamelt alles wat publiek toegankelijk is. Jouw blogposts, je LinkedIn-berichten, de productpagina’s op je website — als het online staat en publiek toegankelijk is, kan het worden meegenomen als trainingsdata.
Jouw content als trainingsdata: wat zegt de wet?
In de Europese DSM-richtlijn staat dat tekst- en datamining voor commerciële doeleinden is toegestaan, tenzij de rechthebbende expliciet een voorbehoud heeft gemaakt. Dat voorbehoud heet een opt-out. Als jij als websitehouder duidelijk aangeeft dat jouw content niet mag worden gebruikt voor AI-training, moeten AI-aanbieders dat respecteren.
Hoe je dat regelt is via je robots.txt-bestand. Daarin kun je instructies opnemen voor AI-crawlers zoals GPTBot van OpenAI en Google-Extended. Je kunt die crawlers blokkeren. Het is echter geen waterdichte oplossing, want niet alle AI-bedrijven respecteren die instructies even consequent. Lees ook mijn blog over gevonden worden in AI-zoekmachines voor meer over hoe AI omgaat met online content.
De AI-verordening verplicht transparantie over trainingsdata
Vanaf augustus 2026 moeten aanbieders van generatieve AI-modellen publiceren welke data zij hebben gebruikt voor het trainen van hun model. Dat geeft makers en ondernemers eindelijk meer inzicht in of hun werk is meegenomen. Als blijkt dat jouw auteursrechtelijk beschermde content is gebruikt zonder toestemming terwijl jij een opt-out had geplaatst, kun je daartegen optreden. De eerste rechtszaken lopen al, maar er is nog weinig definitieve jurisprudentie.
Wat kun je nu al doen?
Voeg een opt-out toe aan je robots.txt-bestand om AI-crawlers te blokkeren. Voeg een gebruiksverklaring toe op je website waarin staat dat jouw content niet mag worden gebruikt voor AI-training. Houd bij welke content auteursrechtelijk beschermd is, zodat je kunt optreden als dat nodig is. Het zijn geen garanties, maar het zijn stappen die laten zien dat jij bewust met je rechten omgaat — en dat telt juridisch mee.
Wil je weten hoe je dit regelt voor jouw website? Neem contact op en ik kijk graag met je mee. Meer over opt-outs voor AI-crawlers lees je op de website van de Auteursbond.
Let op: deze blog is bedoeld als algemene uitleg en is geen juridisch advies. Bij specifieke vragen raad ik aan een jurist te raadplegen.
Deze blogpost is geschreven met behulp van AI en geredigeerd door Linda Vaneker.