Common Crawl verwijdert 2 miljoen artikelen
In dit artikel:
Common Crawl, de Amerikaanse non-profit die sinds 2008 het web schraapt en grote datasets gratis beschikbaar stelt, heeft op verzoek van Stichting BREIN ruim 2 miljoen nieuwsartikelen uit haar archief verwijderd. Het archief bevatte petabytes aan vaak auteursrechtelijk beschermde werken, waaronder artikelen van bekende Nederlandse nieuwsmedia die zonder toestemming waren gekopieerd en door AI‑diensten gebruikt worden om modellen te trainen.
BREIN vroeg de verwijdering namens meerdere Nederlandse uitgevers om te voorkomen dat generatieve AI‑modellen ongeautoriseerd op deze content zouden leren. Onderzoek laat zien dat vrijwel alle grote taalmodellen deels op Common Crawl‑data getraind zijn, waaronder openELM (Apple), Phi (Microsoft), ChatGPT (OpenAI), Nemo Megatron (NVIDIA), DeepseekV3 en Claude (Anthropic). Common Crawl heeft aan het verzoek voldaan.
BREIN benadrukt het verschil met GPT‑NL, een in juni 2025 gestart Nederlands model (TNO, NFI, SURF e.a.) dat getraind wordt op zorgvuldig geselecteerde, rechtmatig verkregen datasets. Tegelijkertijd sluiten sommige kranten commerciële licenties met AI‑partijen — The Guardian deed dat met OpenAI in februari 2025 voor latere artikelen. BREIN roept rechthebbenden op zich te melden als hun werk onrechtmatig door Common Crawl is gekopieerd.