Common Crawl, eine kleine Non-Profit-Organisation, sammelt Webdaten für große KI-Labore, ohne Paywall-Sperren oder Löschanfragen zu beachten. Dabei enthalten die gesammelten Millionen Artikel von Verlagen wie The New York Times oder The Atlantic auch zahlungspflichtige Inhalte, was zu laufenden Klagen führt. Die Organisation umgeht Compliance-Bemühungen durch irreführende Suchergebnisse.
