Slimmer met Regelgeving

Te weinig data voor slimme toepassing van AI in het juridisch domein

Slimme toepassingen gebaseerd op kunstmatige intelligentie beloven het leven van juristen en juridische auteurs makkelijk te gaan maken. Dat klinkt fantastisch. In de praktijk blijkt de toepassing van kunstmatige intelligentie in de rechtsinformatica nog niet zo makkelijk. De meeste toepassingen bijten zich stuk op de harde werkelijkheid: er is veel menselijk handwerk nodig om data en instructies te leveren om een machine juridisch slimmer maken. Waarom eigenlijk? Waarom lijkt de toepassing van AI in juridisch domein ingewikkelder dan in andere domeinen? En wat is de rol van de uitgevers en de overheid hierin of wat zou die moeten zijn?

Garbage in

Slimme toepassingen vragen om data. Het liefst heel veel data. De slimme toepassingen worden met deze data namelijk getraind om een specifiek gedrag te vertonen. Hoe beter de data is waarmee je een slimme toepassing voedt, des te beter kwaliteit van de respons. In het juridisch domein bestaat deze data veelal uit tekstdocumenten. Hier geldt het bekende principe: garbage in = garbage out. Als de data waarmee een toepassing leert van slechte kwaliteit is, niet compleet is of ongemerkt is vervuild met andere data, dan beïnvloedt dit de prestatie van de slimme toepassing navenant.

Controleren van een slimme toepassing

En daar begint de uitdaging in het juridisch domein. De data die slimme toepassingen voedt, moet compleet, goed georganiseerd en controleerbaar zijn. Goede data levert een betrouwbare toepassing op èn de mogelijkheid om de toepassing te controleren. Die controleerbaarheid is juist voor een juridische toepassing belangrijk. Het hulpvaardige algoritme geeft een advies en moet aan de menselijke beslisser kunnen uitleggen hoe dit tot stand is gekomen. De data die wordt gebruikt om het algoritme te leren moet dus niet alleen voor de machine, maar ook voor de menselijke beslisser begrijpelijk zijn.

Jurisprudentie niet compleet

Opvallend is dat juist de de compleetheid van de data in het juridische domein nog een probleem is. Niet alle data is voor alle gebruikers, mens of machine, beschikbaar. In Nederland is bijvoorbeeld nog steeds niet alle jurisprudentie publiek beschikbaar. De rechtspraak publiceert alleen een selectie van uitspraken op haar website als publieke data. Een complete, betrouwbare, analyse van de data van alle uitspraken op een specifiek terrein is daarom niet mogelijk.

Dat doen ze in Frankrijk beter! Hier maakt de Franse overheid nu zelfs wetgeving om te voorkomen dat inzichten vanuit de data volledig worden gepubliceerd. Lees hier het artikel over de Franse regulering van data analyse resultaten in de rechtspraak.

Goed organiseren

Als data dan compleet is, begint de volgende uitdaging: het goed vindbaar en toegankelijk maken voor mens en machine. Mijn collega zegt altijd “als je iets wilt vinden, moet je het eerst goed opbergen”. Goed opbergen van data is specialistisch werk. Goed opbergen betekent het vindbaar maken van data en vervolgens aanbieden in voor de gebruiker passende brokjes. Dus precies die alinea uit de Memorie van Toelichting die relevant is voor de gestelde vraag, en niet het hele document van 33 pagina’s waarin de alinea ergens is verstopt.

De huidige verzamelingen PDF’s en Word documenten die uit het juridisch werkproces komen, zijn niet geschikt om als hapklare brokken in data analyses te gebruiken. Een goed voorbeeld hoe je juridische  documenten naar data kunt omzetten is de nationale wettenbank, wetten.overheid.nl. De oorspronkelijke wetteksten zijn in kleine stukjes (artikelen, leden) opgeknipt. Al deze stukje zijn afzonder op te vragen en verwijsbaar. Dit zijn documenten die in bruikbare, controleerbare, data zijn omgezet die de toepassing van AI makkelijker maken.

Rol van uitgevers

De grote uitgevers hebben hier een voorsprong. Ten eerste hebben de uitgevers een  meer complete collectie van jurisprudentie dan publiek beschikbaar is. Ten tweede hebben de uitgevers de informatie als goede bibliothecarissen geordend en verrijkt. Bijna alle jurisprudentie is voorzien van samenvattingen, links naar andere relevante stukken en een rijkdom aan categorisaties en annotaties. Kluwer plukt hier nu bijvoorbeeld de vruchten van met hun slimme toepassing “Walter”. Hoewel nog in experimentele fase, zijn de eerste resultaten veelbelovend. Lees ook het artikel op de site van Walter.

Rol van de overheid

Zolang juridische informatie niet compleet is in het publieke domein, kunnen slimme toepassingen in het juridisch domein alleen door grote uitgevers goed worden gevoed. Het is tijd dat de rechtspraak haast maakt met het beschikbaar stellen van alle jurisprudentie en de selectie ervan overlaat aan de gebruiker. Het anonimiseren is tenslotte een goed oplosbaar probleem. Voor nieuwe uitspraken is het anonimiseren een kwestie van het creatieproces beter inrichten. En met een combinatie van techniek en de inzet van een community van hergebruikers is het mogelijk om ook bestaande jurisprudentie te anonimiseren. De community dient in dit geval om de laatste uitdagingen in de anonimisering te tackelen zoals verwijzingen zonder herkenbare naam en plaats die wel een unieke persoon duiden, denk aan  “de volkszanger, bekend van kom-van-dat-dak-af”.

De overheid is op sommige gebieden al ver met het goed organiseren van informatie voor mens en machine. Wetten.nl heeft de slag van document naar data al gemaakt; elk onderdeel van een wettekst is apart op te vragen, verwijsbaar en verrijkt met relaties naar relevante jurisprudentie en beleidstukken. In de andere overheidsdocumenten is het nog niet zover. Kamerstukken, vergunningen, lokale regelgeving en uitspraken zijn nog altijd in de vorm van een volledig document gepubliceerd. Voor menselijke gebruikers is het doorploegen van 33 pagina’s van een Memorie van Toelichting een hoop onnodig werk. Ook voor slimme toepassingen zijn de grote documenten een probleem: welke patronen herkent de slimme toepassing nu precies in een document en hebben die iets te maken met de inhoud of juist met de toevallige structuur en omliggende context in het document? Vooringenomenheid of “bias” ligt snel op de loer en is moeilijk te controleren (artikel CIO magazine over vooringenomenheid AI).

Hoe verder met slimme toepassingen?

Het is zonde is nu alle energie op AI  toepassingen in te zetten, terwijl er nog zoveel in het completer en ordenen van de informatie te doen is.  Het ordenen van documenten naar bruikbare data is tenslotte ook voor de kwaliteit van de slimme toepassing nodig en maakt deze ook nog beter controleerbaar.

Pleidooi

Dit pleit voor een paar zaken waar ook Slimmer met Regelgeving zich sterk voor maakt: compleetheid en betere herbruikbaarheid van juridische data.

  • Jurisprudentie. Maak ook ALLE jurisprudentie beschikbaar als open data, anonimiseer waar dit wettelijke nodig is voor de bescherming van privacy. De rechtspraak heeft opnieuw het voornemen geuit om alle jurisprudentie te publiceren als open data, maar resulaten zijn nog niet in het vizier.
  • Van document naar data. Houdt bij het maken van wet- en regelgeving,  jurisprudentie en beleid al rekening met het hergebruik door mens en machines: zet documenten zoveel mogelijk om in bruikbare gestructureerde data;  dit maakt het zoeken naar informatie voor mensen direct efficiënter en is vormt een kwalitatief betere en herleidbare voedingsbodem voor AI toepassingen; dit vraagt aanpassing in het totstandkomingsproces van wet- en regelgeving.
  • Investeer niet alleen in AI. Focus niet alleen op AI toepassingen. Blijf investeren in klassieke hulpmiddelen zoals zoektechnologie, taxonomieen, woordenboeken. Dit zorgt voor controleerbaarheid van de uitkomsten van AI toepassingen door mensen;
  • Herleidbaarheid. Zorg dat in alle experimenten met AI duidelijk is welke data is gebruikt om te leren, in hoeverre deze compleet is en wat het risico van vooringenomenheid van de algoritmes is. Val terug op reguliere technologie om dezelfde data te ontsluiten ter controle van de AI toepassing.
Afsluitend: slimmigheid is relatief, goede data is dat niet.

En bedenk: wat we nu reguliere technologie noemen, zoals slimme zoekmachines, hebben we paar decennia geleden nog kunstmatige intelligentie genoemd. En welke slimme technologie ook nog gaat komen, deze kan alleen betrouwbaar functioneren op basis van goed gestructureerde, betrouwbare, open en eerlijke data. Het is een taak van de overheid om te zorgen dat de data uit haar wetgevende, rechtsprekende en toezicht en handhavingstaken zo goed mogelijk beschikbaar komt. Dit kan niet alleen aan uitgevers worden overgelaten.

Hayo Schreijer

Voeg opmerking toe