Weblogs

Slechte datakwaliteit van adressen is bottleneck voor Data Scientists

Periodiek publiceren wij inhoudelijke verhalen van onze mensen op de website. Wat speelt er binnen hun vakgebied? Vandaag een verhaal van onze Data Scientist Willy Tadema!

Regelmatig lees je dat Data Scientists tot wel 80 procent van hun tijd besteden aan het organiseren en opschonen van gegevens. Mijn ervaring is dat dit percentage wel zo ongeveer klopt. Datakwaliteit is vaak een knelpunt in projecten en het opwerken van gegevens (‘datapreparatie’) kan veel tijd kosten. Dat geldt in het bijzonder voor adresgegevens.

Eenduidig en volledig

Stel: je wilt achterhalen welke personen in een klantbestand op hetzelfde adres wonen, of je wilt gegevens uit twee databronnen op adres koppelen. Wanneer de adressen niet eenduidig zijn vastgelegd, lukt dit niet. Neem bijvoorbeeld de Burg de Vrieslaan in Zuidhorn. Dat is een officiële straatnaam, maar hoeveel alternatieve schrijfwijzen kom je in de praktijk tegen? Als adressen niet gestandaardiseerd zijn, is het bijna niet te doen om ze te vergelijken. Niet alleen vervelend voor Data Scientists trouwens, maar ook voor postbezorgers.

Een ander probleem doet zich voor wanneer adressen onvolledig zijn. Als de postcode van het adres ontbreekt, is het bijvoorbeeld een stuk lastiger om de juiste match te vinden in een ander bronbestand. Zonder postcode neemt de kans op fouten bij het koppelen van bronnen op adres toe.

Adressen verrijken met wijknummer of coördinaten

Als Data Scientist wil je het liefst zoveel mogelijk gegevens hebben om je model op te trainen. Adressen kun je verrijken met informatie op een hoger aggregatieniveau. Neem bijvoorbeeld de buurt- en wijkstatistieken van het CBS. Om dit te kunnen doen, heb je wel voor ieder adres het buurt- of wijknummer nodig. Zonder een uniek identificerend nummer voor buurt of wijk, kun je geen eenduidige koppeling leggen.

Als je de coördinaten kent van een adres, wordt het pas écht leuk! Dan kun je ook ruimtelijke analyses uitvoeren en resultaten weergeven op een kaart. Vragen die je dan kunt beantwoorden zijn bijvoorbeeld: Hoeveel inbraken waren er binnen een straal van 250 meter van dit adres? Wat is de aanrijtijd van hulpdiensten? Hoe ver is de dichtstbijzijnde bushalte? Met coördinaten heb je dus veel méér mogelijkheden dan met adresgegevens, maar waar haal je die coördinaten vandaan als ze niet in je bestand staan?

Bottom line: als Data Scientist kun je veel tijd kwijt zijn aan het verbeteren en verrijken van adresgegevens. Best frustrerend! Gelukkig kan de Basisregistratie Adressen en Gebouwen (BAG) je hierbij helpen.

BAG is dé betrouwbare (open) bron voor adressen

De BAG bevat alle adressen in Nederland. Het is de officiële bron voor adressen. Overheidsorganisaties zijn wettelijk verplicht om de BAG te gebruiken. Ze mogen geen schaduwadministraties voeren en moeten fouten melden aan de bronhouder. De BAG wordt actueel gehouden door gemeenten. Zij zijn bronhouder en verantwoordelijk voor de datakwaliteit. De wet stelt eisen aan de datakwaliteit ene bronhouders moeten hieraan voldoen. De overheid heeft processen en systemen ingericht om de datakwaliteit te garanderen. Daarmee is de BAG een actuele en betrouwbare bron voor adressen. Niet alleen voor overheidsorganisaties, maar voor iedereen!

De BAG is namelijk open data. De gegevens zijn vrij beschikbaar voor hergebruik, zonder kosten. Publieke Dienstverlening op de Kaart (PDOK) is het online platform waarop de overheid de BAG publiceert. PDOK biedt op verschillende manieren toegang tot de data, onder andere via een atom feed, GIS services, een REST API en als linked data. Naast PDOK zijn er ook andere (commerciële) partijen die de BAG beschikbaar stellen. Een mooi voorbeeld is het open source project NLExtract. Via de website van NLExtract kun je iedere maand een CSV-bestand met adressen en een PostGIS databasedump van de BAG downloaden.

Gratis zoekmachine voor adressen met PDOK LocatieServer

Iedereen kan dus gratis gebruik maken van de BAG! Afhankelijk van je toepassing kies je de interface die het beste past. Zelf maak ik veel gebruik van PDOK LocatieServer. PDOK LocatieServer is een web API voor het opvragen van gegevens uit een aantal geografische registraties van de overheid, waaronder de BAG. Met LocatieServer is het eenvoudig om adressen te standaardiseren op de BAG en aan te vullen met gegevens over het waterschap, de gemeente, de buurt, de wijk of het perceel waar het adres in valt. De webservice geeft ook de coördinaten terug en is zo slim dat ‘ie ook kan zoeken op onvolledige of fout geschreven adresgegevens!

Er zijn voorbeelden van gebruik van LocatieServer in Excel, Power BI en R. Als je vragen over de BAG of LocatieServer hebt, kun je die het beste stellen in het Geoforum. In de Github repository van het Rijks ICT Gilde vind je ook nog een handleiding voor LocatieServer om je op weg te helpen.

Reactie toevoegen

U kunt hier een reactie plaatsen. Ongepaste reacties worden niet geplaatst. Uw reactie mag maximaal 2000 karakters tellen.

* verplichte velden

Uw reactie mag maximaal 2000 karakters lang zijn.

Reacties

Er zijn nu geen reacties gepubliceerd.