Wat zeggen onze data?

Dit is Deel 2 en het vervolg op de vorige Dashboard blogpost. We hebben vastgesteld dat we vier hoofdvragen willen behandelen op onze huidige versie van het dashboard:

  • Hoeveel advertenties plaatsen Nederlandse politieke partijen op de platforms die we bekijken?
  • Hoeveel geld besteden deze politieke partijen op elk platform?
  • Hoeveel mensen worden bereikt door deze advertenties?
  • Hoe worden deze politieke advertenties getarget richting individuen?

Hoe we antwoord geven op deze vragen met behulp van advertentietransparantiedata

Hoeveel advertenties plaatst elke partij?

Een van de dingen die we willen ontdekken is hoeveel online politieke advertenties getarget zijn op Nederlandse burgers. Een manier om deze vraag te beantwoorden is door het aantal unieke politieke advertenties te tellen die door Nederlandse partijen worden geplaatst op de platforms waar we toegang toe hebben.

Merk op dat Facebook- en Instagram-data, evenals Google- en YouTube-data, gebundeld zijn en dat ons dashboard deze data daarom ook als gebundeld weergeeft.

Zie bijvoorbeeld de onderstaande schermafbeelding van het dashboard, die illustreert het aantal unieke politieke advertenties die op Facebook en Instagram zijn geplaatst door Nederlandse politieke partijen (zie ons dashboard voor de meest actuele versie van dit schema).

Bij het berekenen van het aantal unieke advertenties die in dit figuur zijn uitgezet, kwamen we al een aantal ‘problemen’ tegen en moesten we belangrijke beslissingen nemen.

Helaas is het door de manier waarop Facebook de data uit de advertentiebibliotheek aanlevert niet mogelijk om het aantal advertenties eenvoudig te tellen. Het blijkt dat in de data van Facebook, advertenties die identiek zijn in de meeste opzichten maar die op verschillende tijdstippen lopen of die gericht zijn op verschillende groepen, kunnen verschijnen als verschillende advertenties met unieke verschillende identificatienummers (ID’s). Daardoor lijkt het erop dat Facebook advertentie-ID’s niet één-op-één corresponderen met unieke advertenties. Met andere woorden, afhankelijk van hoe je het aantal advertenties telt, kun je tot verschillende cijfers komen over het aantal advertenties dat elke politieke partij heeft geplaatst.

Zie bijvoorbeeld de schermafbeelding hieronder (overgenomen uit Facebook’s Ad Library Explorer): een reeks van 46 advertenties, geplaatst door de PvdA, die verschijnen als een enkel cluster van advertenties. Bij de verwerking van de advertentiebibliotheekdata heeft elk van deze 46 individuele advertenties, uit de grotere bundel, een eigen advertentie-ID gekregen met eigen maatstaven en targetcriteria.

Bij de berekening van het aantal unieke advertenties op Facebook leidt het tellen van het aantal unieke advertentie-ID’s blijkbaar tot een drastisch groter aantal advertenties dan wanneer men kijkt naar de werkelijke uniekheid van de inhoud van elke advertentie. Naast deze subtiele technische verschillen die slecht gedocumenteerd zijn in de API-documentatie van Facebook, is er ook een probleem dat er in de praktijk een inconsistentie is tussen de manier waarop Facebook’s eigen Ad Archive advertentiedata weergeeft en de manier waarop deze data aan ons ter beschikking worden gesteld.

 

 

Om het aantal unieke advertenties te tellen die door elke partij op het platform van Facebook worden geplaatst, hebben we advertenties gegroepeerd die dezelfde tekst en dezelfde advertentie-link hebben, om ze als een enkele unieke advertentie te bekijken. De 46 individuele advertenties uit de bundel van advertenties die in de schermafbeelding hierboven worden getoond, worden bijvoorbeeld gezien als één unieke advertentie wanneer we het aantal advertenties tellen dat door PvdA is geplaatst, aangezien ze allemaal dezelfde tekst en video bevatten. We hebben deze beslissing genomen om unieke advertenties structureler te tellen op basis van hun werkelijke inhoud, in plaats van de ondoorzichtige en schijnbaar minder gestructureerde processen waarmee Facebook ID’s toekent aan advertenties die op hun platform worden geplaatst.

In de meeste gevallen leidt onze methode om advertenties te groeperen tot een vergelijkbare groepering van advertenties als wat Facebook grafisch weergeeft in de advertentiebibliotheek. Het is echter in bepaalde gevallen mogelijk dat we het aantal unieke advertenties ‘ondertellen’. Dit komt voor wanneer twee advertenties bijvoorbeeld dezelfde tekst en link delen, maar een andere video of afbeelding gebruiken. In toekomstige dashboardversies wordt het wellicht mogelijk om de advertenties ook te groeperen inclusief de gebruikte afbeeldingen/video’s bij de advertentie, om er zeker van te zijn dat onze groepering van advertenties echt gebaseerd is op identieke advertentie-inhoud op alle mogelijke manieren.

Gelukkig hebben we op Googles platform geen problemen ondervonden met het tellen van het aantal unieke advertenties. En in dit geval tellen we het aantal unieke advertentie ID’s in de data van het Google Transparency Report om het aantal geplaatste advertenties van elke politieke partij weer te geven.

Hoeveel geld geeft elke partij uit?

We willen ook graag transparant maken hoeveel geld elke partij besteedt aan hun advertenties. Ook hier verschilt de manier waarop deze informatie aan ons wordt verstrekt tussen de platforms van Facebook en Google.

De Facebook Ad Library biedt alleen zeer brede ‘onder-‘ en ‘bovengrenzen’ van het bedrag dat wordt uitgegeven voor een individuele advertentie-ID. Om het bedrag per adverteerder te berekenen, gebruiken we de mediaan van de onder- en bovengrens van het uitgegeven geld voor elke unieke advertentie (d.w.z. elke advertentie met unieke tekst en link) en rapporteren we het totaal van zowel de onder- als de bovengrens voor elke adverteerder.

Voor de Google-platforms bieden data die toegankelijk zijn via het Google Transparency Report wekelijkse statistieken over hoeveel geld is uitgegeven door partijen.

Hoeveel mensen bereiken de partijen?

We willen ook ontdekken hoeveel mensen de partijen bereiken met hun advertenties. De platformen verstrekken echter geen informatie over daadwerkelijk bereik, maar over het aantal ‘impressies’.

Eén impressie betekent dat een advertentie verschijnt in de tijdlijn of feed van een gebruiker. Deze statistiek heeft zijn beperkingen omdat een impressie niet direct wordt vertaald naar het aantal unieke mensen dat de advertentie bereikt. Dezelfde advertentie kan vele malen verschijnen in de feed van een gebruiker en elke keer wordt dit als een impressie geteld. Bovendien, zelfs wanneer een advertentie in een nieuwsfeed verschijnt, betekent dit niet noodzakelijkerwijs dat de gebruiker de advertentie ook daadwerkelijk ziet.

De advertentiebibliotheek van Facebook biedt alleen zeer brede onder- en bovengrenzen van impressies. Om deze statistiek per adverteerder te berekenen, gebruiken we de mediaan van de onder- en bovengrens van het uitgegeven geld voor elke unieke advertentie (d.w.z. elke advertentie met unieke tekst en link) en rapporteren we het totaal van zowel de onder- als de bovengrens voor elke adverteerder

De onder- en bovengrens van de impressies die door het Google Transparency Report voor Google-platforms worden verstrekt, zijn zelfs breder dan die voor Facebook. Google hanteert vijf categorieën:

  • onder 10k weergaven
  • 10k – 100k
  • 100k – 1m
  • 1m – 10m
  • >= 10m

Deze zeer brede categorieën maken het lastig om impressiestatistieken per partij weer te geven. Zo heeft GroenLinks sinds 1 september 16 advertenties op Google’s platforms geplaatst. Het samenvoegen van de weergaven van hun advertenties geeft ons een bereik van 160k tot 1,7 miljoen weergaven. Een dergelijk breed bereik maakt de statistiek niet erg bruikbaar. En naarmate het aantal advertenties in de loop van de tijd toeneemt, neemt het probleem van deze grote range alleen maar toe. Zoals het voorbeeld van D66 laat zien met 340 advertenties en een bereik van 1,5 tot 17,6 miljoen mogelijke impressies, een bizar groot bereik dat ons weinig inzicht geeft in hoeveel mensen de partij daadwerkelijk heeft bereikt. Gezien de moeilijkheden bij het samenvoegen van deze zeer brede categorieën voor individuele advertenties voor een bepaalde partij, geven we deze statistiek momenteel niet weer voor Google Ads.

Hoe worden advertenties op individuen getarget?

Een ander belangrijk stuk informatie dat dit dashboard probeert te ontdekken is de mate waarin advertenties zijn gericht op concrete groepen individuen (in plaats van gericht op alle burgers).

De advertentiebibliotheek van Facebook geeft slechts beperkte informatie over wie de advertenties heeft gezien op basis van gender, leeftijd en locatie, ook al is veel gedetailleerdere targeting mogelijk op Facebook. Voor elke advertentie biedt de advertentiebibliotheek van Facebook een ‘percentage’ dat betrekking heeft op het aandeel van de specifieke demografische of geografische locatie die de advertentie heeft gezien. Bijvoorbeeld: 20% van de gebruikers die de advertentie hebben gezien, waren vrouwen in de leeftijdscategorie 18-24.

De uiteindelijke statistiek in het dashboard wordt berekend door de mediaan van de percentages voor elke unieke advertentie te nemen. De boxplots voor leeftijd- en gendertargeting tonen het gemiddelde aandeel per demografische groep, per adverteerder.

Voor het targeten van individuen op basis van locatie (geo-targeting) is een kaart ingekleurd waarin we aan de hand van de mediaan, per adverteerder, het aandeel per provincie tonen.

Voor Google-platforms geeft het Google Transparency Report informatie over de groepen die de adverteerder heeft gekozen om te targeten, in plaats van alleen informatie over het publiek van een advertentie, zoals Facebook doet. Deze informatie onthult de targeting-strategie van de adverteerders zelf. Via Google is targeting voor verkiezingsadvertenties beperkt tot “[g]eografische locatie (met uitzondering van de straal rond een locatie), leeftijd en gender”. De getoonde percentages hebben betrekking op hoeveel van de advertenties getarget waren op deze specifieke criteria.

What we see in our data

This is Part 2 and a continuation of the previous Dashboard blog post. We established that we want to tackle four main questionsour current version of the dashboard:
  • How many ads are the Dutch political parties placing on the platforms that we look at? 
  • How much money are the parties spending on each platform? 
  • How many people are reached through these ads? 
  • How are the political ads targeted towards individuals? 

How we answer these questions using the ad-transparency data 

How many ads is each party placing?
One of the things we would like touncover ishow many political ads are targeted at Dutch citizens onlineAnd one way to answer this question is to count the number of unique political ads that areplaced by Dutch parties on the platforms for which we have access to. Note that Facebook and Instagram data, as well as Google and YouTube data, are bundled together and therefore our dashboard also displays this data as bundled together. For instance, the dashboardscreenshot below illustrates the number of unique political ads placed on Facebook and Instagram by Dutch political parties (See our dashboard for the most up-to-date version of this plot.) In calculating the number of unique advertisements plotted in this figure we already had to deal with several issues and make some key decisions Unfortunately, the way that Facebook provides data from its Ad Library does not allowa straightforward count of the number of adsIt appears that in Facebook’s data, ads that are identical in most ways but run at different times or are targeted towards different groups may appear as different ads with uniquely different identifiers (IDs). Therefore, iappears that Facebook advertisement IDs do not have a one-to-one correspondence with uniqueads. In other words, depending on how one decides to count the number of ads, one might arrive at different figures for the number of ads that each political party has placed.  For instance,see the screenshot below (taken from Facebook’s own ad archive explorer), of a “batch” of 46advertisementsplaced by the Dutch political party PvdA which appear as a single cluster of advertisements.In processing the ad-library data,each of theseindividual 46adsout of thelarger bundle,has been assigned its own adID with its own metrics and targeting criteria.
So apparently, in calculating the number of unique ads placed on Facebook, counting the number of unique ad IDS leads to a dramaticallylarger number ads than if one where to look at the actual uniqueness of the content of each adIn addition to these subtle technical differences being poorly documented in Facebook’s API documentation, there is also an issue that in practice there is an inconsistency between how Facebook’s own Ad archive explorer displays advertising data and how this data is made available to us.  To count the number of unique advertisements placed by each party on Facebook’s platformwe have grouped ads that have the same text and advertisement link together and view them as a single unique ad.For instance,the 46 individual ads from the bundle of ads shown in the screenshot above, are viewed as one unique ad when we count the number of ads placed by PvdA because they all share the same text and videoWe have made this decision in order to more structurally count unique ads based on their actual content, rather than by the opaque and seemingly less structured processes by which Facebook assigns identifiers to advertisements placed on their platform.  In most cases, our method of grouping ads together leads to a comparable grouping of ads to what Facebook graphically displays on its ad archive website. However,we foresee that there is also the possibility that in certain cases we might undercount the number of unique adsThis is a potential issue iffor instance two adsshare the same text and link but use a different video or image (or“creative” as Facebook likes to call them). In future dashboard versions it may be possible to also group the ads including the images/videos used with the ad to ensure that our grouping of ads is really based on identicalad content in all ways.  Luckily enough, on Google’s platform, we did not encounter issues with counting the number of unique ads. And in this casewe count the number of unique ad ids provided in the Google Transparency Report data to show the number of advertisements placed by each political party.
How much money does each party spend?
We’d also like to make transparent how much money each party spends on their ads. Again, the way this information is provided to us differs between Facebook’s and Google’s platforms.   The Facebook Ad library only provides very broad “lower” and “upper bounds” of Euros spent for an individual ad ID.  In order to calculate this metric by advertiser, we use the median amount of the lower and upper bound of money spent for each unique ad (i.e., each ad with unique text and link) and sum the lower and upper bound for every advertiser.  For Google platforms, data accessed via Google Transparency Report provides weekly statistics on how much money was spent by parties. 
How many people do the parties reach?
We also want to uncover how many people parties reach with their ads. The closest we get to this metric with data provided by the platforms is “impressions”. An impression is defined as each time an ad appears in a user’s timeline or feed. This metric comes with its limitations because an impression does not directly translate to how many unique people an ad reached. The same person can appear many times in a user’s feed and each time this is count as an impression. Additionally, even when an ad is delivered to a newsfeed appears it does not necessarily mean the user took notice of the ad.  The Facebook Ad library only provides very broad “lower” and “upper bounds” of impressions. In order to calculate this metric by advertiser, we use the median amount of the lower and upper bound of impressions for each unique ad (i.e., each ad with unique text and link) and sum the lower and upper bound for every advertiser.  The “lower” and “upper bounds” of impressions provided by the Google Transparency Report for Google platforms are even broader than those for Facebook. They only come in 5 categories:  
  • under 10k impressions 
  • 10k – 100k 
  • 100k – 1m 
  • 1m – 10m 
  • >= 10m 
These very broad ranges lead to some severe difficulties if one wants to give impression statistics by party. For example, as of writing the GroenLinks party has delivered 16 ads on Google’s Platforms since September 1st. Aggregating the impressions of their ads gives us a range from 160k to 1.7 million impressions which is an extremely large range that makes this metric much less useful. And as the number of ads increases over time, the problem of these big boundaries only increases. As the example of D66 shows with 340 ads and a range of 1.5 to 17.6 million possible impressions, an outlandishly big range that gives us very little insight into how many people the party has actually reached. Given the difficulties of aggregating these very broad range categories for individual ads for any given party, we are currently not displaying this metric for Google Ads. 
How are ads targeted toward individuals?
Another important piece of information that this dashboard tries to uncover is the extent to which ads are targeted to concrete groups of individuals (instead of addressing all citizens).  The Facebook Ad library only provides limited information about who saw the advertisements based on gender, age and location even though far more detailed targeting is possible on Facebook. For every ad, the Facebook ad library provides a “percentage” which relates to the share of the specific demographic or geographic location that has seen the ad. So, the audience of an ad could show that 20% of the users that have seen the ad were women in the age range of 18-24.   The final metric in the dashboard is calculated by taking the median of percentages for every unique ad. The boxplot for age and gender targeting show the average share of the audience per demographic group by advertiser.  For targeting individuals by location (geo-targeting), a map is colored in by the median audience share of an advertiser.  For Google platforms, the Google Transparency Report provides information about the groups that the advertiser chose to target rather than just information about the audience of an ad, like Facebook does This information is much more insightful as it reveals the targeting strategy set by the advertisers themselves. Per Google, targeting for election ads is limited to “[g]eographic location (except radius around a location), age, and gender. The percentages shown relate to how many of the ads were targeted towards these specific criteria.