Amazons ansigtsgenkendelse matcher fejlagtigt 105 amerikanske og britiske politikere med politibilleder, men kan du stole på påstande om nøjagtighed?

I juli 2018 gennemførte American Civil Liberties Union en prøve ved at bruge Amazons ansigtsgenkendelsesværktøj, 'Rekognition', til at matche billeder af amerikanske kongresmedlemmer mod mugshots af personer, der er arresteret for en forbrydelse. ACLU fandt 28 falske matches, hvilket fremhæver manglerne ved ansigtsgenkendelsesteknologi, der sælges til retshåndhævende myndigheder i hele landet.
Så er det blevet bedre?
Ikke meget, ifølge vores seneste eksperiment.
Nysgerrig efter, om og hvor hurtigt ansigtsgenkendelsen forbedres, besluttede Comparitech at udføre en lignende undersøgelse næsten to år senere. Vi tilføjede også britiske politikere til blandingen, for i alt 1.959 lovgivere.
Resultater
Vi deler resultaterne mellem amerikanske og britiske politikere. Men før vi diskuterer resultater, lad os først gennemgå det omdrejningspunkt, som alle disse test drejer sig om: tillidstærskler.
Tillidsgrænser
Når to billeder sammenlignes af Amazons Rekognition, returnerer det ikke blot et ja eller nej svar. I stedet er resultaterne angivet som procenter. Jo højere procentdelen er, jo mere sikker er Genkendelsen af, at de to billeder er af den samme person.
ACLU brugte Rekognitions standardindstillinger, som satte konfidensgrænsen til 80 procent.
Amazon irettesatte ACLU's resultater og sagde, at tærsklen var for lav. En talsmand for Amazon fortalte GCN den bør sættes til mindst 95 procent til retshåndhævelsesformål, og en blogindlæg på Amazon Web Services-webstedet oplyste, at det skulle være 99 pct. Men en rapport fra Gizmodo fandt ud af, at det er op til politiets skøn at sætte disse tærskler, og de bruger ikke altid Amazons anbefalinger.
En hævning af tillidsgrænsen fører uundgåeligt til færre falske positiver (forkert matching af to billeder af forskellige personer), men også flere falske negativer (manglende matchning af to billeder af samme person). Desværre kan vi ikke måle sidstnævnte i dette eksperiment. Mere om det senere.
Vi kontaktede både ACLU og Amazon for kommentarer og vil opdatere denne artikel, hvis vi modtager et svar på journalen.
OS
Det amerikanske datasæt bestod af billeder af 430 repræsentanter og 100 senatorer.
Ved en tærskelværdi på 80 procent,Anerkendelse matchede forkert et gennemsnit på 32 amerikanske kongresmedlemmertil mugshots i arrestdatabasen. Det er fire flere end ACLU's eksperiment for to år siden.
Efter disse standarder er Amazons ansigtsgenkendelse ikke blevet forbedret og endda præsteret dårligere end hvad ACLU anførte for to år siden.
Når vi øger tærsklen til, hvad Amazon anbefaler til retshåndhævelse,vi fandt ingen forkerte match på eller over 95 procent konfidens.ACLU gav ikke resultater ved denne tærskel tilbage i 2018, så vi har ingen tidligere resultater, som vi kan sammenligne med.
Storbritannien
Vores britiske datasæt består af 1.429 politikere: 632 medlemmer af parlamentet og 797 medlemmer af House of Lords. Vi matchede dem med de samme arrestationsbilleder som de amerikanske politikere.
Ved en tærskel på 80 procents tillid fejlidentificerede Rekognition i gennemsnit 73 politikere til mugshots i arrestdatabasen.
Andelen af falske positiver var lavere for britiske politikere (5 procent) end for amerikanske (13 procent), hvilket kan tyde på, at britiske politikere ser væsentligt anderledes ud end deres amerikanske kolleger, i det mindste ifølge Rekognition.
Da vi hævede tillidsgrænsen til 95 procent, var der ingen forkerte kampe.
Racemæssig skævhed
ACLU hævdede, at Amazons ansigtsgenkendelsesteknologi ved en tillidstærskel på 80 procent var racistisk, og fejlidentificerede ikke-hvide i højere grad end hvide mennesker.
Vores resultater understøtter denne konstatering. Ud af de 12 politikere, der blev fejlidentificeret ved en tillidsgrænse på 90 procent eller højere, var seks ikke hvide (som vist på billedet øverst i denne artikel). Det betyder, at halvdelen af de fejlidentificerede personer var farvede, selvom ikke-hvide kun udgør omkring en femtedel af den amerikanske kongres og en tiendedel af det britiske parlament.
Metodik
Vi brugte offentligt tilgængelige billeder af 430 amerikanske repræsentanter, 100 amerikanske senatorer, 632 medlemmer af det britiske parlament og 797 medlemmer af House of Lords.
Disse blev matchet mod fire sæt af 25.000 tilfældigt udvalgte arrestationsbilleder fra Jailbase.com ved hjælp af Amazon Rekognition. Eksperimentet blev gentaget én gang for hvert sæt, og resultaterne tog et gennemsnit sammen. Fordi ACLU ikke offentliggjorde sine testdata, kunne vi ikke bruge nøjagtig den samme database med arrestationsfotos.
I nogle tilfælde blev en enkelt politiker fejlidentificeret mere end én gang mod flere mugshots. Dette tæller som en enkelt falsk positiv.
Dette regneark indeholder alle de politikere, der matchede på eller over 70 procents tillid, deres billeder og den tillid, som Rekognition matchede dem.
Hvorfor du ikke bør stole på statistikker over ansigtsgenkendelsesnøjagtighed
Vær skeptisk, hver gang en virksomhed investeret i ansigtsgenkendelse sælger målinger om, hvor godt det fungerer. Statistikken er ofte uigennemskuelig og nogle gange direkte misvisende.
Her er et eksempel på, hvordan statistik om ansigtsgenkendelses nøjagtighed kan fordrejes. I Storbritannien hævdede Met-politiet, at deres ansigtsgenkendelsesteknologi kun begår en fejl i et af hver 1.000 tilfælde. De nåede dette tal ved at dividere antallet af forkerte matches med det samlede antal personer, hvis ansigter blev scannet. Dette øger nøjagtighedsvurderingen ved at inkludere ægte negativer - langt de fleste billeder, der slet ikke blev matchet.
I modsætning hertil fandt uafhængige forskere ved University of Essex, at teknologien havde en fejlrate på 81 pct når de dividerede antallet af forkerte kampe med det samlede antal rapporterede kampe. Universitetets rapport er meget mere i overensstemmelse med, hvordan de fleste mennesker med rimelighed ville bedømme nøjagtigheden, idet de ser bort fra sande negativer og fokuserer på den hastighed, hvormed de rapporterede matches er korrekte.
En senere rapport fandt Met-politiet brugt live ansigtsgenkendelse til at scanne 8.600 menneskers ansigter uden samtykke i London. Resultaterne var i overensstemmelse med University of Essex' resultater: et korrekt match, der førte til en arrestation, og syv falske positive.
Falske negativer
Endnu mere sjældent rapporteret er antallet af falske negativer: to billeder af den samme person, der burde have været matchet, men som ikke var det. Som et hypotetisk eksempel på denne fejl i praksis, ville et ansigtsgenkendelsesudstyret kamera i en lufthavn undlade at udløse en advarsel ved at se en person, det burde have genkendt. En anden form for falsk negativ ville være at undlade at genkende, at der overhovedet findes et ansigt i et billede.
For at måle antallet af falske negativer, ville vi være nødt til at udfylde vores mugshot-database med nogle rigtige - men ikke identiske - fotos af politikerne. Fordi vores mål var at genskabe ACLU's test, var dette uden for vores eksperiment.
Brugssager fra den virkelige verden
Lad os også overveje, hvad vi sammenligner: to sæt hovedbilleder. Den ene indeholder politi-mugshots og den anden afprøvede portrætter, men begge giver klare udsigter af hver persons ansigt i øjenhøjde, vendt mod kameraet.
Brugstilfælde i den virkelige verden er meget forskellige. Lad os tage CCTV-overvågning for eksempel. Politiet ønsker at scanne ansigter i et vejkryds og matche dem med en kriminel mugshot-database. Her er blot et par faktorer, der yderligere mudrede påstande om, hvor godt ansigtsgenkendelse klarer sig i sådan en virkelig verden:
- Hvor langt væk er kameraet fra motivet?
- I hvilken vinkel er kameraet rettet mod motivet?
- Hvilken retning vender emnet?
- Er motivet sløret af andre mennesker, genstande eller vejr?
- Har motivet makeup, hat eller briller på, eller har de for nylig barberet sig?
- Hvor godt er kameraet og objektivet? Er det rent?
- Hvor hurtigt bevæger motivet sig? Er de slørede?
Alle disse faktorer og mere påvirker ansigtsgenkendelsens nøjagtighed og ydeevne. Selv den mest avancerede ansigtsgenkendelsessoftware, der er tilgængelig, kan ikke kompensere for dårlig kvalitet eller slørede billeder.
At sætte for meget tiltro til ansigtsgenkendelse kan føre til falske anholdelser. I april 2019 sagsøgte en studerende for eksempel Apple efter virksomhedens ansigtsgenkendelsessoftware kædede ham fejlagtigt til tyverier i flere Apple-butikker, hvilket førte til hans anholdelse.
Brug af en tærskel på mere end 80 % forbedrer helt sikkert resultaterne. Men uanset om du er enig i politiets brug af ansigtsgenkendelse eller ej, er én ting sikker: den er ikke klar til at blive brugt til identifikation uden menneskeligt tilsyn. Amazon udtaler i sit blogindlæg, 'I virkelige scenarier for offentlig sikkerhed og retshåndhævelse bruges Amazon Rekognition næsten udelukkende til at hjælpe med at indsnævre feltet og give mennesker mulighed for hurtigt at gennemgå og overveje muligheder ved hjælp af deres dømmekraft (og ikke til at træffe fuldstændigt autonome beslutninger) ).'