Onderzoekers van Salesforce hebben op Black Hat hun voortgang gepresenteerd op het gebied van aanvallen op spraakherkenningssystemen van Apple en Microsoft. Ze maakten gebruik van opensourcetools om iemands stem zo eenvoudig mogelijk na te bootsen met machinelearning.

 

 

Het onderzoek richtte zich op Siri en de speech recognition-api van Microsoft. Het doel van het onderzoek was om een zo eenvoudig mogelijke methode te vinden om deze systemen voor de gek te houden. Op de achtergrond speelt mee dat steeds meer diensten authenticatie aanbieden op basis van een zin die gebruikers moeten uitspreken. Daarbij wijzen de onderzoekers erop dat er een verschil is tussen herkenning en authenticatie, maar dat hun aanpak door te trekken is naar andere systemen die werken op basis van vooraf bekende wachtwoordzinnen. Hoewel ze die niet getest hebben, moet hun onderzoek dienen als waarschuwing dat aanvallen in de toekomst steeds eenvoudiger zullen worden.

Tijdens hun presentatie lieten de onderzoekers, Azeem Aqil en John Seymour, eerst zien dat de Microsoft-api voor de gek te houden is aan de hand van de dienst Lyrebird. Die laat gebruikers een digitale versie van hun stem genereren door ze dertig zinnen uit te laten spreken, die voor iedereen gelijk zijn. Het nadeel van deze dienst is dat deze specifieke zinnen zijn vereist. De onderzoekers toonden een fragment uit de film Sneakers, waarin iemand een opname van bepaalde via social engineering verkregen woorden afspeelt om stemherkenning voor de gek te houden. Dat diende als voorbeeld voor een manier die werkt, maar die ook veel moeite kost. Daarom gingen de onderzoekers op zoek naar een eenvoudigere methode.

Voor hun doeleinden bekeken ze twee systemen voor het genereren van stemmen aan de hand van een dataset. Aan de ene kant was daar WaveNet van DeepMind en aan de andere kant Tacotron, dat eveneens onder de paraplu van Google-moederbedrijf Alphabet vandaan komt. De keuze viel op de tweede optie, omdat deze een stuk eenvoudiger werkt dan WaveNet, die veel tuning zou vergen. De eerste versie van Tacotron kwam uit in april van vorig jaar, gevolg door een tweede versie in december, die betere resultaten produceert. De onderzoekers moesten echter alsnog enige spraakmonsters verzamelen van hun doelwit.

In hun voorbeeld gaan ze ervan uit dat er clips van het doelwit op YouTube te vinden zijn. Door het geluid hieruit te selecteren op basis van kwaliteit en handmatig in tekst om te zetten, konden ze ongeveer vijf tot tien minuten aan audio verkrijgen. Dat materiaal zetten ze met ffmpeg om in fragmenten van ongeveer tien seconden. Tacotron vereist echter minimaal een totaal van 24 uur aan data om een stem te imiteren, dus grepen de onderzoekers naar de oplossing om hun data kunstmatig aan te vullen. Dit deden ze door de toonhoogte van de YouTube-audioclips met een factor tussen 0,8 en 1,2 te verhogen en te verlagen, wat hun dataset met een factor van 30 vergrootte.

De laatste stap om hun tien minuten aan audio bruikbaar te maken voor een aanval was het toepassen van transfer learning. Dat houdt in dat ze hun Tacotron-model eerst twee dagen lang trainden op basis van een openbare dataset van de zogenaamde Blizzard Challenge. Vervolgens vervingen ze die openbare dataset door de audioclips van hun doelwit, op basis waarvan ze nog een dag trainden. Dat was voldoende om de eerdergenoemde systemen voor de gek te houden, al werkte het niet elke keer. Dat probleem zou echter met verdere tuning te verhelpen zijn, legde een van de onderzoekers aan Tweakers uit. Met het onderzoek willen ze aantonen dat het relatief eenvoudig is om iemands stem te imiteren en dat daarvoor niet per se grote hoeveelheden aan bronmateriaal nodig zijn.