Machine learning-systeem kan hackers identificeren via hun code

Programmeurs hebben vaak hun eigen stijl als het gaat om het schrijven van code gaat. Maar het kost vaak veel te veel tijd om door talloze regels code te gaan spitten, op zoek naar hints van de auteur van een programma. Dat is mogelijk echter niet meer nodig. Onderzoekers hebben namelijk een machine learning-systeem gemaakt dat precies dat doet.

Het systeem werkt als volgt: een algoritme wordt getraind om de programmeerstructuur van een programmeur te herkennen aan de hand van voorbeelden van hun werk. Vervolgens gebruikt het systeem die voorbeelden om veelgebruikte dingen te herkennen. Je hoeft het systeem niet eens grote delen van een programma te geven, kleine stukjes zijn al voldoende.

Het systeem is al getest tijdens Google Code Jam. Daarbij was de technologie relatief accuraat, maar nog niet helemaal foolproof. Het systeem kon in 83 procent van de gevallen de auteurs van de code herkennen. In totaal deden er 600 programmeurs mee, met ieder 8 voorbeelden van hun code.

Hackers

Mocht de technologie in de toekomst verbeteren, dan kan het ontzettend handig zijn voor bijvoorbeeld de politie. Je zou er bijvoorbeeld makers van malware mee kunnen herkennen, zeker als diegene een ander de schuld probeert te geven. Verder kan het handig zijn voor plagiaat, waarbij het systeem het verschil kent tussen toevallige overeenkomsten en kopieëren.

Een groot nadeel is natuurlijk dat je nooit meer iets volledig anoniem kunt bijdragen. Iemand zou in theorie jouw werk kunnen herkennen, zelfs als je geen spoor achter probeert te laten. Voor je privacy is het dus minder goed.