Maskininlärning är en av de vanligaste metoderna för att analysera persondata.
Det används inom olika verksamheter, såsom e-handel, sjukvård och inom finansiella tjänster.
Men forskning har visat att det finns risk att känsliga personuppgifter läcker i processen. Navoda Senavirathne, doktorand vid Högskolan i Skövde, vill med sin avhandling bredda vår förståelse av integritetssårbarheterna med maskininlärning och föreslår lämpliga begränsningsstrategier för dem.
Att publicera personuppgifter utan att använda några dataskyddsmekanismer kan kränka individernas integritet. Därför tillämpar personuppgiftsansvariga olika dataskyddsmekanismer, såsom dataanonymisering, på personuppgifter innan de publiceras. Men det är viktigt att säkerställa att resultaten av de dataanalysmetoder som används på personuppgifterna också bevarar de bakomliggande individernas integritet.
Maskininlärning (machine learning, ML) är en av de mest använda dataanalysmetoderna som tränar datorer i att känna igen och lära sig mönster från data för att lösa komplexa uppgifter. Det används inom en mängd olika verksamheter, där insamlade personuppgifter används för att träna ML-modellerna. Men ny forskning visar att ML-modellerna, genom sin utdata, kan läcka integritetskänslig information om den persondata som används.
Det innebär att ML-modeller medför integritetssårbarheter som kan utnyttjas för att få fram känslig information om de individer vars data används för modellträning. Därför är det mycket viktigt att förstå integritetssårbarheterna i ML innan personuppgifter används för modellträning.
Vill bredda vår förståelse för sårbarheter
Navoda Senavirathne, doktorand vid Högskolan i Skövde har i sin forskning siktat på att bredda vår förståelse av integritetssårbarheterna i ML, samtidigt som hon föreslår lämpliga begränsningsstrategier för dem. Hon har tagit fram en integritetsattackmodell som avsevärt överträffar de befintliga attackmodellerna för att utnyttja integritetssårbarheterna i ML. Det visar att dessa begynnande integritetsrisker inte längre är teoretiska utan också praktiska.
– Jag har även studerat dataanonymisering som en potentiell begränsningsstrategi för befintliga integritetsattackmodeller samtidigt som jag betonar fördelarna med dataanonymisering för både organisationer och individer. Dessutom uppmärksammar jag vissa områden av GDPR som är vaga och i konflikt med användbarhets- och integritetsaspekten i ML. Därför måste lagstiftarna ompröva dem, säger Navoda Senavirathne.
Underlättar för de som hanterar personuppgifter
Utöver det analyserar hon i sin avhandling kritiskt utmaningarna med att anpassa de vanligaste anonymiseringsmetoderna och föreslår en förfinad dataanonymiseringsmetod som fungerar i ML-sammanhang. Genom systematiska experiment visar hon att befintliga dataanonymiseringsmetoder minskar integritetsriskerna för ML-modeller endast under vissa förutsättningar.
– Dessa fynd inspirerade mig att ta fram ett tillvägagångssätt för sekretessbevarande ML-modellval. Jag tror att min forskning kommer underlätta för de som arbetar med personuppgifter att träna användbara ML-modeller för kunskapsutvinning, samtidigt som de säkerställer individernas integritet, avslutar Navoda Senavirathne.
Navoda Senavirathne disputerar på Högskolan i Skövde fredagen 10 december med sin avhandling “Towards Privacy Preserving Micro-Data Analysis: A Machine Learning Based Perspective under Prevailing Privacy Regulations”.