In today's digital world, account security is an important part of cyber security, and a cornerstone of account security is the use of personal passwords. As technology has evolved to the point where stricter and stricter security requirements are needed, just a password is not enough. Reusing passwords that can also be weak passwords allows attackers to gain knowledge of users' passwords. Then new methods have been used such as 2-factor authentication, typically with a one-time code on mobile. While this definitely makes the account much more secure, there are still security weaknesses with this solution. In addition, each new layer of security provides more work for the user, making security a cumbersome task that many would rather avoid despite the security risks.
An alternative solution is Keystroke Dynamics Authentication, which based on the timing and rhythm of your typing can reveal whether you are the right user or not. This is a form of biometric data of the user that can be easily read when entering the password, and provides an additional authentication factor without any extra steps for the user. With the use of machine learning a model can be trained to differentiate between how a user types their password and how everyone else would type the same password.
Since the 1980s, there has been a wide range of research on the use of Keystroke Dynamics Authentication, but there has not been a widespread implementation of this solution despite promising results. With new developments in machine learning with transformer models and generative AI, new possibilities are opening up for Keystroke Dynamics Authentication. To train a machine learning model on a user's password, datasets of the user and attackers are needed. If the user is to be able to use their own password, a model is needed that has a general understanding of how a wide range of people would type the user's password. Using existing datasets of general text from many people, attack data for the user's password can be generated, to train a model that can determine whether the person who typed the password is the user or an attacker.
We have collected a dataset of timing data of a range of people typing a selection of passwords, and shown that users can be distinguished from attackers with around 97% accuracy when entering passwords, using models such as Multi-Layer Perceptron, Convolutional Neural Network, and Long Short-Term Memory. Furthermore, we have used generative AI to generate artificial attack data, trained models on user data and artificial data, and tested against user data and attack data from real people. Generative AI can also be used to transform data between different forms. This can be used for different types of text, for example, people type differently whether it is a long text, short text, free text, fixed text, and whether it is a known or unknown text. Then different types of datasets can be used together to train a general model for generating data for a user's password, both for the user and for an attack set for training. Thus, there is also the potential for the model to be trained on the user without the user having to type the password many times to provide enough training data, as well as without the need to collect data on how attackers would type the password in order to train a model.
Keystroke Dynamics Authentication has had a number of challenges that have made it difficult to implement on a larger scale, and potential solutions with new technologies could lead to a new generation of the technology with greater potential for account security without more work for the user.
I dagens digitale verden er kontosikkerhet en viktig del av datasikkerhet,inklusive bruk av personlige passord. Keystroke Dynamics Authentication (KDA), som er basert på timing og rytme, er en metode for å øke kontosikkerheten relatert til passord.
KDA har vært forsket på siden 1980-tallet. Med nyere utvikling innen maskinlæring, spesielt med transformatormodeller og generativ AI, åpnes det for nye muligheter.
Målet med dette prosjektet er å:
• Undersøke realistisk nøyaktighet på KDA med innsamlet data fra virkelige personer.
• Utvikle og undersøke syntetiske data for trening av modeller for KDA.
• Sammenligne nøyaktigheten med syntetiske data i forhold til ekte data.
• Foreslå et større rammeverk for neste generasjon av KDA.
Resultater oppnådd:
I regi av prosjektet er det samlet inn et datasett fra 5 brukere og 100 angripere. Datasettet bidrar til forskning ved å tilby et mangfoldig utvalg av data for KDA. Det inneholder et utvalg av 6 passord med forskjellig lengde, med og uten spesielle symboler, for å avdekke effekten lengde og spesielle symboler har på nøyaktigheten til en KDA-modell.
Første tilnærming var å bruke enkle statistiske metoder som korrelasjon og k-Nearest Neighbor (kNN) for å differensiere mellom bruker og angriper. Bidraget med denne forskningen har vært innsamling av et offentlig tilgjengelig datasett og analyse av data ved bruk av statistiske metoder for KDA. Resultatene tyder på at KDA uten maskinlæring er mulig, men bruk av nevrale nettverk som Multi-layer Perceptron (MLP), Convolutional Neural Networks (CNN), og Long Short-Term Memory (LSTM) gir bedre resultater med en nøyaktighet på 97% mot datasettet. Bidrag fra denne forskningen inkluderer å vise forskjellig nøyaktighet på forskjellige typer passord avhengig av passordlengde og bruk av spesielle tegn, i tillegg til open-source kildekode for maskinlæringspipeline.
Arbeid som ikke er avsluttet:
Det gjenstår å bruke generativ AI trent på tilgjengelige datasett av keystroke-data på en variasjon av tekster. For at en modell skal kunne trenes på brukerens passord, trengs det data fra mange angripere. Ved å trene en generativ modell på keystroke-data med generell tekst fra mange forskjellige personer, kan modellen også generalisere hvordan folk flest ville ha skrevet brukerens passord. Da kan en annen modell som MLP/CNN/LSTM trenes på kunstige angrepsdata og brukerens data. Dette testes mot ekte angrepsdata for å finne nøyaktigheten mot reelle angripere.
Endelige resultater for dette arbeidet er ikke enda konkludert, men det ser ut til at en nøyaktighet på over 90% for de lengre passordene er realistisk. Bruk av AI kan også kombineres med statistiske metoder som kNN for enda høyere nøyaktighet.
Videre arbeid:
Et fullt rammeverk for neste generasjon av KDA må også inkludere en måte å autentisere seg over nettet mot en server samtidig som man beskytter biometriske brukerdata.
Indra Navia utvikler framtidens kontrollsystemer for overvåkning, navigasjon og kommunikasjon i den sivile luftfarten. I videreføringen av vår teknologi innenfor fjernstyrte tårn til Avinor er nå Indra Navia inne i en fase rundt industriell forskning hvordan dette videreutvikles og digitaliseres.
Prosjektet er utvikling av høyteknologiske løsninger med scenarioer og simulatorer for å bidra til digitaliseringen og skytjenester for en mer miljørettet luftfart.
Det er svært viktig å ha sikkerhet i fokus i alle ledd innenfor luftfart og dette prosjektet retter seg spesielt inn mot informasjonsutveksling på tvers av nettverk. Videre vil prosjektet se på beskyttelse av dataintegritet i forbindelse med utveksling av sensitive eller kritiske definerte data mellom datanettverk.
I tett samarbeid med akademia som Universitetet i Sørøst-Norge (USN) vil også prosjektet kunne styrke næringslivssamarbeidet for sentrale høyere utdanninger innenfor IT og system engineering.