Das KI-Modell der indischen Studentin Priyanhali Gupta soll für eine inklusive Gesellschaft sorgen.
Hallo, Danke, Bitte, Ja, Nein und Ich liebe dich. Diese ASL-Gebärden (American Sign Language) übersetzt die Erfindung von Priyanhali Gupta ins Englische. Gupta ist Studentin des Vellore Institute of Technology (VIT) in Tamil Nadu, Indien. Vor einem Jahr ging ein Post über eine Demo für das KI-Modell auf der Plattform LinkedIn viral: Mehr als 58.000 Reaktionen feierten sie für die inklusive Erfindung.
Für ihr Projekt nutzt Gupta die sogenannte Tensorflow-API zur Objekterkennung, welche auf Transfer-Learning durch das bereits trainierte Modell ssd_mobilenet basiert. Dessen Code änderte sie so, dass dieser die Spezifikationen ihres ASL-Detektors erfüllt. Das Modell identifiziert Handbewegungen und vergleicht sie mit dem manuell mit einer Computer-Webcam erstellten Datensatz, der zahlreiche Fotos der Gebärden beinhaltet.
Hohe Ambitionen
Im Interview mit Interesting Engineering erzählt Gupta von der treibenden Kraft hinter ihren Bemühungen. Demnach sei es ihre Mutter gewesen, die sie bat, „etwas zu tun, jetzt, da sie Ingenieurwissenschaften studiert. Sie hat mich verspottet. Aber es brachte mich dazu, darüber nachzudenken, was ich mit meinem Wissen und meinen Fähigkeiten tun könnte.”
Die Forderung von der Mutter der 22-Jährigen ist in Indien keine Seltenheit. Gleichzeitig kann das südasiatische Land hier eine positive Entwicklung vorweisen: Laut Angaben der Weltbank aus dem Jahr 2021 hat Indien mit 43 Prozent prozentual mehr weibliche College- und Universitätsabsolventinnen in den sogenannten MINT-Fächern, also Mathematik, Informatik, Naturwissenschaft und Technik, als andere Industrienationen – auch Deutschland.
In Deutschland machen Frauen 27 Prozent, in Frankreich 32 Prozent, in Großbritannien 38 Prozent und in den USA 34 Prozent der MINT-Absolvent:innen aus. Für mehr Frauen im MINT-Bereich setzt sich vor allem die indische Bildungsministerin Dharmendra Pradhan durch verschiedene Regierungsprogramme ein, die ausschließlich Frauen fördern und beispielsweise den Wiedereinstieg nach der Elternzeit erleichtern sollen.
Neue Möglichkeiten durch KI
In einem Gespräch mit Alexa kam Gupta 2021 schließlich auf ihre Idee – und fing an, entsprechende Pläne zu machen. Dabei habe sie vor allem ein Video des Datenwissenschaftlers Nicholas Renotte über die Erkennung von Gebärdensprache in Echtzeit inspiriert.
Bisher analysiert das Modell dabei nicht den gesamten Videoinhalt, der über die Webcam aufgenommen wird, sondern konzentriert sich auf Einzelbilder. Nach eigenen Angaben arbeitet Gupta allerdings gerade an der Erkennung von Videoinhalten, um die Erfindung weiter zu verbessern. Dafür muss das Modell auf mehrere Frames trainiert werden, wofür Gupta mit Long-Short-Term-Memory-Netzwerken (LSTMs) arbeiten will.
Allerdings räumt die 22-Jährige gegenüber Interesting Engineering ein: „Ein tiefes neuronales Netzwerk nur für die Zeichenerkennung zu erstellen, ist ziemlich komplex. […] Und ich glaube, früher oder später wird unsere Open-Source-Community, die viel erfahrener ist als ich, eine Lösung finden.“ Google stellte bereits 2020 eine Technik vor, die ebenfalls mit der LSTM-Technologie arbeitet und per Webcam in Echtzeit Gebärdensprache übersetzen soll. In ersten Testversuchen mit der Deutschen Gebärdensprache (DGS) erreichte das Modell eine Genauigkeit von 91,5 Prozent. Allerdings wird eine Vielfalt an Ideen und Ansätzen nötig sein, um eine inklusive Gesellschaft zu realisieren – online wie offline.
Beitragsbild: Kevin Malik/ pexels