HAN | Verkenning ondersteunende tools bij gehoorbeperking voor onderwijs en werken op afstand

Een inspirerend onderzoek naar functionaliteiten real time speech-to-text tool voor doven en slechthorenden

Verschillende studenten die handgebaren maken

05 oktober 2021

De HAN werkt met ondertitelde video’s door toevoeging van transcripts, gesproken tekst. Dit is echter niet voldoende. Realtime speech-to-text-tool voor het ondertitelen van online colleges, vergaderingen, podcasts en video’s zou een betere oplossing zijn; een flexibel in te zetten tooling die het gebrek aan (schrijf)tolkuren overbrugt. Om beter te begrijpen waar de behoefte ligt en de requirements inzichtelijk te maken, zijn gesprekken met een aantal doven en slechthorende studenten en collega’s gevoerd. Hierbij is gekeken naar wat onmisbaar is (Must have), wat wenselijk is (Gewild), een toegevoegde kan waarde hebben (Could have) en wat niet als zinvol wordt geacht (Won’t have). Op basis van deze verkenning zijn met een matrix de requirements in kaart gebracht. Na de inventarisatie is een pilot gestart.

M = Must have

Deze requirement(s) is/zijn onmisbaar, zonder deze is de oplossing niet bruikbaar.

  • Real-time ondertitelen van NL en ENG gesproken tekst (speech-to-tekst).
  • Bruikbaar bij elk soort live online gesprek of afgespeelde video gerelateerd aan de instelling. (ongeacht via welke tool het wordt afgespeeld; werkt videoplatform onafhankelijk).
  • Grote nauwkeurigheid omzetting speech-to-text (max 5 fouten per 100 woorden).
  • Grote snelheid van omzetting speech-to-text (max 1 a 2 s vertraging).
  • Snel en just-in-time in te zetten door studenten en/of medewerkers.
  • Meerdere personen of groepen kunnen tegelijkertijd tool gebruiken.
  • Te gebruiken bij langere sessies (in elk geval minimaal een uur).
  • Web Captions: Ondertiteling kan direct onder/boven de bekeken video worden bekeken ongeacht van device waarop video bekeken wordt (dus niet alleen via app op telefoon).
  • Gebruikmakend van microfoon in gebruikte device (dus: geen losse microfoons nodig).
  • Mogelijk om een groep deelnemers op afstand te ondertitelen (minimaal 10 deelnemers bij 1 sessie).
  • Aanpasbare instellingen voor ondertiteling (grote, kleur e.d.) en achtergrondkleur om tekst beter leesbaar te krijgen.
  • Werkt op zowel Windows, Apple als Android besturingssystemen.
  • Verwerkersovereenkomst mogelijk (AVG proof).
  • Licentie afspraken mogelijk.

S = Should have

Deze requirement(s) is/zijn zeer gewild, maar men kan zonder als er een goede workaround is.

  • Kopiëren of e-mailen van transcripties.
  • Woordenboek voor toevoegen extra woorden (aanvullen vocabulair; personaliseren op persoons of instellingsniveau).
  • Vertalen van transcriptie speech-to-tekst naar andere talen (bijv. van NL gesproken tekst naar ENG ondertiteling).
  • Automatisch herkennen van leestekens en die op een logische plek neerzetten.
  • Login via instellingslogin (Surfconnext SSO).
  • Real-time ondertitelen van gesproken tekst in een andere taal dan NED en ENG (bijv. Duits).
  • Herkennen en in tekst tonen van omgevingsgeluiden.
  • Herkennen van verschillende stemmen en die herkenbaar ondertitelen (bijv. met kleurtjes: NB: na testen bleek dit minder relevant).

C = Could have

Deze requirement(s) kunnen een bepaalde toegevoegde waarde hebben waardoor je het proces makkelijker kan ondersteunen, maar ze gemist kunnen worden.

  • On demand meeschrijf service voor corrigeren real-time ondertiteling.
  • Visualisatie van kwaliteit van speech-to-tekst.
  • Zowel online als offline te gebruiken.
  • Mute knop om ondertiteling te pauzeren.

W = Won’t have

Deze requirement(s) word(t)en als niet zinvol geacht (op dit moment), of worden gezien als mooie extra’s (franje, toeters en bellen)

  • Mogelijkheid voor tekst-to-speech (daar hebben we andere tooling voor).
  • Zwarte lijst voor bepaalde woorden: censuur van woorden (piep) of veranderen van woorden.

Overige externe tooling voor speak-to-text

  • Earfy: alleen te gebruiken via app op telefoon. Vooral voor gesproken tekst: houdt microfoon bij degene die spreekt.
  • AVA: is meer dan een spraak-naar-tekst-app die als last-minute tolk functioneert. Denk aan het ondertitelen van colleges, conferentiegesprekken of anders, via een bluetooth microfoon of door met elkaar verbinding te maken. Het werkt op zowel de smartphone, laptop, tablet als pc. Transcripten zijn aanpasbaar, kunnen opgeslagen en gedeeld worden. AVA biedt tevens een vertaalfunctie.
  • Speaksee: twee opties:
  • Microfoon: Real time speech-to-text tool met behulp van microfoon. Is telefoonsysteem die losse stemmen kan herkennen (tot 9) en de tekst laat zien op een app op telefoon, tablet of laptop. De accuraatheid is 85 tot 90%. Nadeel hierbij is de losse microfoon die je moet aanschaffen. Dat betekent dat iedereen die er gebruik van wil maken een microfoon
  • Speakseeautocaption: Real time speech-to-text tool specifiek voor ondertitelen van videoconferentie platforms. Kan als laag over videobelverbinding heen gelegd worden. Nadeel: Nog een beta versie en werkt nog niet op Apples.
  • Webcaptioner: werkt via microfoon op je computer of telefoon. Laat ondertiteling zien in apart scherm. Dit is gesprek voor live gesproken tekst in de microfoon. Maar voor video te zetten moet je dan het device waar video op draait bij de microfoon houden. Wel fijn als je bijv. in gesprek bent en je ondertiteling wilt hebben… niet fijn voor video ondertiteling.
  • Google Live Transcribe app: alleen te gebruiken via app op telefoon. Vooral voor gesproken tekst: houdt microfoon bij degene die spreekt.
  • Google cloud speech to text: is eerder een subtool die goed is in omzetten van spraak naar tekst, kan onderliggend aan een speech to tekst tool liggen.
    Amberscript: werkt alleen met al geuploade video’s en content (Bijv. in kaltura). Niet mogelijk om Just In Time video of gesprekken te ondertitelen.
  • https://otter.ai/login: geen NL
  • Dicteren: om te dicteren (Speech-to-tekst): geen NL

Ervaringen met proeflicentie voor AVA en SpeakSee Autocaption

Voor beide tools is een demonstratie gegeven. Vervolgens zijn de tools getest. De ervaringen zijn hieronder uiteengezet.

1) AVA

Demonstratie:

AVA lijkt erg veel te kunnen, maar is daarmee ook erg ingewikkeld. Er is een telefoon app, een web app, een pro versie van beide en een campus licentie. Het is ons erg onduidelijk wat wat kan en hoe het dan werkt. Je kan snel beginnen met ondertitelen via de telefoon of webversie van AVA. Hierbij moet je echter altijd een los scherm op je PC open hebben of je telefoon ernaast. De kwaliteit van de ondertiteling is niet goed. In Zoom is het mogelijk rechtstreeks onder de call te ondertitelen, in Teams (zoals wij die gebruiken) is die optie er niet. AVA heeft ook mogelijkheid om terwijl een groep mensen praat iedereen specifiek te laten ondertitelen. AVA herkent dan de stem en geeft de stem een eigen kleurtje. Hiervoor moet je mensen via hun account toevoegen aan 1 call, zodat je er ook een naam bij ziet. Dit werkt ook niet erg goed: AVA herkent de stemmen slecht en alles loopt door elkaar. Kleurtjes zijn ook niet altijd meerwaarde, en maakt het soms zelfs onduidelijker.

Testperiode van een week:

(Ervaringsdeskundige) gebruikers zijn niet erg onder de indruk, kwaliteit ondertiteling blijft onder de maat. Combinatie met Teams werkt niet fijn, omdat ondertiteling in Webpagina wordt getoond die je niet makkelijk kan verplaatsen.

  • Privacy: https://www.ava.me/privacy er is een verwerkersovereenkomst mogelijk.
  • Kosten (snelle Check https://www.ava.me/pricing): Pro versie 1429,- dollar per jaar (waarschijnlijk ex. BTW) per licentie (119 dollar per maand) met maximaal 10 af te nemen licenties.

 2) Speaksee Autocaption

Demonstratie:

Simpele tool die je per individu op je desktop zet. Is simpel in vorm (balkje onder je scherm) maar daardoor toepasbaar op alles wat geluid geeft via luidspreker van je PC (Video, bellen, audio). Is erg accuraat en snel. Letters aanpasbaar qua kleur en grote. Nog niet op MAC of Telefoons. Werkt alleen als er WIFI is, maar is geen cloudbased app (heeft wifi nodig om te kunnen ondertitelen).

Testperiode van twee weken:

Het installeren is simpel. Om te switchen tussen ondertitel taal moet je de licentiecode aanpassen, dit werkt niet erg intuïtief maar lukt na wat hulp. Je krijg simpel blokje waar je de tekst in ziet, je kan dit blokje zelf makkelijk verplaatsen en een andere kleur of lettertype/grote geven. Ondertiteling zelf lijkt in het ENG beter als in het NL. De ene keer is het beter dan de andere keer. Maar over het algemeen is het redelijk te volgen. (Ervaringsdeskundige) gebruikers geven aan: Dat gebarentolk beter is, maar dat deze app erg fijn is als tussenoplossing, vooral omdat je zelf in controle bent over wanneer en waarbij je het inzet.

  • Eén gebruiker was enthousiast en heeft van SpeakSee nog voor langere tijd een gratis licentie gekregen.
  • Privacy: SpeakSee heeft een eigen privacy policy https://speak-see.com/nl/pages/privacy-policy en er is een verwerkerovereenkomst mogelijk volgens onze voorwaarde.
  • Kosten (snelle Check): Ongeveer 200 tot 250 euro per licentie excl. btw (staffelkorting en campuslicenties mogelijk).

Matching requirements ‘Must have’ met speak-to-text toolings

Op basis van de eerste verkenning en de demo’s is onderstaande tabel ingevuld waarbij Must Have requirements gematched zijn aan de tooling. Soms is snel opgehouden met verkennen als een tool een Must have echt niet had, zoals de taal of de match met de HAN voorzieningen.

Gerelateerde items

Werken en leren op afstand studenten en medewerkers met gehoorbeperking

Hybride onderwijs als norm | Waarom fysiek óf online onderwijs?

Alle informatie op 1 plek voor hoger onderwijsstudenten met een functiebeperking

Handreiking | Digitaal toegankelijk hoger onderwijs: een goede start voor iedereen

Artikel | Zes maanden online onderwijs: Terugblik en uitdagingen voor de toekomst