Je hebt vast wel eens iets gehoord of gelezen over voice of over smart speakers. Maar wat is voice nu eigenlijk precies en waarom zou dit interessant kunnen zijn voor jou? Misschien wil je er gewoon meer over lezen of weet je er al het nodig over en wil je een smart speaker gaan aanschaffen. Op deze site vertel ik je alles wat ik weet over voice en wat ik denk dat voice de komende jaren voor een invloed gaat hebben op de manier waarop wij met technologie omgaan. Daarnaast heb ik ook alle mogelijke smart speakers getest en geef ik daar mijn mening over. Je kunt via deze site ook smart speakers bestellen bij verschillende aanbieders.
Voice is een technologie die het mogelijk maakt om met voice commando's opdrachten te geven aan computers. Aangezien het overgrote merendeel van de computers in de wereld verbonden zijn met het internet is het dus ook mogelijk om online voice commando's te geven en zo apparaten op afstand te bedienen, zoekopdrachten uit te voeren, een vakantie te boeken of bestellingen te doen in een online shop. Digitale spraakassistentie wordt meer en meer gebruikt. Niet alleen thuis, maar ook op het werk, in de auto en gewoon in de openbare ruimte.
Van visueel naar auditief
Mijn voorspelling is dat voice in de komende jaren een enorme verandering teweeg gaat brengen in de manier waarop wij omgaan met online technologie. Waar alles nu nog visueel georiënteerd is en we een scherm gebruiken, zal dit op veel vlakken verschuiven naar voice waarbij een scherm niet langer nodig zal zijn. Dit zal grote gevolgen hebben voor de manier waarop wij communiceren, maar ook hoe wij bijvoorbeeld online shoppen en informatie tot ons nemen.
Ook merken zullen na moeten gaan denken hoe zij zich straks in een wereld waar voice op een aantal vlakken leading wordt, kunnen en willen presenteren. Hoe ga je jezelf herkenbaar presenteren als niet altijd een scherm meer is waar een consument je product of je logo op ziet? En als een consument product wil kopen, hoe zorg je er dan voor dat er toch voor jouw merk gekozen wordt?
Er zijn een aantal grote spelers die al jaren bezig zijn om de kwaliteit van hun spraakassistent te verbeteren. Apple heeft Siri, Google heeft de Google Assistant, Amazon heeft Alexa en Microsoft heeft Cortana.
Hoe werkt voice eigenlijk?
Je kunt via een smart speaker een digitale assistent activeren door een commando hardop te zeggen zoals "Hello Alexa" of "Hey Siri". Vervolgens kun je een vraag stellen of een commando geven waar de digitale assistent op zal reageren. Het kan zijn dat dit meteen een antwoord of een gevraagde actie is, maar het kan ook zijn dat je een vraag krijgt over een vervolgactie. Maar hoe gaat dit technisch nu eigenlijk in zijn werk en hoe kan het dat een digitale assistent jouw vraag of commando "begrijpt"? Dit heeft alles te maken met een slimme combinatie van hardware en software.
De werking van digitale spraak interactie kun je onderverdelen in drie kernstappen:
- spraak naar tekst
- tekst naar intentie
- actie-intentie
De eerste stap, spraak naar tekst, zet spraakopdrachten in essentie om naar een tekstinvoer die jouw computer of smartphone normaal krijgt doordat je deze intypt. Goede 'speech to text'-software zoals Apple Dictation, Google Docs stemtypering en Dragon stemmen natuurlijk af op omgevingsruis en variatie in stemtoon / toonhoogte / accent om accurate vertalingen in meerdere talen te bieden. De software breekt je spraak in kleine, herkenbare delen die fonemen worden genoemd - er zijn er zo'n 40 in de Nederlandse taal en 44 in de Engelse taal. Het is de volgorde, combinatie en context van deze fonemen waarmee de geavanceerde software voor audio-analyse kan uitzoeken wat je precies zegt. Voor woorden die op dezelfde manier worden uitgesproken, analyseert de software de context en syntaxis van de zin om erachter te komen wat de beste tekstcombinatie is voor het woord dat je sprak. In de database komt de software dan overeen met de geanalyseerde woorden met de tekst die het beste overeenkomt met de woorden die je sprak.
De tweede stap is tekst naar intentie. Deze stap interpreteert wat de gebruiker precies bedoelt. Als je bijvoorbeeld zegt "vertel me over Amsterdam" in een conversatiecontext, hoe weet de digitale spraakassisten dan wat je exact met deze vraag bedoelt? Vraag je om het laatste lokale nieuws over Amsterdam, of vraag je om vluchtopties naar Amsterdam, of wil je misschien het weer in Amsterdam weten?, En wanneer een woord een dubbele betekenis heeft, wordt deze interpretatie nog lastiger.
Webzoekmachines lossen deze uitdaging op door antwoorden op de 'query' te rangschikken in afnemende volgorde van afgeleide intentie. Voor een digitale spraakassistent moet dit rankschikken uiteindelijk leiden tot het beste antwoord en niet een rijtje antwoorden waar een zoekmachine nog wel mee wegkomt.
Een aantal mogelijke antwoorden worden in een zogenaamde thread gezet. Elke thread gebruikt honderden algoritmen om het bewijs te bestuderen, waarbij gekeken wordt naar factoren zoals de informatie, wat voor soort informatie het is, de betrouwbaarheid en hoe waarschijnlijk het is om relevant te zijn, om vervolgens een individuele weging te maken op basis van wat de software eerder al geleerd heeft.
De derde en laatste stap is de intentie om te handelen. Deze stap is gericht op het voldoen aan de behoefte van de gebruiker. De meeste digitale spraakassistenen evolueren van het beantwoorden van eenvoudige vragen zoals het weer, naar dingen doen wanneer ze worden geïntegreerd in andere apparaten. Denk hierbij aan auto's, thermostaten, gloeilampen, deursloten, koelkasten, wasmachines, alarmsystemen en koffieapparaten.
Deze 3 kernfuncties van Digital VI worden niet alleen beter met meer gegevens, maar zijn ook beschikbaar als API (application programming interface) bij meerdere providers. Bedrijven kunnen die modulariteit gebruiken en kiezen de beste opties en combinaties om geïntegreerde oplossingen voor hun klanten te bouwen.
Hoewel er al mooie stappen zijn gezet met digitale spraakassistenten, staat de ontwikkeling hiervan eigenlijk nog in de kinderschoenen en zullen we deze technologie de komende jaren tot wasdom zien komen.
De toekomst van spraakherkenning (voice)
Het mooie van de toekomst is dat niemand precies weet wat er gaat gebeuren, maar dat neemt niet weg dat je wel voorspellingen kunt doen over wat jij denkt dat er gaat gebeuren. Dit is ook leuk om jaren later terug te zien of te lezen. We kennen allemaal wel het filmpje uit 1998 waarin aan mensen gevraagd wordt of ze een mobiele telefoon hebben.
Er zijn online vele artikelen en meningen te vinden over de toekomst en zeker in relatie tot iets dat zo spannend en futuristisch is als spraakherkenning. Mijn mening is er ook maar eentje van velen waarbij ik voorzie dat het aantal apparaten dat wordt aangesloten op het internet alleen maar zoal blijven toenemen en dat ditzelfde geldt voor het aantal smart speakers waar mee meer en meer van deze aangesloten apparaten opdrachten kunnen ontvangen via voice. Online lees je artikelen waarin wordt gezegd dat in 2020 de helft van alle zoekopdrachten al via spraak gegeven zal worden, maar ik denk dat dit wat te ambitieus is en ik zou daar nog wel een paar jaar aan willen toevoegen. ik heb het dan nog niet over het geven van opdrachten via een smart speaker aan andere apparaten want dat is nog een stap verder weg.
Het is echter wel indrukwekkend om te zien hoe snel de spraakassistentie-technologie zich ontwikkeld en hoe dit zich een weg weet te vinden naar onze woningen. De technologie wordt nu gezien als de natuurlijke manier om het slimme huis te bedienen, dankzij de goedkope mogelijkheid om spraak toe te voegen aan je installatie. En dit is in een behoorlijke korte tijd naar een goed niveau ontwikkeld wat het des te spannender maakt wat de toekomst gaat brengen.
Siri
Siri was de eerste die spraaktechnologie mainstream maakte. Toen dit in 2011 met de iPhone 4S werd gelanceerd, was dit een behoorlijk revolutionaire toevoeging. Siri was toen vooral nog toegespitst op het apparaat waarmee het geleverd werd en dus, hoewel functioneel, best beperkt. Daarnaast was het ook nog eens bètatechnologie die nog vol in onwikkeling was. Bij de introductie werd Siri ook direct slachtoffer van het eigen succes. Door de grote populariteit staken de nodige bugs de kop op en ook waren de backend-servers niet voorbereid op de vragen van miljoenen iPhone-gebruikers.
Ondanks deze startproblemen maakte Siri wel de weg vrij voor de spraakassistenten van concurrenten en bewees eveneens dat het besturen van apparaten met je stem een functie was die consumenten wel zouden willen omarmen. Google en Amazon doken ook vol op de ontwikkeling van hun eigen spraakassistent. Google Assistant leek in de eerste plaats veel op Siri door het toepassen van natuurlijke taalverwerking waarbij het de door de gebruiker gestelde vraag interpreteert en vervolgens de gigantische databases van Google gebruikt om het antwoord op te zoeken.
Google Duplex
Google heeft overigens ook al een interessante uitbreiding van Assistant gepresenteerd onder de naam Google Duplex. Deze technologie is niet alleen ontworpen om vragen te beantwoorden en lijsten te maken, maar om een geloofwaardige persoonlijke assistent te worden die autonoom en zo natuurlijk mogelijk kan communiceren met anderen en zo namens jou bijvoorbeeld een restaurant kan bellen om een tafel te reserveren.
Waar Apple en Siri het zaadje voor spraakassistentechnologie hebben geplant, is Amazon hier met Alexa het snelst mee uit de startblokken gekomen. Amazon heeft zijn kracht en invloed gebruikt om ervoor te zorgen dat Alexa een stukje technologie is dat beschikbaar is voor iedereen, ongeacht hun budget. En het is een strategie die heeft gewerkt.
Een voorzichtige schatting is dat wereldwijd tussen de 60 en 80 miljoen mensen nu toegang hebben tot een slimme luidspreker en het overgrote deel daarvan is uitgerust met Alexa. Het assortiment van Amazon betekent dat je volwaardige speakers kunt hebben met ingebouwde Alexa, of dat je met de Amazon Echo Dot elke luidspreker slim kunt maken. De voice OS heeft ook zijn weg gevonden naar Amazon-tablets en, via derde partijen, van alles, van koelkasten tot robots.
"De toekomst is niet dat we naar beneden kijken en scrollen, maar twee dingen doen die veel instinctiever en efficiënter zijn: spreken en luisteren."
Het slimme huis of kantoor is een complex web van ongelijksoortige producten, maar Alexa vereenvoudigt je installatie door ze allemaal samen te koppelen en zo samen te brengen. Het slimste dat Amazon deed met Alexa was om het uit het Amazon-ecosysteem te halen en het open te stellen voor zoveel mogelijk partners. Marktleider zijn, betekent niet altijd dat de toekomst van een technologie veilig is en dat je op je lauweren kunt rusten. De weg naar een besturingssysteem dat volledig natuurlijk functioneert door middel van spraak is nog ver weg. Er liggen nog een hoop uitdagingen op het gebied van taal, grammatica en uitspraak en dialecten.
De echte toekomst van spraakassistenten zou echter kunnen liggen aan het einde van onze verslavende relatie met onze smartphones. Waar gebruiken we onze telefoon eigenlijk voor? Informatie, games, communicatie en misschien zelfs wel eens mensen bellen. Dit is exact waar spraakassistentie een grote rol kan spelen. Als je jesmartphone als een alarm gebruikt, waarom dan niet wakker worden met een van je favoriete nummers? En kunnen dan ook de lichten in je huis worden ingeschakeld, de koffiemachine geactiveerd worden en het weer getoond worden op je spiegel in de badkamer? En dat allemaal op een bepaalde tijd of omdat jij "Goedemorgen Alexa" zegt.
De toekomst is niet dat we naar beneden kijken en scrollen, maar twee dingen doen die veel instinctiever en efficiënter zijn: spreken en luisteren. Ik was in het begint best wat sceptisch over audio als interface, zeker waar het gaat over het presenteren van online informatie. We zijn toch zo handig en snel met lezen en scrollen? Is audio dan juist niet minder handig en langzamer? Maar neem nu de snelgroeiende populariteit van podcasts en audioboeken en de mogelijkheden om ook snel door audio heen te kunnen screenen of te kunnen zoeken. Of zou de oplossing liggen in schermconnectiviteit? Google en Amazon geven hun slimme luidsprekers een beeldscherm zoals op de Echo Show.
Blijft Google King of Search?
Google is nu de abolute marktleider op het gebied van search maar het is niet vanzelfsprekend dat dit op nieuwe gebieden zoals spraak- of visuele zoekopdrachten, ook zo zal zijn. Het bedrijf heeft een flinke voorsprong waar het gaat om spraakherkennings- en conversatie-zoekmogelijkheden maar de concurrentie zit zeker niet stil. Google is al lang niet meer de jonge start-up die concurrenten als Altavista, Excite en AskJeeves uit de markt wist te drukken. Bovendien is het verdienmodel van Google voor een groot deel gebaseerd op de huidige manier van zoeken en adverteren en het zal dit zo lang mogelijk in stand willen houden.
Dus waar laat dit alles de toekomst van stemoptimalisatie? Veel van deze mogelijke scenario's hebben een reeële kans van slagen, maar welke kant dit op zal gaan bewegen is niet te voorspellen . Voor merken is het dan ook best moeilijk om een strategie te ontwikkelen voor de opkomende technologie van spraakherkenning. Begin maar eens met de vraag hoe de stem moet klinken die bij jouw merk hoort. En dat is nog maar het begin.