Titta, den talar!
Röststyrning av datorer har fått en renässans efter ett antal floppar under åren. En rad företag är i full färd med att lansera servrar och mobiltelefoner med mer sofistikerad röststyrning än vad som funnits tidigare. Amerikanska IBM är ett exempel, liksom konsumentelektronikföretaget Philips som i september lanserar mobiltelefoner med mer avancerade röststyrningsfunktioner än tidigare.
Röstportaler
Till nya områden inom röststyrning hör webben. Mjukvaruföretaget Pipebeach gör programvara som man kan surfa på nätet med, enbart med hjälp av rösten. Det handlar alltså om röststyrda portaler.
Dessa portaler kan användas till att läsa information från ett företags intranät. Delar av en vanlig portal kan också ha ett röstgränsnitt. “Talgränssnitt kan skapa effektiva strukturer genom att det går snabbare än om man knappar sig fram”, säger Christer Granberg, VD på
Pipebeach.
Men själva fenomenet med att använda rösten för att ge kommandon till datorn är allt annat än nytt. De första trevande försöken gjordes redan 1954 då en dator översatte ett antal meningar från ryska till engelska, enligt tidskriften Wired.
På 1980-talet fick röststyrning av datorer ett uppsving även om succén uteblev. Datorerna kändes ungefär lika verklighetsnära och användarvänliga som de Star Trek-inspirerade robotar som man spådde skulle finnas i hemmen i framtiden. Av det blev som bekant intet.
Varför gick det då så trögt för de röststyrda datorerna att få genomslag? För det första handlade det om otillräcklig teknik. Ljudkvaliteten var dålig, för att inte säga usel, och det gick inte att prata in hela meningar i taget.
Klumpiga
Dessutom var det dålig igenkänningsförmåga. Om du exempelvis hade övat med datorn i kontorsmiljö, så kände den inte igen din röst om du var ute och åkte bil eftersom bakgrundsljuden var annorlunda. Dessutom blev det ofta misstag då datorn uppfattade fel ord eller inte alls kände igen orden.
Datorerna blev också klumpiga eftersom det krävs processorer med mycket hög beräkningskapacitet. Det är först nu som den allmänna processorutvecklingen har möjliggjort sådan prestanda i ett litet format, enligt Christer Granberg. En annan faktor var att kostnaderna för tekniken var höga.
Ytterligare en faktor som hämmat utvecklingen är språket, vilket nu delvis har ändrats. Philips mobiltelefoner till exempel finns för en rad olika språk, men funktionerna för WAP-tjänster finns i dagsläget enbart i en engelsk version. De svenska varianterna kommer om mellan ett till två år.
Tekniken finns
Nu verkar alltså utvecklingen ta fart. För det första finns tekniken. Det finns idag tillräckligt kraftfulla processorer som gör det möjligt att lättare skilja ur ord från varandra. Batterierna har dessutom blivit allt mindre, vilket beror på utvecklingen inom till exempel mobiltelefontekniken.
“I takt med att telefonerna blir allt mindre och får fler funktioner ökar också efterfrågan på röststyrning”, säger Gunnar Fröjdh, divisionschef för mobiltelefoner på Philips.
De snabba mikroprocessorer har också blivit billigare vilket gör att försäljningen av produkter ökar. Dessutom finns ett behov i och med att menyerna blir mer komplexa och att det tar längre tid att nå den funktion som användaren vill ha. Användningen av mobiltelefoner har ökat explosionsartat. Folk börjar dessutom att bli mer benägna att göra en rad olika saker med telefonen, och inte bara prata på traditionellt sätt.
Säkerhet
I bilen kan det av säkerhetsskäl vara bättre att prata istället för att trycka på knappar. Och för handikappade personer kan röststyrning också vara användbart.
WAP-teknologin, som förvisso inte har slagit igenom ännu, är en annan faktor.
“Införandet av WAP och andra tekniker har gjort att det finns en stor bas av tjänster för mobila användare”, säger Christer Granberg. Han pekar på att det som verkligen skulle göra att utvecklingen tar fart är om operatörerna börjar använda programvara med talfunktioner i en annan utsträckning än tidigare.
Fördelen här är att det tar tid och kan vara knöligt att knappa in sig via menyer för att få reda på en viss börskurs, väder eller liknande, jämfört med att bara be telefonen att kolla vem det är som har skickat e-postmeddelanden och vad texten går ut på.
Men röststyrning är ännu inte någon helt lätthanterlig teknik. Fortfarande kan apparaterna vara sega och tröga och man måste prata högt och kanske också repetera. Telefonen kanske ändå hör fel så att man måste börja om från början. Är man ute bland folk eller står på en buss kanske man inte är så benägen att tala H-Ö-G-T och T-Y-D-L-I-G-T till sin telefon.
Tågtidtabeller
Det finns en rad olika tekniker för röststyrning i datorer. Det ena är talsyntes, vilket innebär att text som matas in i datorn översätts till tal. En annan teknik är att någon läser in olika ljud, ord och meningar. Sedan kan man också ha förbandade hela svar som läses upp. En av de mest använda taltjänsterna i Sverige är SJ:s tågtidtabellupplysning.
Det är fortfarande för tidigt att säga om röststyrningen denna gång kommer att få ett genombrott.
“Det kostar fortfarande mycket pengar och kräver oftast mycket praktiskt arbete innan datorn känner igen olika röster, olika dialekter etc. Men själv är jag övertygad om att ett genombrott är nära”, säger Gunnar Fröjdh.
Kommentera artikeln
I samarbete med Ifrågasätt Media Sverige AB (”Ifrågasätt”) erbjuder Afv möjlighet för läsare att kommentera artiklar. Det är alltså Ifrågasätt som driver och ansvarar för kommentarsfunktionen. Afv granskar inte kommentarerna i förväg och kommentarerna omfattas inte av Affärsvärldens utgivaransvar. Ifrågasätts användarvillkor gäller.
Grundreglerna är:
- Håll dig till ämnet
- Håll en respektfull god ton
Såväl Ifrågasätt som Afv har rätt att radera kommentarer som inte uppfyller villkoren.