En pratigare framtid
Släck lampan i arbetsrummet, befaller Affärsvärldens utsända.
– Lampan i arbetsrummet är nu släckt, svarar strax därpå en metallisk kvinnoröst ur högtalaren på skrivbordet.
Affärsvärlden befinner sig i Telia Researchs Visionscenter i Farsta i södra Stockholm en gråmulen dag i början av januari 2002. Inne i demohemmet kan besökaren tända och släcka belysningen med hjälp av rösten.
Det lär dock dröja innan den här typen av röststyrning lanseras. Visserligen finns tekniken. Men än så länge saknas företag som är beredda att satsa. (Vem minns inte floppen med Electrolux intelligenta hem? Den visade hur svårt det kan vara att få konsumenter att förändra sitt beteende då de inte vet vad de ska ha tekniken till.)
Till skillnad från det intelligenta hemmet, som är ett koncept där apparaterna kan kommunicera med varandra, så är röststyrning en teknik som kan vara en del av nätverket i ett intelligent hem.
Betydligt närmare dagens verklighet är röststyrda tjänster i mobiltelefonen. Redan i dag har många av de större telefontillverkarnas telefoner någon form av röststyrning. Säg namnet på en person som finns i telefonens nummerregister och telefonen ringer upp, till exempel.
Nya typer av taltjänster lanseras kontinuerligt. Den hugade kan få alltifrån börsinformation till vintips uppläst i telefonen. Röststyrning ger informationsleverantörerna möjligheter till utveckling av nya betaltjänster. Intressanta områden är bland annat transportsektorn. Om man skickar en produkt ska man kunna ringa transportföretaget och få reda på var i logistikkedjan varan befinner sig.
3G-näten underlättar
En stark drivkraft för utvecklingen av röststyrda tjänster är 3G, tredje generationens mobiltelefoni. Även dagens WAP-tjänster (för GSM- eller GPRS-nät) blir betydligt enklare att använda med rösten, då man kan slippa knapptryckningar och långsam menysökning.
– Inom 3G och GPRS kommer man att jobba med både bild och ljud på ett annat sätt än i dag, säger Christer Granberg, vd för Pipebeach, ett programvaruföretag som utvecklar röstportaler. Man kommer att bygga tjänster där presentationen på skärmen har olika finesser som stöd för rösten.
Operatörerna är inne på samma område. Europolitan Vodafone utvecklar taltjänster för både 3G och andra telefoninät.
Europolitan Vodafone erbjuder redan sina kunder att få e-post uppläst i luren. Det kan vara praktiskt, men tar betydligt längre tid än om man skulle ögna igenom vad som finns i brevlådan och bara läsa det som är viktigt.
Än så länge måste man trycka på mobiltelefonens knappar för att få den här tjäns-ten utförd. Men Europolitan Vodafone jobbar på att det ska bli möjligt för kunden att via ett muntligt kommando få mobilen att läsa upp e-posten.
Teleoperatören har också en röstportal för mobiltelefoner, som lanserades förra året. Användaren kan välja mellan att få till exempel nyheter, börskurser eller väder uppläst av en datorröst. Hur många som i dagsläget använder dessa tjänster vill Johan Holmgren, informationschef på Europolitan Vodafone, inte avslöja.
Näten för nästa generations mobiltelefoni, 3G-näten, finns delvis på plats sedan årsskiftet. Förutsatt att telefontillverkarna håller tidsplanen kommer 3G-telefoner att finnas tillgängliga senare i år.
Men röststyrning handlar om betydligt mer än 3G. Tekniken fungerar i dag oberoende av typen av nät och om det är fast eller mobil telefoni.
Slipper krångliga menyer
Det finns flera anledningar till att efterfrågan på talstyrda tjänster kommer att öka. Dels går det i många fall snabbare att prata med sin mobiltelefon än att hålla på och trycka på de små knapparna, i synnerhet då man tvingas krångla sig igenom långa menyer. Dels kan talet ersätta ett i många fall otympligt tangentbord.
– Många vill ha små terminaler och möjlighet att surfa med rösten för att de tycker det är bekvämt, säger Christer Granberg. De flesta smarta telefoner och handdatorer kommer framöver att ha röstgränssnitt som ett alternativ. På pc:n är vi vana att använda tangentbord, samtidigt som det är ovant att prata rakt ut i en kontorsmiljö. På samma sätt är vi vana att prata med telefoner. Vår attityd till prat spelar stor roll för hur vi använder apparaterna.
Röststyrning kan också vara praktiskt av säkerhetsskäl, till exempel om man kör bil.
Genom röstportaler kan både kunder och leverantörer få tillgång till information både från företagens intranät och internet.
Synskadade har länge utnyttjat så kallad talsyntes för att få hjälp med att översätta text till tal. Hjälpmedelsinstitutet samarbetar med Centrum för talteknologi vid Kungliga Tekniska högskolan (KTH) i dess forskning inom talteknologi, så att den ska komma de handikappade till godo.
Integritetsproblem
Till nackdelarna med talstyrda tjänster hör bristande integritet. Det är långtifrån givet att man vill sitta och tala högt och t-y-d-l-i-g-t när man befinner sig i tunnelbanan. Det är inte heller säkert att medresenärerna uppskattar dessa konversationer.
Hur kan man då tjäna pengar på det här? Telias intäkter ökar i och med att det blir mer trafik i näten.
Taligenkänning och röststyrning kan komplettera vanliga telefonister. Kullagertillverkaren SKF använder en röststyrd telefonväxel. Det innebär en direkt kostnadsbesparing motsvarande cirka en heltidstjänst per år. Magnus Johansson, vd på SKF Sverige, pekar också på den indirekta vinsten i och med bättre service gentemot dem som ringer. De slipper sitta i telefonkö.
Lena Andersson, affärsutvecklare för röststyrda tjänster på Telia, uppskattar besparingen per kopplat samtal till mellan 5 och 14 kr via en sådan röststyrd växel, jämfört med om en telefonist skulle ha kopplat samtalet.
Röststyrning kan öka kundlojaliteten genom att kunderna nyttjar de tjänster som är mest lättanvända.
Drömmen om att kunna tala med maskiner har funnits länge. Redan på 1950-talet forskades det kring så kallad artificiell intelligens. Någon minns kanske Hal, den pratande datorn, i Stanley Kubricks 1960-talsfilm “År 2001 ett rymdäventyr” .
– Strävandet efter att kunna prata med maskiner har alltid varit en viktig inspirationskälla inom artficiell intelligens, säger Anders Lindström, chef för användarinteraktion på Telia Research. På 1950-talet kom också de första elektroniska syntesapparaterna som kunde återskapa en mänsklig röst på ett trovärdigt sätt. Det första kommersiella talsystemet var det tågtidtabellsystem som Philips tog fram i Tyskland, Holland och Schweiz i början på 1990-talet, berättar Johan Boye, forskare på Telia Research.
Svårt känna igen röster
Men det stora genombrottet har dröjt och kritikerna har tidvis dömt ut röststyrning som en flopp. Det finns flera anledningar till det. Fram till för några år sedan var kvaliteten på röststyrning och talsyntes alldeles för dålig. Nu har tekniken blivit bättre, utvecklingen av tjänster har därmed tagit fart.
– Det är väldigt avancerad teknik. Det tar tid och kostar pengar att investera i språkdata för taligenkänning och talsyntes som fungerar bra, säger Christer Granberg.
Tekniken brister också fortfarande när det gäller igenkänningsförmåga, som då två personer som sitter nära varandra pratar samtidigt. Röstportaler, som den Pipebeach har utvecklat, kan då inte skilja de olika rösterna åt. Dessutom finns begränsningar beträffande vem som talar, till exempel klarar taligenkänningssystemen i dagsläget inte av att tolka barns prat.
Dessutom gjorde datorerna tidigare för många fel för att taligenkänning och talsyntes skulle vara gångbart.
– SJ:s tågtidtabelltjänst kunde inte förstå vad skåningar sade, säger Anders Lindström. Systemet var troligtvis främst tränat på Stockholmsdialekt, som ju är rätt olik skånskan.
Nåväl, misstaget rättades till och SJ:s tågtidtabelltjänst fungerar i dag som den ska (vilket är mer än man kan säga om trafiken under snökaoset).
Det kan fortfarande bli en del fel och missförstånd, mycket beroende på vem som talar.
– Minst 90 procent av alla samtal går rätt, men tekniken klarar inte av ostrukturerat pladdrande, säger Christer Granberg. Du måste ge och följa vissa instruktioner.
– En av anledningarna till att dagens talstyrda system är så enkla är att företagen vill vara på den säkra sidan, säger Johan Boye.
Ju hårdare mallad en röststyrd tjänst är, desto tillförlitligare är den. Det kommer att ta många år innan man kan föra en mänsklig dialog med datorn.
Otillräcklig processorkraft har tidigare varit en hämmande faktor då taligenkänning och talsyntes kräver hög kapacitet. Nu är processorerna billigare samtidigt som de har högre prestanda.
Kommunikationsproblemen som uppstår mellan människa och maskin beror till stor del på datorns analys och tolkning av det som sägs. Svårigheten för en dator att hantera betoningar i språket, liksom känsloyttringar, gör det än mer komplicerat.
Det är heller inte självklart vad en mening egentligen betyder, om man rycker den ur sitt sammanhang. Johan Boye belyser klurigheten med följande mening: “Pojken såg flickan med kikaren”. Vem har kikaren? Är det pojken som tittar på flickan med den eller är det flickan som har den?
– Om man gör ett system som rör ett begränsat område så försvinner en stor del av det här problemet, säger Johan Boye. Nyckeln till framgångsrik talteknologi ligger i avgränsningen.
Maskiner kan språktränas
Det ger i sin tur upphov till en annan svårighet: Hur ska folk lära sig maskinens begränsningar? Ett sätt är att instruera dem.
– Man kan också träna upp en maskin så att den successivt blir allt bättre på att analysera det talade språket, säger Rolf Carlson, professor i talteknologi på KTH. De sista fem åren har inneburit ett genombrott.
Ytterligare en faktor som hämmat utvecklingen är bristen på en enhetlig standard. Alla utvecklingsprojekt har hittills förlitat sig på olika tekniker.
– Fram tills nu har vi haft proprietära system, säger Christer Granberg. Det innebär att olika system inte fungerar med varandra. Det är därför dyrt att utveckla tjänster. En enhetlig standard innebär att även de som inte är specialister på talteknologi har möjlighet att skapa nya kommersiella tjänster.
Nu finns standarden Voice XML. Det gör det både lättare och billigare att utveckla röststyrda tjänster. Genom att använda rösten ska man också kunna surfa på webben på samma sätt som med ett tangentbord. Det är oberoende av en viss leverantör för talteknologin, vilket gynnar både kunderna och marknaden, menar Christer Granberg.
Tangentbordet kvar ett tag till
Telefoner och andra apparater som man kan styra enbart med rösten finns redan i USA och kommer att finnas på den europeiska marknaden inom två år, spår Johan Boye.
Även om det i dag finns gott om talbaserade tjänster, så kan ett genombrott för annan typ av röststyrning ta tid. Men det är tveksamt om rösten någonsin helt ersätter tangentbordet.
Snart kommer det att finnas en mängd kraftfulla mobila terminaler på marknaden. I det här sammanhanget är det stora hindret för ett genombrott kunskapen om användarnas beteende, enligt Anders Lindström:
– Risken finns annars att vi kommer att få se många dåliga system, eftersom de utvecklas av glada tekniker utan kunskap om hur människor fungerar och hur de vill använda tekniken.
Det kan därför ta längre tid än vad förespråkarna tror att påverka och ändra folks beteende, även om den praktiska nyttan för konsumenterna i flera fall är uppenbar.
För visst vore det behändigt för den som inte vill missa exempelvis “Expedition: Robinson” att slippa förprogrammera videon. I stället skulle det räcka med att ge apparaten en muntlig instruktion: “Spela in kanal två på lördag 20.00 och en timme framåt”.
Kommentera artikeln
I samarbete med Ifrågasätt Media Sverige AB (”Ifrågasätt”) erbjuder Afv möjlighet för läsare att kommentera artiklar. Det är alltså Ifrågasätt som driver och ansvarar för kommentarsfunktionen. Afv granskar inte kommentarerna i förväg och kommentarerna omfattas inte av Affärsvärldens utgivaransvar. Ifrågasätts användarvillkor gäller.
Grundreglerna är:
- Håll dig till ämnet
- Håll en respektfull god ton
Såväl Ifrågasätt som Afv har rätt att radera kommentarer som inte uppfyller villkoren.