Timo Kinnunen
Särkiniementie 16 A 41
70700
Kuopio
Finland
Christopher Schmandt, Barry Arons, and Charles Simmons
Media Laboratory, Massachusetts Institute of
Technology
Proceedings, American Voice Input/Output Society
Conference
1985, AVIOS, Palo Alto, CA, pp. 51-61 (1985).
Suom. Timo Kinnunen 13.3.1989
CONVERSATIONAL DESKTOP -projekti tutkii puheensyöttö- tulostusteknologioita (speech input/output technologies) laitteistovälitteiselle (machine mediated), äänen avulla tapahtuvalle kommunikaatiolle toimistoissa ja teleliikenneympäristöissä. Työn keskeinen alue liittyy vuorovaikutekentän (interface) suunnitteluun, jossa huomioidaan useita inhimillisen keskustelukäyttäytymisen aspekteja. Tämä sisältää kyvyn jatkaa keskustelua silloinkin, kun syöte (input) on epämääräinen, ja kyvyn käyttää hyväksi syntaktista ja ja akustista kontekstia keskustelun edetessä, kuten myös laitteen herkkyyden tunnistaa erilaista äänellistä informaatiota. Tämä on hyödyllistä ympäristöissä, joissa puhetta käytetään erilaisiin tarkoituksiin, kuten audiomemoihin, puhelinkeskusteluun, ja hälytysmerkkifunktioihin -sen lisäksi, että ääni liittyy laiteohjauksen komentokanavaan. Aikaisempi työ on osoittanut syntaktiseen analyysiin perustuvan dialogin olevan käyttökelpoisen ajateltaessa sitä kopioimistapahtumana, johon liittyy tunnistamisvirheiden paikantaminen [Schmandt 82], vaikka käytetty kieliopillinen kuvaus olikin karkeasti koodattu tiettyä sovellusta varten, ja laajennettavissa ainoastaan suunnittelullisesti. PHONE SLAVE [Schmandt 84, Schmandt 85] kykeni hyödyntämään menestyksellä ihmisten halukkuutta keskusteluun tietokoneen kanssa mutta se oli siinä mielessä passiivinen systeemi, ettei se kyennyt käyttämään hyödykseen tietoa keskusteluun liittyvistä muista aktiviteeteista, joita laitteen käyttäjällä oli. Tässä projektissa tarkoituksena on yhdistää nämä molemmat lähestymistavat.
Tämä projekti perustuu integroituun toimistotyöasemaan, jossa yhdistyvät tehokkaan henkilökohtaisen tietokoneen, ja älykkääm teleliikennöintisysteemin ominaisuudet. Sen lisäksi, että käytettävissä ovat tavanomaiset henkilökohtaiseen tietokoneeseen liittyvät sovellukset, voi tämä työasema olla aktiivisena tekijänä digitaalisessa verkossa. Työasema käsittelee omistajansa asiakirjoja, matkasuunnitelmia, puhelinluetteloita, ja myös vastaanottaa viestejä ja aktivoi auditiivisia muistioita, jotka liittyvät käsiteltäviin tapauksiin. Kuten tulee myöhemmin esille, niin mitä enemmän työasema tietoinen omistajansa aktiviteeteista, sitä suurempi on sen kyky muodostaa oikeita inferenssejä oman käyttäytymisensä ohjaimina vastatessaan ulkoisen maailman ärsykkeisiin. Mitä teleliikenteeseen silmukohtiin (node) tulee, perustamme tämän työmme näkemykselle "point-to-point" -tyyppisestä kommunikaatiosta, johon samanaikaisesti liittyy ääni- ja datalinkkejä, joista jälkimmäisen ei tarvitse perustua suurnopeuksiselle tiedonsiirrolle. Lisäksi silmukohdat (nodes) kykenevät hyödyntämään niihin liittyviä aktiviteetteja, jotka vaativat paikallisten databasejen käyttöä, kuten tapaamisten järjestelyä eri työasemilla työskentelevien välille, tai käsittelemään älykkäästi puhelinyhteyden kontrollisignaaleja. Kun jotakin työasemaa pyydetään "yhdistämään puhelu X:lle", se ensin ottaa yhteyden digitaalisesti X:n työasemaan määritelläkseen, voiko X vastata puheluun, ja jos haluaa, niin mihin osoitteeseen (puhelinnumeroon) äänilinkki yhdistetään. Samoin voidaan muodostaa digitaalinen kytkentä jonkun toisen silmukohdan (node) prosessiin peruutettaessa jotakin tapaamista huomioiden kunkin työasemankäyttäjän aikataulut. Meidän CONVERSATIONAL DESKTOP sovelluksessamme käytetään Sun Microsystems -työasemia, joissa on Internet -protokolla ja jossa datalinkkinä on Ethernet (hardware); tavanomaisia analogisia puhelinyhteyksiä käytetään audiolinkkeinä. Digitaalisen puhelinliikenteen ja siihen liittyvien apuprotokollien (kuten ISDN) kehittyessä on otaksuttavaa, että ääni- ja datakanavat tulevat saataville yhtenä integroituneena puhelinliikennesysteeminä jo lähitulevaisuudessa. Jokainen työasemista on varustettu lukuisilla puhe-periferaaleilla, kuten puheentunnistus, sen syntesointi, puheen digitaalinen tallennus ja toisto asianmukaisilla laitteilla. Laitteet, joita käytetään, voidaan konfiguroida ajoaikaan (run-time); systeemiä voidaan ajaa siten haluttaessa myös vähäisemmällä kapasiteetilla ja käyttäen pelkästään sen eräitä osa-alueita. Työmme pääpainoalue on näiden puhe-teknologioiden välisessä synergiassa, erityisesti sellaisissa konteksteissa, joissa ääntä hyödynnetään tehtäväratkaisuissa, jotka sisältävät sisäisten moniyhteyksien huomioimista (interrelated) ja sisäisten moniliittymisten muodostamista (interconnected). Työasema on suunniteltu niin, että käyttäjä voi ohjata sitä puheellaan kun hän liittyy väliintulevana monikeskeiseen keskusteluun (interleaved) muiden silmukohtien (nodes) kanssa. Saataville tulleiden operaatioiden määrä tätä kirjoitetaessa sisältää: aikataulujärjestelyt yksilöiden ja ryhmien välille, otettujen puhelujen valmistelun (placing), tulevien ääniviestien vastaanoton ja tallentamisen äänimemoiksi, jotka suhteutetaan tiettyihin työtapahtumiin. Tulevien viestien käsittelyn pohjana on ANSWERING MACHINE, jota on kuvattu jo PHONE SLAVE:n yhteydessä.
DESKTOP on luonteeltaan keskustelullinen: dialogi on yhtä hyvin tasainen takaisinkytkentöjen virta kuin keino paikantaa epäselvyyksiä ja virheitä puheentunnistimella (speech recognizer). Puheentunnistimen tuloste on taipuvainen sisältämään kohinaa, jolle luonteenomaista on väärät sanojen asettamiset (insertion), sanojen väärät korvaamiset (substitution), ja erilaiset määrittelemättömät virheen sanojen käsittelyssä. On välttämätöntä rakentaa joustava kielioppitulkki (robust parser), jolla peilataan (scan) puheentunnistimen tuottamaa aineistoa, kuten myös rakentaa datastruktuuri, johon sisältyvät tiedot siitä, mitä osaa ko. aineistosta käytetään gereroitaessa dialogia. Tavanomaiset kieliopintulkintatekniikat (parsing techniques) liittyen luonnollisen kielen prosessointiin [Winograd 83] ovat yleisesti riittämättömiä, koska ne perustuvat siihen, että sanalliset syötöt (tavallisesti kirjoitettuja) ovat oikein asetettuja. Sovellettuna ratkaisuna on kontekstivapaa kielioppi (context free grammar) ja kielioppitulkki (parser), joka perustuu Unix YACC (YET ANOTHER COMPILER-COMPILER) kieliopintulkintagenerointiin, jossa jokainen merkki (token) on eräs tietyn syntaktisen luokan tapaus, kuten esimerkiksi "käsky, jonka antamiseen tulee liittyä annettava päivämäärä". Kielioppitulkki (parser) käyttää puheentunnistimen aineistoa ja ajaa kaikki jäsentyneet alaketjut (substrings) YACC:n kautta, joka laskee niille arvot vaiheittaisesti karsien kieliopin jokaisessa silmukohdassa (node), ja hyppää aina sellaisten kohtien yli, jossa arvot ovat pienempiä kuin todettavissa olevat suuremmat jäljelläolevat arvot. Esimerkiksi sellainen alaketju, kuten kirjainryhmä ABC voisi tulla kieliopillisesti tulkituksi tapauksista, jossa mahdolliset puheentunnistimen antamat vaihtoehdot olisivat ABC, AB-, -BC, A-C, A--, -B-, --C. Arvojenantaminen perustuu siihen, että tunnetaan jo ennalta minkätyyppisiä virheitä puheentunnistin tekee, kuten konnektoidussa puheessa virheet ilmenevät purskeina (bursts), mikä on tulosta tunnistimen suorittamista virheellisistä segmentointiratkaisuista. Kielioppitulkki antaa pisteitä lukuisille tunnistetuille sanoille, joista työstetään täydellisiä lauseita karsintaprosessissa, jossa annetaan tavallaan lisäbonusta aina niille sanoille, jotka jäävät jäljelle, ja jossa prosessissa säätyy sanojen oikeellisuus. Dialogi, mikä usein tunnistuksen yhdeydessä käydään, on koneen yritys täyttää aukkokohdat muodostetussa kielioppipuussa, joka prosessina perustuu korkeimpien pistemäärien omaavien vaihtoehtojen joukon muodostukseen. Esitettävien kysymysten muodostaminen on kriittistä monistakin syistä. Dialogi soveltaa kaikutekniikoita (echoing techniques) [Hayes 83] varmistaakseen implisiittisesti alkuperäistä kommunikaatiota. Esimerkiksi: "Sovi aikatauluun tapaaminen Walterin kanssa aa.. <muminaa>" voisi tuottaa täydentävän kysymyksen "milloin haluat tavata Walterin?". Esitetyt kysymykset suuntautuvat täydentämään annettuja sanallisia responseja niin kuin ne parhaimmalla todennäköisyydellä ovat tulleet tunnistetuiksi, aina kun se on mahdollista. Toinen keskustelullisen kyvykkyyden aspekti liittyy systeemin metodiin ottaa vastaan puhelimella jätettäviä viestejä. Soittajia tervehditään nauhoitetulla äänellä, joka kysyy joukon kysymyksiä, ja nauhoittaa saadut vastaukset, samalla kun adaptoituva taukokohdan määrittävä algoritmi (adaptive pause detection algorithm) laukaisee seuraavan kysymyksen. Vastaukset sellaisiin kysymyksiin, kuten "kuka soittaa?", "mihin tämä liittyy?, ja "mistä numerosta teidät voi tavoittaa?" tallennetaan individuaaleiksi äänitiedostoiksi. Peräkkäisten nauhoitusten sekvenssi tarjoaa kontekstin, tai tavan käsitellä audiodata-sisältöä. Jopa silloinkin, kun kone ei tunnista yhtään sanaa vastauksesta esimerkiksi kysymykseen soittajan henkilöllisyydestä, se tietää, että juuri tämä vastaussegmentti on toistettava, kun laitteen omistaja esimerkiksi kysyy: "Kuka jätti tämän viestin?".
Huomioimalla lukuisat vihjeet, kuten erityisesti silmäkontaktit, voi henkilö pientä ryhmää koskien määritellä, onko jokin viesti juuri heille suunnattu. Toivomme voivamme hyödyntää samanlaista tekniikkaa niin, että tietokone voi määrittää, milloin sille puhutaan, vastakohtana puheluille ja toimistossa työskenteleville ihmisille yleensä. Jotta tämä helpottuisi, olemme hyödyntäneet sijoitusjärjestelyissä spatiaalista sijaintia niin, että tietokone sijaitsee käyttäjän (taka) oikealla puolella, ja puhelin (etu) vasemmalla. Systeemin näyttö, jossa näkyvät DESKTOPin tulostamat aikataulu ja tiedot jätetyistä puhelinviesteistä, ovat sijoitetut (suoraan) käyttäjän oikealle puolelle, ja DESKTOPin kovaääninen käyttäjään nähden (etu) oikealle. Puhelimeen liittyvä mikrofoni on kiinnitetty käyttäjän päähän (hands-free), ja puhelimeen yhdistetty kovaääninen sijaitsee käyttäjän (etu) vasemmalla puolella. Käyttäjän TAAKSE on sijoitettu kaksi mikrofonia suunilleen tasakylkisen kolmion kantoihin, ja niiden avulla määritellään suunta, johon käyttäjä kulloinkin puhuu; näiden mikrofonien vastaanotto on minimissään silloin, kun käyttäjä puhuu puhelimeen. Takana sijaitsevien mikrofonien avulla saavutetaan suuri herkkyys suunnanmäärityksessä, koska se hyödyntää ihmisen pään asentojen kulmanmuutoksia [Flanagan 60]. Sekä laitteisto -että ohjelmisto IBM PC:ssä hyödyntävät tätä informaatiota kommunikaatiossaan SUN -työasemaan (Sun Workstation). Samainen laitteisto myöskin kontrolloi puheen taukokohdista ohjautuvia kytkimiä (noise-free ramped switches) suorasta audiosta aina oheislaitteisiin. Silloin kun tietokone itse puhuu analysoimalla nauhoitusta, tai syntesoimalla tekstiä puheeksi, on syöttö puheentunnistimeen käyttäjän kanavalla poikki, jotta käyttäjän puhuminen ei sekoittuisi tunnistettavana olevaan puheeseen tai tekstiin. Systeemi tunnistaa käyttäjän puhetta hänen osoittaessaan puhetta puheentunnistimen suuntaan. Puhelimeen puhuessaan käyttäjälle saattaa tulla tarvetta yksityiseen vuorovaikutukseen DESKTOPinsa kanssa, jollaisen systeemi tunnistaa käyttäjän oikealle suuntautuneesta pään asennosta, ja katkaisee puhelun väliaikaisesti (ei kokonaan).
Suuntaherkät mikrofonit on suunniteltu myös määrittämään taustalta suuntautuvia ääniä (määriteltyinä signaaleiksi, jotka eivät ole peräisin käyttäjän päähän kiinnitetystä mikrofonista), jolloin huomioituu se, että toimistossa työskentelee mahdollisesti muitakin. Tätä läsnäolevaa taustapuhetta käytetään muodostettaessa sitä operaatioiden luokkaa, joiden avulla määritellään tietoa DESKTOP systeemin toimintaympäristön akustisesta kontekstista. Esimerkiksi kun on aika toistaa jokin audiomuistio, niin systeemi ensin tarkistaa TÄMÄN TAUSTASIGNAALIEN LAADUN, ja voi esimerkiksi määrittää sen kuuluvaksi ajanjaksoon, jolloin käyttäjä oli yksin toimistossa. Yleisesti systeemi seuraa sellaista sääntöä, että käyttäjää ei keskeytetä silloin, kun hänellä on jokin määriteltävissä oleva työtapahtuma meneillään; tulevaisuudessa tutkimustyö tulee pyrkimään priorisoimaan läsnäolevuuteen ja työstä tiedoittaviin elementteihin kuuluvia ääniä. Esimerkiksi systeemi ei keskeytä käyttäjää ohjaamalla hänelle puhelua silloin, kun hän tekee jotakin erityistä työtehtävää, vaan tallentaa viestin. Mitä enemmän systeemi tietää käyttäjän aktiviteettien laadusta, sitä enemmän se kykenee hyödyntämään kontekstia puhesyöttöjen ymmärtämisessä ja siihen liittyvien aktiviteettien ohjailussa. Useimmiten nämä liittyvät puhelinkeskusteluihin. Mikäli huomioidaan kaikki mahdolliset aktiviteetit, viittaa komento "järjestä meille molemmille tapaaminen" sekä käyttäjään, että toiseen osapuoleen; systeemi, joka tuntee henkilöstösuhteet, voi asettaa puhelun ensisijalle. Kun käyttäjä kertoo DESKTOPille menevänsä lounaalle, se tietää asettaa ulossuuntaamiinsa vastauksiin tästä tiedotteen. Samalla tavoin systeemin aktiviteetit voivat ohjautua eksternaalisista tapauksista. Audiomuistuttaja (audio reminder) voi esimerkiksi tuottaa sanasekvenssin: "Kun puhun Barrylle, muistuta minua...". Ja vaikka systeemi ei suoritakaan varsinaista sisällöllistä muistutteen tunnistusta, se tietää silti siitä tarpeeksi tuottaakseen sellaisen automaattisesti soittamalla tietyn puhetiedoston, mikäli sille esitetään pyyntö "Soita Barrylle". Saman puhetiedoston systeemi huomioi myös silloin, kun Barry soittaa käyttäjälle. Muistuttaja voi myös kytkeytyä toimintaan, jos käyttäjä ottaa Barryyn suoran puhelinyhteyden, on menossa kokoukseen, tai kytkeytyä sellaisesta käskystä, kuten "Lähden kotiin".
Tällä hetkellä olemme laajentamassa DESKTOPin kyvykkyyttä useillakin tavoilla. ENSIMMÄISEKSI olemme lisänneet fuktionaalisuutta, kuten lentolippujen varausta, ennalta tapahtuvaa säätilan tarkistusta ennen töiden loppumista, etc. Käytettävissä on lukuisia elektronisia databaseja, jotka ovat DESKTOPin tavoitettavissa digitaalisilla puhelinyhteyksillä, ja joilla automaattisesti päivitetään tietoja maailmassa vallitsevista olosuhteista. TOISEKSI olemme kehittämässä personoituvuutta, kuten se, että jokaisen silmukohdan (nodes) aikataulua ohjataan huomioimalla henkilökohtaisia preferenssejä: joku saattaa tuntea vastenmielisyyttä aamuisia kokouksia kohtaan, kun taas joku toinen saattaa pitää vastenmielisenä viiden jälkeen pidettäviä kokouksia. Vaikeampi on haasteena preferenssien yhteensovittaminen huomioimalla jollakin tavoin sen, että kokous saattaa olla jollekin osapuolelle tärkeä. Esimerkiksi minä en tapaisi opiskelijoita mielelläni ennen kymmentä aamupäivällä, kun taas joku tärkeä vieras saattaisi hyvinkin tulla tätä aikaisemmin. Samalla tavoin voisivat monet saapuvat puhelut voisivat keskeyttää joitakin meneillään olevia töitäni, mutta en hyväksyisi mielelläni työtovereideni tai paikalla asioivien henkilöiden suorittamia keskeytyksiä.
Työtä on tukenut NTT, (The Nippon Telegraph and Telephone Coroporation)
[Flanagan 60] J.L. Flanagan, Analog Measurements of Sound Radiation from the Mouth, J. Acoust. Soc. Am., 32(12) (1960).
[Hayes 83] P. Hayes and R. Reddy, Steps Toward Grateful Interaction in Spoken and Written Man-Machine Communications, Int 'l J. Man-Machine Studies, 19:231-284 (1983).
[Schmandt 82] C. Schmandt and E. Hulteen, The Intelligent Voice Interactive Interface, In Human Factors in Computer Systems, NBS/ACM (1982).
[Schmandt 84] C. Schmandt and B. Arons, A Conversational Telephone Messaging System, IEEE Trans. on Consumer Electr, CE-30(3):xxi-xxiv (1984)
[Schmandt 85] C. Schmandt and B. Arons, Phone Slave: A Graphical Telecommunications Interface, Proc. of the Soc. for Imformation Display, 26(1) (1985).
[Winogard 83] T. Winogard, Language as a Cognitive Process-Syntax, Addison-Wesley (1983).
Christopher
Schmandt:
Principal Research Scientist;
Mr. Schmandt receiced his B.S. in Computer Science and his M.S. in computer graphics from MIT. He has Continued his work as a Principal Research Scientist at the Architecture Machine Group, a component of the Media laboratory. His research interests there are focused on interactive systems and human-interface issues, with emphasis on voice interaction and telecommunications.
Barry Arons:
Research
Associate;
Mr. Arons received his B.S.C.E. and M.S. in computer graphics and interactive systems from MIT. His research interests include speech input/output, raster graphics, and interactive video.
Charles Simmons:
Undergraduate
Researcher;
Mr. Simmons is completing his senior year at MIT. The topic of his Barchelor's thesis is the design and implementation of speech direction sensing hardware and software.
The authors can be contacted at:
Media Laboratory
Massachusetts
Institute of Technology
20 Ames Street, Room E15-327
Cambridge,
MA 02139