Timo Kinnunen
Särkiniementie 16 A 41
70700
Kuopio
Finland
Andrew Lippman and Walter Bender
MIT
Media Laboratory
suom. Timo Kinnunen 24.2.1989
Pelastettu 3.5
Levykkeeltä NU.EXE Ohjelmalla 12.4.1989 T. Kinnunen
Muotoiltu
uudelleen 1.10.1997 T. Kinnunen
Tässä artikkelissa kuvataan kahta demonstratiivista systeemiä joissa tietojenkäsittelyä sovelletaan informaationkäsittelyyn ja esittämiseen niitä kanavia käyttäen, joita on käsillä tavallisessa olohuoneessa. Ensimmäisessä niistä esitellään ohjelmoitavaa ja yksilöllistä sanomalehteä, jollaisen ryhmä tietojenkäsittelyn automaattisesti työskentelevää "toimittajaa" luovat päivittäin lukijan toiveiden mukaisesti. Toisessa esitetään kuinka luodaan digitaalisesti kompressoituja elokuvia käyttäen muistiyksikköjä niin, että muokkaus tapahtuu itse katselun aikana. Molemmissa projekteista tutkitaan kommunikaatiokanavien persoonallistamisen mahdollisuuksia niin, että tarvittava tietojenkäsittely tehtäisiin terminaalipäätteissä. Vaikka ne toimivatkin tänä päivänä alemmilla taajuusalueilla voidaan niiden välitön muokkauskyky nostaa korkeammalle siirtymällä ylemmille lähetystaajuudelle. Niinpä esitetyt mallit ovatkin demonstratiivisia esityksiä korkealla lähetys- ja käsittelytaajuudella kotona tapahtuvasta muokkauksesta.
MIT Media Laboratoryn Electronic Publishing ryhmä on viime vuosien aikana tutkimustensa teemana pitänyt traditionaalisten massamediakanavien persoonallistamista liittyen tiedonsaantiin. Näiden kanavien joukossa ovat olleet radio, televisio, ja kirjoitettu media, kuten sanoma- ja aikakauslehdet, sekä kirjat. Hypoteesina on, että tietojenkäsittelyä sovellettaisiin informaatiota luotaessa, sekä sitä vastaanotettaessa. Useita lähetystapoja voidaan saattaa keskenään dialogiin. Ehkä tärkeintä edellisessä on se, että tietojenkäsittelyllä voidaan prosessoida ennemminkin sisällöllisiä ominaisuuksia kuin signaalia sinällään. Tässä keskustelussa mediat voidaan jakaa kolmeen luokkaan: Suoraan vastaanottoon perustuvat (directly accessible), epäsuoraan vastaanottoon perustuvat (indirectly accessible), ja tietojenkäsittelyllä tuotettuun vastaanottoon perustuvat (computationally accessible). Ensimmäisessä tapauksessa, jossa esimerkkinä painettu teksti, liittyy vastaanottoon jakelujärjestelmä, jonka kautta tuotteet ovat suoraan vastaanottajan saatavissa ilman käännöstä tai prosessointia. Mahdollisesti silmälaseja lukuunottamatta esimerkiksi kirjan lukemiseen ei tarvita mainittavampia apuvälineitä. Epäsuoran vastaanoton saannissa, kuten television- ja radion tapaisten välineiden kautta tapahtuvassa tarvitaan väline, joka muuntaa lähetyssignaalin hyödynnettävään muotoon. Televisio ja radio ovat laitteina tällaisia välineitä. Kehitettäessä epäsuoraan vastaanottoon perustuvia välineitä on kokeiltu lukuisia koodituksen algoritmeja, jotta kanavia voitaisiin hyödyntää tehokkaammin, ja nostaa presentaation tasoa korkeammalle ainakin ajoittain. Useimmissa lähetyssovelluksissa kanavan käytön tavan voi sanoa viittaavaan laatutasoon. Lähes näihin päiviin saakka kanavan koodaus on ollut analyyttista, mikä tarkoittaa sitä, että lähetysdekoodaus on ollut signaalin prosessointia, eikä informaation prosessointia. Uusimmat adaptiiviset systeemit ovat hämärtäneet eroa signaalin enkoodauksen ja sisällönmuokkauksen välillä. NTSC on eräs varhaisimmista esimerkeistä psykofysikaalisesta optimoinnista; adaptiiviset systeemit, jossa kytketään televisiolähetys progressiivisesti skannautuvaan vastaanottomenetelmään on jo myöhempi tapaus. On ollut vaikeuksia suunnitella sellaista dekooderia, joka kykenisi työskentelemään kyllin laaja-alaisesti erilaisilla signaaleilla, josta syystä lähetysstandardit ovat nykyisenlaiset. Tietokonesysteemeissä terminaalisuunnittelijan päämääränä taas on ollut nimenomaan tuottaa keinoja hyödyntää mahdollisimman monia syöttömuotoja (input format), muodostavat televisio- ja radiolähetykset traditionaalisissa muodoissaan rajoittuneisuuden verrattuna välineisiin, jotka voivat valmistajasta riippumatta ottaa vastaan mitä tahansa. Kolmantena kategoriana ovatkin tietojenkäsittelyn avulla vastaanotettavissa olevat systeemit. Niille karakteristista on se, että sekä lähetyksessä, että vastaanotossa sisältöjä voidaan muokata, ja että sekä kooderi -että dekooderi ovat suunnitellut niin, että niissä huomioituu nimenomaan sisältö, sekä myös se, mitä vastaanottaja tahtoo sisällöstä hyödyntää. Työssämme otaksumana on ollut, että prosessointi, jolla persoonallistettua informaatiotulosteita tuotetaan, ei välttämättä ole liian kallista tai komplisoitua käyttöönotettavaksi. Hypotetisoimme joitakin rooleja, joita persoonallisella tietokoneella tulevaisuudessa voisi olla, ja myös piirteitä, joita sillä on. karakterisoimme niistä muutamia myöhemmin. Pyrimme työssämme välttämään extrapoloimasta potentiaalisesti käyttöönotettavissa olevia taajuuksia minkään kommunikaatioväylän kohdalla. Jotkut systeemeistä hyödyntävät puhelinliikennettä ja televisiolähetysten järjestelmiä, ja toiset optisten tallenteiden käyttöä korkeampien taajuusalueiden kanavien käytön simuloimisessa. Pyrimme myös välttämään taajuusalueen kompression ja saatavissa olevain kanavakapasiteettien välistä dikotomiaa. Ne eivät toimi toisiaan poissulkevassa mielessä, koska jonkun niistä läsnäolo ei sulje muita välttämättä käytettävyyden ulkopuolelle. Tässä tutkimuksessa kuvaamme kahta järjestelmää, jotka ovat potentiaalisesti mahdollisia käyttää tulevaisuuden 50 megabitin olohuoneessa. Ensimmäinen niistä on elektroninen sanomalehti (NewsPeek), jossa on mahdollista persoonalliseen tietojenkäsittelyyn niin, että käyttäjää voidaan pitää osallisena koostettaessa päivän uutismateriaalia. Toinen esimerkeistä niveltyy kuvanprosessointiin sen esityksen aikana; aiemmin tallennettujen kuvien varastoa käytetään luotaessa uusia muotoja. Tätä ohjelmaa kutsumme nimellä "Paperpack Movies", ja esimerkkinä sellaisesta on digitaalisesti enkoodaten tallennetut kokoillan elokuvat optisille levykkeille. Ohjelman nimi liittyy elokuvien teon kustannuksiin: originaali elokuva on huomattavasti halvempi kuin siitä tehty kopio. Digitoituja, toisiaan seuraavia kuvia voidaan tallentaa massamuisteihin, siirtää puhelinlinjoja myöten, tai kaapelitelevisioverkossa. Niitä voidaan käyttää elokuvallisina, muokata niistä valokuvia, tai esittää elokuvan kuvia jossakin muussa järjestyksessä kuin mitä tallenteessa on laita, jos enkoodataan ei-reaaliaikaisesti. Kummatkin esitetyistä vaihtoehdoista toimivat matalassa taajuuskaistaympäristössä, jossa osa prosessoinnin energiasta tarvitaan taajuuskaista-alueen muokkaamiseen huomioiden vastaanottotaajuuden ja lähetystaajuuden. Suurin osa energiasta hyödynnetään individuaalissa presentaatiossa. Esimerkit eivät niinkään ole esimerkkejä koodauksesta, vaan siitä, miten informaatiota on mahdollista jakaa, kun terminaalivälineet ovat aktiivisesti osallisina informaationsiirrossa. Mikäli kyseessä olisi 50 megabitin olohuone, olisi vaikutus huomattavasti välittömämpää. Elektroninen sanomalehti, jota kuvaamme, voi operoida minkä tahansa aallopituuden kanavilla. Se vaatii korkeaa taajuusaluetta prosessorin ja lukijan välillä, mikä taas ei ole tarpeen prosessorin ja uutislähteen välillä. Työmme on siksi relevantti ajatellen tulevaisuuden puhelinsysteemejä ja saattaa auttaa ohjaamaan niiden sovellusalueiden kehittämistä. Molemmat esimerkkitapauksista toimivat korkean taajuskaistan alueella kun on kyse kommunikaatiosta käyttäjän ja paikallisen prosessorin välillä. Suuressa määrin on kyse inhimillisten tiedonvälitystapojen eksploraatioista informaatiojärjestelmien suhteen. Ne perustuvat korkealuokkaiseen kuvalliseen esitykseen, joihinkin suhteellisen tehokkaisiin ja integroituneisiin vastaanottovälineisiin, sekä suureen paikallisesti käytettävissä olevaan massamuistiin. Ne esitetään tässä kokeina ja esimerkkeinä, ja potentiaalisina suuntaa-antavina mahdollisuuksina, joiden suuntaan tulevaisuuden kehitys voisi ohjautua.
Tässä luvussa kuvaamme kotimediaa koskeneita kokeita, joissa tutkittaan uudenlaista lähetystapaa: datan jakoa ja sen ohjelmointia pikemminkin kuin ennalta tietynmuotoikseksi pakatun materiaalin mekaanista vastaanottoa. Tällaista lähetystä ei suunnata ihmisille sinällään, vaan tietoja käsittelevälle agentille, joka työskentelee hänen puolestaan. Sekä lähetyksen lähettäjän -että lukijan instruktioiden pohjalta tämä editoi dataa, ja esittää sen sitten tavalla, joka on tuttu traditionaalisista medioista. Jokaisessa kokeessa otaksumana oli, että on olemassa jokin datakanava ei-annetussa tietojenkäsittely-ympäristössä, jossa on tarvittava I/O. Sana "ei-annettu" viittaa tässä siihen, että kun vastaanotettu data on dekoodattu, on olemassa riittävästi sylinteritilaa jotta datan "sisältöjä" on mahdollista käsitellä. Kokeiden välineenä on sellainen uutisia vastaanottava systeemi, jossa uutisten lähettäjien suorittama editointi korvautuu henkilökohtaisen tietokoneen avulla suoritetulla uutiseditoinnilla. Suuri joukko databaseja, niin paikallisia kuin lähetettyjäkin, pasiivisia ja interaktiivisia saatetaan "reporttereille", ohjelmallisiin vuorovaikutussyteemeihin, jotka on nimenomaan ohjelmoitu uutisten kokoamista silmälläpitäen. Ideaalisessa muodossaan "ne" ovat laajakaistaisesti toimivia niin, että ne ovat valppaina jokaisella kanavalla ja lukevat jokaista sanomalehteä. Ne databaset, joita me käytämme sisältävät kaapelipalveluja; XPressin; auditiiviset uutispalelut Dow Phonelta; lehtiä; lukemistoja ja aikakauslehtiä Dow Jones Newsilta; Mead Data Central NEXISin, televisioiden uutislähetyksiä; elektronista postiliikennettä, ja paikallista arkistoitua materiaalia, kuten 20 000 optiselle videolevylle tallennettua värivalokuvaa (Associated Press). Tietekoneen editorin roolina on etsiä, suodattaa, ja formatoida sille syötettyjä databaseja lukijan toivomusten mukaisesti; valita "printattavaksi" soveltuvaa uutismateriaalia vastaanottajan ohjeiden mukaisesti, ja niputtaa ne niin, että niiden käsillesaatavuus paranee ja niitä voidaan analysoida. Tuloksena on persoonallinen uutispresentaatio, joka on asynkroninen suhteessa alkuperäiseen lähetykseen. Joissakin kokeissa elävät lähetykset on taitettu suoraan sivuiksi lähetetystä tiedostomateriaalista, kun taas toisissa kokeissa lähetykset on tallennettu ensin levylle tai nauhalle, joista on otettu peräkkäisiä otantoja. Molemmissa tapauksissa on tehty ero "elävän materiaalin" ja referoidun materiaalin välillä. Kuvatunkaltainen vastaanotettu data on multi-media, josta valintoja suoritetaan pikemminkin sisältöä huomioimalla kuin että vastaanotto olisi pelkkä tiedonsiirron tavanomainen media. Tämä vaatii vastaanotetun materiaalin sivuttamista niin, että materiaali niveltyy toisiinsa. Käytetyn välineen hallitsemat formatointimuodot ovat joustavia. Esittävä medium voidaan irroittaa lähetysvirrasta. Otetut kopiot voivat olla "kovia" tai "pehmeitä": kirjoitettuja, oraalisia ja kuvallisia, joista kuvat voivat olla yksittäiskuvia tai liikkuvia. Se, mitä näistä aineistoista korostetaan, riippuu opituista preferensseistä, fyysisistä rajoitteista vastaanottoon, ja kustantajan antamista ohjeista. Useimmissa tapauksissa presentaatioiden tavat ovat ekstrapolaatioita olemassaolevista mediatyypeistä: sanomalehdistä, aikakauslehdistä ja televisiouutisista.
NewsPeek on interaktiivinen database-vuorovaikutuskenttä, jonka esitystapa muistuttaa sanomalehteä. Se on suunniteltu helpottamaan lukijaa tutkimaan multi-media databasea itse ilman, että lähettäjä vaikuttaa asiaan (non-directive manner). Siinä ei ole mieletöntä kysyä epämääräisiä tai huonosti muotoiltuja kysymyksiä täsmennettäessä oman mielenkiinnon kohdetta lukemisen aikana. Käytetään kahta mekanismia, jotka perustuvat lukijan tarpeisiin valikoida tulosteiden saantityyppejä vastaanotetusta materiaalista: relaatiodatabaset kertomuksista käännetään paikallisesti niin, että presentaatio ei ole sarjallinen, vaan rinnakkainen.
Käytössä individualisoitu sanomalehti luodaan ajoittain uudelleen käyttämällä joukkoa tietojenkäsittely-agentteja, jotka jäljittelevät niitä toimintoja, joita reportterit ja taittajat suorittavat luodessaan painettua lehteä. Agentit skannaavat vastaanotettavaa ja varastoitua uutismateriaalia tiettyjen "artikkelinimikkeiden" alle, joiden on oletettu kiinnostavan lukijoita. Yleisesti, kuten useimmissa database-hauissa, löydetään useampia artikkeleita, joista on mahdollista esittää; siksi agenttien työn olennaisin osa koostuu erityisen painoarvon omaavien artikkelinimien esittämisestä etusivulla. Tämän vuoksi on kiinnitetty erityistä huomiota tämän sivun taitolliseen asuun, jotta artikkelien valinta olisi helppoa.
Alunperin agentit valittiin käyttämällä sellaisia avainsanoja (keywords), joilla tiedettiin olevat lukijan kannalta mielenkiintoarvoa. Käytimme mallia, jonka Nexis on luonut, jossa kaikki niistä kertomuksista, joita systeemi vastaanottaa, tallennetaan invertoiduksi luetteloksi paikalliseen järjestelmään. Tämä avainsanaluettelo (dictionary) indeksoidaan kaikilla niillä sanoilla, joita ei ole määritetty "kohinaksi" (noise words); muokattaessa uutisaineistoa tämä luettelo on samalla referentiaalissa suhteessa alkuperäisiin artikkeleihin, ja siinä on kuvailevia elementtejä, jotka auttavat artikkeleiden tärkeillisyyden määrittelyssä koostettaessa niistä kokonaisuutta.
Table 1: Word Dictionary Entries
WORD: The ascii representation of the word or phrase.
WEIGHT:
The relative importance of this word, calculated from the fields
described below.
TIME 1: A timestamp of story most recently access to the data base
which incorporated this word or phrase.
TIME 2: A timestamp of
story most recently access from the data base which incorporated this
word or phrase.
COUNT: The number of occurrences of this word.
FLAGS: An
indication of special occurrences: headline, byline, dateline, first
paragraph, search keyword, most frequent word.
LINK: A symbolic link to any synonyms.
LIST: A list pointers to
each story, picture or sound where the word occurs.
Tämän avainsanaston avulla on mahdollista skannata kertomuksia, ja laskea niiden mielenkiintoarvo lukijalle, mikä riippuu artikkelin ajankohtaisuudesta ja niiden keskeisyysarvoista. Kun artikkelien keskeisyydet on laskettu, on niiden kategoriat määrätty. Mikäli kertomus tärkeistyy etusivulle, tämä kategoria määrää sen, mille sivun palstalle se asettuu. Nykyisessä ohjelmasovelluksessa kertomukset ovat topikaalisesti suhteutettu toisiinsa, ja siksi materiaalinvalinta perustuu siihen, mistä lähteestä se on peräisin. Palstoista mainittakoon teknisiä,- poliittisia,- lainsäädännöllisiä, ja populaareja teemakokonaisuuksia kokoavat kategoriat. Aineiston valikointi riippuu myös, millaisessa lehdessä tai lukemistossa ne on alunperin julkaistu.
Kun artikkelienvalinta jokaiselle palstalle on tehty, määrää presentaationmuokkain sen, miten ne taitetaan. Etusivun taittotapa ohjautuu seuraavien sääntöjen mukaan:
* Palstat pysyvät samoissa kohdin päivästä
päivään. Palstan järjestyminen määritellään
suunniteltaessa systeemiä, ja se jää sellaiseksi
jatkossakin. Siten aivan kuten tavanomaisessa sanomalehdessäkin
samantyyppiset artikkelit asettuvat samalle alueelle,
* palstojen
koot vaihtelevat riippuen siitä, kuinka paljon tärkeitä
artikkeleita on saatavilla annetuissa kategorioissa. Mikäli
artikkeleita on vähän tietyllä palstalla, kutistuu se
suhteessa toisiin palstoihin.
Lehden sisällöstä esimerkkinä olkoon arkkitypaalisesti sivu 14. Kun kertomus jatkuu sivulta sivulle, se jatkuu täyden sivun eräänä palstana. Sivun vasemmassa reunassa esitetään siihen suhteessa olevat kuvat, kuten kartat, liitetiedostot, ja filmit. Lehden lukija voi käyttää näitä tarpeidensa mukaisesti hyväkseen. Sivun oikeassa reunassa esitetään luettavaa kertomusta tukevat ja sitä täydetävät kertomukset. Aivan kuten tavanomaisessa sanomalehdessäkin ovat toisiaan tukevat kertomukset samalla aukeamalla. Korrelaatiotaulun avulla on mahdollista saada näyttöön myös niitä kertomuksia, joilla on yhteyttä esitettyyn kertomukseen.
Table 5: Correlation Table
STORY: A pointer to story.
WEIGHT: A relative correlation
between each of the stories. This is calculated from the Story
Entries Table 2.
Table 2: Story Entries
WEIGHT: The relative importance of this story, calculated from the
field described below.
SOURCE: The source of this story, e.g. NY
Times.
SECTION: The section in source for this history, e.g.
Sports.
HEADLINE: The headline of this story.
BYLINE: The byline of this story.
DATELINE: The dateline of
this story.
WORD: A list of pointers into the word dictionary from which this
story is reconstructed.
PICTURE: A list of illustrations
associated with this story.
TIME 1: A timestamp from when this story was entered into the
database.
TIME 2: A timestamp from when this story was accessed.
ARCHIVE: A fralg indicating that story has been archived to
optical storage.
FREQUENT: A list of pointers to most frequently
occurring words in this story.
KEYWORD: A list of pointers to search keywords which caused this story to be added to the database.
Lehti esitetään etusivun iskulauseilla painettuna suurikokoisin kirjaimin. Palstalla on pääotsikko, joka on topikaalinen referentiaalinen parametri, ja siten avainsana. Se voi olla tekninen, poliittinen, tai jokin muu. Näyttöön ei kerrallaan mahdu kaikkea, ja haluttujen teemojen saamisessa näyttöön voidaan käyttää kahta tapaa. Toisaalta voidaan esittää skemaattinen kokonaisnäyttö, jossa itse tekstejä ei voida lukea, mutta niiden yleiset kokosuhteet, ja asu ovat hahmotettavissa. Toisaalta kokosivun pienempää osiota voidaan kelata näyttöruudulla, ja hakea siten haluttua otsikkoa.
figure 1.
Otikonvalinta näyttöruudulta tapahtuu koskettamalla haluttua kohtaa ruudulla, joka sensitivioituna reagoi kosketukseen. Näytössä näkyvän sivun kokosiirto kuvaruudulla suoritetaan aloittamalla koskettava liike kuvaruudulla sen nurkasta, jolloin näyttöön ilmaantuu toisia osia koko sivusta. Jokaisella palstalla artikkelin alkuosa on palstaladottu; pystysuoran suunnan kosketusliike siirtää luettavaksi muuta osaa luettavaa artikkelia, joka tällöin yksin liikkuu omana kaistanaan muun osan sivua pysyessä liikkumattomana. Tällöin luettavaa artikkelia voidaan verrata viereisten palstojen artikkeleihin.
figure 2.
Luettavan artikkelipalstan poikki tehty liike vierittää muita palstoja eteenpäin. Haluttaessa voidaan helposti siirtyä lukemaan niitä, ja jättää luettavana ollut palsta silleen. Jokaisen artikkelin sisällä kosketetaessa mitä tahansa kirjainta tai lausetta erikseen voidaan mitata sitä, missä määrin sitä esiintyy muissa artikkeleissa, joita etusivulle on valikoitu. Mikäli esimerkiksi tietty sana esiintyy muissa artikkeleissa, se korostuu muista sanoista erottuvaksi, ja luo artikkelienvälisen kytkennän. Mikäli sanaa ei löydy muista artikkeleista, vaan ainoastaan luettavasta artikkelista sen jossakin toisessa kohdassa, korostuvat luettavan artikkelin palstan reunat näytön taustasta. Tällainen malli on suunniteltu havainnollistamaan sitä, miten päivän lehteä luetaan ilman, että lähettäjä vaikuttaa asiaan (undirected manner); artikkeleja ei välttämättä lueta peräkkäin niin kuin ne on tavanomaisessa sanomalehdessä ladotut, vaan poimimalla luettavaa aineistoa sieltä, ja täältä (huomattakoon, että näyttöön voidaan saada aineistoa myös pitemmältä ajanjaksolta sen liittyessä luettaviin artikkeleihin, suom. huom.)
Muokkaajat ja agetit NewsPeek -järjestelmässä eivät ole inerttejä, vaan reaktiivisia niin julkaisijain kuin lukijainkin suuntaan. Lukija asettaa mielenkiintonsa kohteet määrittämällä haluamiaan otsikkokokonaisuuksia.
Table 4: Transaction Entries
STORY: The story being accessed.
WORD: A significant word or
phrase. This field is used only when access is by directed search.
TIME: A timestamp of access.
FLAGS: An indication as to whether
access was from front page, related story or archive.
Henkilökohtaisten elektronisten postilaatikoiden ja paikallisten databasejen käyttö sanomalehden materiaalina liittyy persoonallisen kirjeenvaihdon arvostukseen, ja voi olla muokkaimen vastaaottamana aineistona. Inhimilliset lähetetyn datan muokkaajat ovat myös tärkeitä. Kustantaja voi vaikuttaa siihen, minkälainen aineisto voisi olla kiinnostavaa valikoimalla johtavia etusivun juttuja luokittelemalla tiettyjä artikkeleita "tärkeiksi tapauksiksi".
Sen jälkeen kun alustava työstöprofiili on luotu, jokainen lukutapahtuma muuntaa sitä mielenkiinnon suuntaumia toteuttamaan.
Table 6: Search Etries
DATABASE: The name of database to be search, e.g. NEXIS.
LIBRARY: The name of library to be searched, e.g. Wire
Services.
WORDLIST: A list of search keywords, separated by
booleans.
TIME 1: A timestamp of most recent search.
TIME 2: A timestamp
of most recent addition to the database.
Sanat ja lauseet sanaluettelossa, joita lukija artikkeleista osoittaa, lisätään hakusanaketjuihin. Avainsanat, jotka eivät kytkeydy niihin artikkeleihin, joita luetaan, poistetaan. Niin hakusanojen profiili vähitellen adaptoituu lukijan intressien mukaiseksi; lukija kirjaimellisesti esiohjelmoi seuraavaksi lukemiensa lehtipainosten luonnetta, ja tapaa, millä muokkain artikkeleita valikoi. Niinpä lehden sisällöllinen olemus on tulevien painotusalueidensa suhteen tietyllä tavoin määrittelemätön ja avoin.
Eräs seuraus informaationprosessoinnista, jonka lähdeaineistona on toisistaan olennaisesti poikkeavia lähemateriaalityyppejä, on hälventämässä osaltaan niiden välillä aiemmin vallinnutta eroa. NewsPeek -ohjelmassa televisiota käytetään sanomalehden lukemiseen; Network Plus [3] varastoi paikallisesti lähetettyjä televisio-ohjelmia niin, että niitä voidaan liittää synteettisesti persoonalliseen sanomalehteen. Käytännössä tallennettaessa lähetettyjä televisio-ohjelmia niitä skannataan samoin agentein, jotka luovat NewsPeek -sanomalehteä sitä luettaessa. Ne artikkelit, josta ovat korrelatiivisessa suhteessa lähetettyjen televisio-ohjelmien teemoihin, voidaan löytää, ja esittää omalla palstallaan persoonallisessa sanomalehdessä. Halutut kuvat televisiolähetyksistä voidaan tallentaa omiksi tiedostoikseen. Tuloksena on database, josta voidaan tulostaa printtattu traskriptio välittömästi ohjelman päätyttyä, vaikka lehden lukemisen aikana siitä onkin ollut näkyvissä vain lyhyt abstrakti. Lisäksi voidaan juuri tavoitettua lähetystä katsoa sellaisenaan, ilman, että sitä vedostettaisiin.
figure 3.
Tällä hetkellä tutkimuksen kohteena on etupäässä puheen analyysi, ja tavoitteena on käyttää intonaatiota ja painotuksia valikoitaessa sitä, millaista informaatiota ensisijaisesti varastoidaan. Tällaista vapausastetta ei ole painetuissa teksteissä, eikä sitä voida toteuttaa traditionaalisissa databaseen nojautuvissa järjestelmissä.
Tässä luvussa kuvaamme joitakin osoita tutkimusohjelmasta, jolla luodaan kuvien sekvensseille, joiden tuloksena on liikkuva kuva, digitaalinen representaatio. Ohjelman päämääränä on tehdä elokuvista tietokoneen kannalta "ymmärrettäviä". Tällä tarkoitamme, että
1. ne tallennetaan niin, että persoonalliset tietokoneet
voivat niitä tulkita, ja että
2. representaation taso on
sellainen, että elokuvaa voidaan manipuloidan korkeamman tason
komennoilla niin, että siitä muokataan
tapahtumakokonaisuuksien elementtejä (on scene elements)
pikemminkin kuin kuvan elementtejä tai yksittäisiä
kuvaruutuja, ja että
3. kontrollirakenne toimii varioiden
joitakin elokuvan aspekteja samalla kun elokuva etenee näytössä.
Merkittävä komponentti ohjelmasta on ohjattu varastoimaan filmiä täysimittaisena digitaaliselle audiolevylle, ja tulemme kehittämään edelleen tätä erityistä sovellusta. Compact disk on malli mille tahansa digitaaliselle kanavalle. On myös tulossa sovelteita, jotka hyödyntävät digitaalista ääninauhaa ja digitaalisia puhelinkanavia.
On mahdollista digitoida NTSC videosignaalia ilman kompressiota lähetyksen alkuperäisellä tasolla käyttämällä kahdeksanbittistä kvantisoijaa, joka toimii kolme kertaa värisignaalin kantoaallon tasolla, arviolta noin 10,7 megaheziä, bittinopeus 85 megabittiä sekunnissa. Tämä on hieman vähemmän kuin kuusikymmentä kertaa kertaa kompaktin audiolevyn bittinopeus. Toisaalta on osoitettu demonstratiiviisesti (teleconferencing video systems) voitavan käyttää bittinopeuksia 1.5 megabittiä sekunnissa. Kuitenkin kuva huononee jos siinä havaituksi tuleva liike on hyvin nopeaa, ja optimointi tehdään perustaen tehtyyn otaksumaan kuvan sisällöstä ja rajoista representoitavassa liikkeessä. Hitaasti liikkuvat kasvot ovat tavanomaisin kohdekuva, ja joissakin systeemeissä huulten liikkeiden synkronointi on vaikeaa kohdentaa.
Koska levy on julkaisumekanismi, joka masteroidaan kerran, vaikka esitetäänkin useita kertoja, voi enkoodaus olla mutkikasta. Dekoodausprosessin on oltava yksinkertainen. Prosessoinnin termein, ei enkoodausksen algoritmin tarvitse operoida reaaliajassa, ja se voi olla intensiivisten tietojenkäsittelyoperaatioiden kohteena. Tämä on vastakohtana videokoodaukselle, jota käytetään televisiolähetyksissä, tai telekommunikaation enkoodauksessa, joissa kummassakin tapauksessa enkooderin ja dekooderin on toimittava reaaliajassa, ja joissa koodauksen on tapahduttava jo signaalia luotaessa, ja sitä vastaanotettaessa. Julkaisuympäristössä vain dekooderin on oltava tällä tavoin optimoitu, jotta sitä voitaisiin laajasti käyttää. Kutsumme tällaista koodauksen muotoa asymmetriseksi, koska enkooderi ja dekooderi eivät ole yhtä komplekseja.
Toinen eroavaisuus tavanomaisen videokompressoinnin ja aineiston syöttö tallenteista eroaa kanavankäytön tavasta. Elävässä videokoodauksessa kuvaruudut on enkoodattava ja dekoodattava lennossa, joista jokainen on optimoitu käytetylle taajuudelle. Elokuvien esityksessä ei verkkokanavakapasiteettia ylitetä; välitön kanavan kapasiteetti voi ylittyä tarkasteltaessa dekooderissa elokuvan vielä esittämättömiä jaksoja. Hinta tästä on dekooderin tarvitsema lisämuistitila. Samoin on, kun elokuva enkoodataan, sillä koko kuvien sekvenssi on käytettävissä enkoodaukseen. Siten mahdollistuu prosessoida "globaalisesti" elokuvaa. Esimerkki tällaisesta enkoodauksesta on se, kun koodataan kaikki visuaalisesti toisiaan muistuttavat kokonaisuudet (scenes) yhteen, ja tuotetaan niistä liukuva kuvien jono (re-shuffling) näyttöön.
Kuvien, joita tallennetaan levylle, otaksutaan olevan osia kuvien muodostamasta sekvenssistä. Ninpä on tärkeää erottaa toisistaan yhden tunnin mittainen elävien liikkeiden sarja ja 108 000:n yksittäisen televisiokuvan muodostama joukko. Se, että on mahdollista tallentaa edellämainittu, ei vielä viittaa siihen, että se sisältäisi jälkimmäisen. Kuten kuvattu ohjelman yhteydessä, ei CD ole neljän tuuman videolevy, vaan se on elokuvien medium. Kuitenkin pyrittäessä pienempään kapasiteettiin on tosiasia, että kuva on digitaalinen, ja sitä voidaan käyttää useita kertoja niin, että siitä muovataan uusia versioita uusiin käyttöihin. Toisin sanoen on järkevää otaksua olevan tarvetta siihen, että voidaan valita levyltä jokin "kuvaruutu". CD ei välttämättä varastoi kuvaruutuja sellaisenaan, vaan se sisältää tarpeellisen databasen, jolla yksi tai useampia kuvaruutuja voidaan luoda.
Tärkeää työllemme on se tosiasia, että digitaalinen kuva on saatavilla niin, että se voidaan kääntää printtimedialle ilman, että kuvaa olisi sinällään tarpeen prosessoida, mikä on tavallista videoprinttauksessa. Synteettinen mustavalkokuvan tuottaminen paperille, jota useimmissa kuvantulostimissa käytetään voidaan ohittaa kokonaan digitaalisella ohjauksessa korkealaatuisella resoluutiolla alkuperäisen kaltaisena; se ei ole NTSC -kopio. Myöskin systeemi voi käyttää ruutujenvälistä korrelaatiota derivoidakseen soveltuvan masterin, joka printataan, eikä siten yksinkertaisesti vain printtaa yhtä ruutua.
Useita eri lähetymistapoja digitaaliseen kuvien sinällään enkoodaukseen on tutkittu. Joidenkin niistä parametreja kuvataan seuraavassa.
Vektorikvantisointi on enkoodaussysteemi, joka soveltuu hyvin tähän erityiseen ongelmaan. Enkoodausprosessi on tietojenkäsittelyllisesti intensiivinen, kasvaa eksponentiaalisesti kuvan koon suuretessa, mikäli optimisointia ei ole suoritettu; se vaatii melko yksinkertaisen "table-lookup" enkoodauksen. Vektorikvantosoija toimii enkoodaamalla ryhmittäin signaalielementtejä niin kuin ne olisivat yksittäisiä, monidimensionaalisia vektoreita. Kompressio saavutetaan asettamalla vektorin paikalle koodisana, tai otsikko [7], joiden määrä ei ylitä suurinta mahdollista vektoreiden lukumäärää. Dekoodaus sisältää koodisanan katsomisen taulusta, ja sen asettumisen vekoriksi, joka aproksimoi alkuperäisen elementtiryhmän [8]. Kompressio saadaan aikaan käyttämällä pienempää vektorien määrää kuin mitä niitä maksimaalisesti voi olla olemassa. Tekniikka toimii hyvin yhdistyneenä input-signaalin todennäköisyystiheysfunktioon, joka on sekä "non-uniform", ja joka ei ole erillään mistään koodatuista dimensiosta. Kun dimensiot ovat lineaarisesti toisistaan riippumattomia, niin kooderi voi toimia kuten prediktiiviset kooderit. Aikaisemmin vektorikvantisoijia hyödynnettiin menestyksellä puheeseen ja liikkumattomiin värikuviin. [9,7,10] Sen ansiot juontuvat sen statistisesta tehokkuudesta, ja sen virhetoiminnot potentiaalisista virhesuhteutuksista (mismatchings), mikä on statistisessa mielessä tärkeää, ja mikä taas visuaaliselta kannalta merkityksellistä. Psykofysiologiset parannukset vektorikoodereissa ovat olleet työmme eräitä komponentteja. Esimerkiksi Architecture Machine Group kehitti 1970 -luvun keskivaiheilla adaptiivisen värienkoodausalgoritmin, jonka Heckbert [12] julkaisi. Tässä algoritmissa värit, kuten punainen, vihreä ja sininen koodattiin ryhmänä, eikä niin, että ne erillisinä muodostaisivat kuvan. Histogrammi tehtiin suosituimmista väreistä jossakin erityisessä kuvassa, ja erotetuista joukoista tuotettiin kolmiulotteinen koordinaatisto, joissa koordinaattien määrä määriytyi erilaisten algoritmien mukaan rajoitetuiksi joukoiksi värejä, jotka edustivat tätä tiettyä kuvaa. Kun kuva eritellään histogammin luontia varten, muotouttavat valitut joukot (samples) eräänlaisen harjoitusjoukon, joka määrää sen koodikirjan, jota käytetään kuvan muissakin osissa. Kun jokaiselle kuvalle on oma koodikirjansa, on systeemi adaptiivinen. Olemme myös tutkineet muita samantapaisia systeemejä, joissa koodikirjaa kyetään hyödyntämään. Tällainen algoritmi antaa mielekkäitä tuloksia verrattuna menetelmään, jossa väriakseleita enkoodataan erillään toisistaan. Mikä tahansa kuva sisältää sekä tummia, että vaaleampia varjoja, mutta vain harvoin on niin, että samantapainen värien jakauma pätee koko kuvien joukkoon. Suurempaa kooditiheyttä käytetään jonkin erityisen kuvankohdan väritilassa. Mikäli kuvan värit ovat lähes olemattomat, niin tällöin tuollaisten kuvien köyhään väritilaan voidaan lisätä tonaalista vaihtelua korvaamalla joitakin sävyjä harvemmin käytetyillä sävyillä. Eräs lähetysmistapa tällaisessa tapauksessa on se, että kolmielementtinen neliöalue kolmessa peräkkäisessä kuvaruudussa koodataan ryhmänä tuottamalla 27 dimensionaalinen avaruus, joka voi sisältää 2 potenssiin 27 arvoa. Koodikirjaa, joka jakaa tällaisen avaruuden käsiteltävämpään muotoon 4-16K tutkitaan parhaillaan. Adaptiivinen koodikirja joidenkin kokonaisuuksien entistämistä varten on tutkimuksen kohteena, jotta voitaisiin laajentaa sellaisten erityisten koodien hyödynnettävyyttä, jotka tuottaisivat takaisin derivoiduista kokonaisuuksista niiden alkuperäisen muodon. Eräässä tapauksessa elokuva järjestetään uudelleen niin, että samantapaiset tapahtumakokonaisuudet (scenes) jäsennetään samaan tauluun. Alkuperäinen järjestys tallennetaan myöhemmin, mutta siitä poikkeavalla koodikirjalla käsitellään jokaista erillistä tapahtumakokonaisuutta.
figure 4.
Tätä voidaan laajentaa koodittamaan erillisiä objekteja kuvajaksoissa käyttämällä vektorikvantisoijaa vaihtoehtoisena kuvarepresentaatioformaattina kuvaan itseensä. Erityinen tapa jolla tila voidaan polulatioida voi paljastaa kuvanominaisuuksia, jotka voivat ohjata muita koodauskseemoja, ja potentiaalisesti tehdä erotteluja kuvan eri entiteettien välillä. Esimerkiksi ne kuvan komponentit, jotka eivät liiku muodostavat erillisen alueensa vektoriavaruudessa verrattuna liikkuvien komponenttien vektoriavaruuteen. Kuvattaessa kameralla sen liikkeet voivat siirtää jakaumia, kuten myös valaistuksen muutokset. Tämä mahdollistaa tapahtumakokonaisuuden jäsentelyn individuaaleiksi objekteiksi ja skriptausparametreiksi.
Toinen koeasetelma liittyy kuvien sekvensissä esiintyvän liikkeen koodaukseen syntetisoimalla ehdokkaaksi kolmidimensionaalinen database, josta kuva voidaan derivoida. Tämä database kontrolloi sitten ehdolla olevaa muuttunutta tapahtumakokonaisuutta (scene), minkä prosessori "valokuvaa", ja jota verrataan myöhempiin aktuaalisiin tapahtumakokonaisuuden kuvaruutuihin. Jos kolmidimensionaalisen databasen estimaatti on oikea, ja siirto hyväksyttävissä, niin myös tapahtumakokonaisuudessa esiintyvät objektien liikkeet ovat myös ennustettavissa. Laajemmassa merkityksessä on tällainen lähestymistapa ekvivalentti siihen, kun ratkaistaan koneellista visioinnin ongelmaa. On määriteltävä niin objektit kuin niiden tekemät liikkeetkin. Yleisesti todettakoon, että tällaista ei ole mahdollista tehdä. Jonkinlaista menestystä on kuitenkin saavutettu käsiteltäessä tapahtumakokonaisuudessa esiintyviä liikkumattomia hahmoja [13]. Optimointi voidaan tehdä myös niin, että merkitään käsin tiettyjä objekteja tapahtumakokonaisuudessa, tai käyttämällä kameraa, jolla kuvaan lisätään syvyysinformaatiota kuvan tueksi. Työn alla on sentapaisen kameran kehittäminen.
Esitellyt kaksi näennäisen toisistaan erillistä ohjelmaa suuntautuvat kohti samaa päämäärää: kuinka me voimme käyttää tietojenkäsittelyä korkean taajuuskaistan kanavilla kotioloissa, jonka kautta voidaan tarjota uudenlaista informaatiota ja kokeilun mahdollisuuksia. Tutkimuksemme toinen osa keskittyy uutissaantiin, ja vaatii lukijalta aktiivista osallistumista; toinen osa taas omistautuu kuvallisten esitysten luomiseen. Tosiasiassa ne ovat saman teeman kaksi eri näkökulmaa. Syvempi kysymys on se, kuinka media voi potentiaalisesti kehittyä, kun jotkut sen teknisistä prinsiipeistä perustuvat muutokseen. Voimme väittää lähetysten itsensä olevan derivoituja välineiden rajoitteista vuosisadan alkupuolelta. Vastaanottimien hinta oli riittävän korkea, jotta niiden kohdalla voitiin tietyt ominaisuudet jättää pois juuri hinnan vuoksi; hinta määräsi sen, millaiseksi niiden toiminnan eräät piirteet muodostuivat. Samalla tavoin voi sanoa kanavienvalinnassa hinnan määränneen sitä, ettei kuvanlaatu muodostunut korkeimmantasoiseksi. Kuitenkin, kun tietojenkäsittely ja korkeammat taajuusalueet tulivat halvemmiksi, tuli mahdolliseksi myös lisätä informaation määrää systeemeissä; niiden muodot ja ilmentymät voivat muuttaa ne aiemmista lähetysjärjestelmistä persoonallisiksi ja individuaalisiksi vuorovaikutuskentiksi. Olemme välttäneet yrittämästä puolustaa prosessoinnin relatiivista arvoa niin vastaanotossa kuin kanavapapasiteetissa, koska emme näe korkeampien taajuusalueiden käytöllä olevan merkitystä informaation koodaukseen kannalta sinällään. Koodauksen tarkoituksena on ollut tuottaa representaatio sellaiseen muotoon, että käyttäjä voi sitä muokata. Se, että käyttämämme tapa säästää lähetystaajuudessa on pelkkä korollaari, ei päämäärä. Ero matalilla ja korkeilla taajuusalueilla on niiden käytöllisen välittömyyden asteessa. Sanomalehti voidaan tuottaa julkaisuksi 50 megabitin kanavilla, mutta sen saanti käsittelyyn nykyisiä puhelinlinjoja myöten kestää pidempään.
[1] Gitta Salomon Design and Imprementation of An Electronic Special Interest Magazine. MIT MSVS Thesis September 1986.
[2] Aya Konishi Auto-Cassette: Automatic Clipping Service for TV News, MIT Media. Laboratory BSCS Thesis June 1986.
[3] Pascal Chesnais Network Plus. Media Lab Memo June 1986.
[4] Judith Donath The Electronic Newstand: Design of an Intelligent Interface to a Variety of New Sources in Several Media. MIT MSVS Thesis September 1986.
[5] Walid Hamdy Hardware Implementation of Dynamic Video in Personal Computers. MIT BCCS Thesis June 1986.
[6] Uri Feldman Image Compression using Vector Quantitization. Media Laboratory Research report, December 1985.
[7] Goldberg and Sun Image Sequence Coding using Vector Quantitization, IEEE Transaction on Communications, forthcoming.
[8] Gray vector Quantitization, IEEE ASSP Magazine, April 1984.
[9] Makhoul et al Vector Quantitization in Speech Coding, Proceedings of IEEE, November 1985.
[10] Budge and baker Compression of Color Digital Images Using Vector Quantitization in Product Codes, IEEE 1985.
[11] Internal Architecture Machine Group Memo.
[12] Heckbert Adaptive Color Image Coding, ACM-SIGGRAPH.
[13] Netravali and Sals Algorithm for Estimation of Three Dimensional Motion, Netravali and Salz, AT&T Technical Journal, Febryary 1985.
[14] V.M. Bove Imaging With A Range Camera, 1986, MIT Media Laboratory Report, Electronic Publishing Group.
Andrew B. Lippman is Associate Director of MIT's Media laboratory. He is currently Director of the Electronic Publishing Group within the lab and is principle investigator of a new research program adressing the "Future of the Movies". This program focuses on the intelligent interaction between computing and sequential visual images.
Since 1978, Walter R. Bender has been a member of the Architecture Machine Group at MIT, where he received his M.S. in 1980. Bender is currently a Principle Research Scientist at MIT Media Laboratory. He is Associate Director of the Electronic Publishing Group, and its Principle Investigator of the Personal Computing Program.
The Media
Laboratory
Massachusetts Institute of Technology
Cambridge, MA
02139