View Gyula Kalcsó's profile on LinkedIn

I use TEI

Legújabb hozzászólások

2013. július 26.

DiXiT-ösztöndíjak

Aki követi a TEI-levelezőlistát, július 19-én értesülhetett arról, hogy a digitális kritikai kiadásokkal foglalkozó szakemberek képzését célul kitűző Digital Scholarly Editions Initial Training Network (DiXiT) töbmilliós uniós pályázati pénzt nyert továbbképzések támogatására. (A magyar terminológiában hálózati kritikai kiadás kifejezéssel is lehet találkozni, a szervezet nevében a digitális jelző szerepel, ám lényegében ugyanarról van szó.)

Először magáról a szervezetről. A DiXiT-et az Európai Bizottság Marie Curie Actions elnevezésű kutatás-fejlesztési ösztöndíjprogramja keretében hozták létre néhány hónappal ezelőtt. A Marie Curie Actions a Bizottság 7. keretprogramjának részeként működik, amely a kutatás-fejlesztés támogatására jött létre. A pályázati időszak 2013 szeptemberétől 2017 augusztusági tart.

A projektben három fő területen terveznek továbbképzési ösztöndíjakat. Az első a "koncepciók, elmélet és gyakorlat" munkacímet viseli. Ennek keretében szeretnék feltérképezni a digitális kritikai kiadás létező gyakorlatát, a különböző eljárásokat, technikákat, valamint fontos elméleti kérdéseket tisztázni (pl. hogy egyéltalán mi is a célja a digitális kiadásnak, miben nyújt mást, többet, mint a hagyományos). A második fő terület a "technológia, standardok, szoftver" címmel elsősorban a TEI mint standard alkalmazására koncentrál. A célok között szerepel a TEI és más létező standardok közötti interoperabilitás kialakítása is. A harmadik fő terület a "tudomány, kulturális örökség, társadalom" munkacímmel a tudomány, valamint a kulturális örökség gondozásával foglalkozó szervezetek által létrehozott archívumok fejlesztési lehetőségeivel, publikálási standardok kialakításával foglalkozik majd elsősorban.

A teljes program a három területnek megfelelő továbbképzési alkalmakból és konferenciákból áll majd. A részvételre két kategóriában lehet pályázni: fiatal kutatóként (elsősorban PhD-hallgatóként) 12 ösztöndíjra, amely 3 évre szól, valamint posztdoktorként 5 ösztöndíjra, amely 12–20 hónapra szól. Minden ösztöndíjas egy mentor irányításával dolgozik majd különböző területeken.

A programnyitó találkozó szeptember 30-án és október 1-jén lesz a római La Sapienza Egyetemen.

A program remélhetőleg lendületet ad az európai digitális kritikai kiadás elméleti és gyakorlati kutatásának, valamint a TEI mint standard szélesebb körű alkalmazásának.

Kalcsó Gyula jegyezte be, 14:17-kor.

Címkék: TEI DiXiT

Szólj hozzá!

2013. június 16.

TEI-bibliográfia

Az előző posztomban James Cummings tutorialjának ismertetésébe kezdtem. Ebben viszont – ha lehet ilyet mondani – még alapvetőbb forrásra szeretném felhívni a figyelmet. A közelmúltban (május 14-én) frissült a TEI alapbibliográfiája. Ez a gyűjtemény két dolog miatt nagyon fontos: a TEI-közösség felügyeli, ez garanciát jelent arra, hogy releváns és megbízható források kerüljenek bele, másrészt pedig tematizálva csoportosítja a legalapvetőbb olvasnialókat. A legbővebb (77 tételből álló) rész természetesen a jelölőnyelvek és az XML elméletével kapcsolatos alapvető publikációkat tartalmazza. Anélkül, hogy ebből konkrét tételeket kiemelnék, csak felhívom a figyelmet arra, hogy több cikk szerepel a blogom ajánlóblokkjában is szereplő A Companion to Digital Humanities c. elektronikus bevezető tankönyvből. A második rész (meglepően kevés, 4 tétel) ezek alkalmazásával foglalkozik. Furcsa, hogy a feltüntetett tételek nem is tűnnek annyira relevánsnak, reméljük, hogy a jövőben ez változni fog. A harmadik rész (48 tétel) a TEI-vel foglalkozik. Ez a rész inkább az általánosabb tájékozódást szolgálja, és nem is annyira a TEI-kódolásra, hanem inkább a konzorcium történetére, valamint az általánosabb alapelvekre koncentrál. A következő részbe a TEI alkalmazásával kapcsolatos két forrás került. Ez ismét meglepően kevésnek tűnik. A bibliográfia összeállítói talán inkább arra törekedtek, hogy egyrészt általánosabb képet nyújtsanak, másrészt hogy a teljesen kezdők által is érthető tételek kerüljenek ebbe a gyűjteménybe. A TEI lokalizációjával kapcsolatos egyetlen tételnek is ez lehet a magyarázata. Az ontológiákkal kapcsolatos záró résznek viszont már a létezése is meglepő, ugyanis a téma egyáltalán nem tartozik a kezdő TEI-seknek ajánlható olvasmányok közé. Összességében a TEI-alapbibliográfia kicsit esetlegesnek, ötletszerűen összeállítottnak tűnik, azonban még így is fontos kiindulópontja lehet elsősorban azoknak, akik éppen elkezdtek ismerkedni a TEI-vel.

2013. március 23.

Tanulj TEI-t! (1. rész)

Nagyon fontosak és hasznosak azok a blogbejegyzések, amelyekben egy terület elismert szakértője abban kalauzolja el az érdeklődőket, hogy milyen módon tudják beleásni magukat a témába, hogyan indulhatnak el az önképzés útján, milyen forrásokat érdemes felhasználniuk stb. Elindítok ezzel a poszttal egy olyan bejegyzéssorozatot, amely a TEI P5 megismerésében irányítja az olvasót. Nem akarok idegen tollakkal ékeskedni: a sorozat szerzője James Cummings, aki a blogjában még 2012 márciusában indított egy TEI P5-tutorialt. Az ő posztjait ültetem át a blogomba kisebb módosításokkal.

Mindenekelőtt az Oxfordi Egyetem digitális bölcsészeti központjának nyári egyetemét ajánlja, amelynek keretében nyilván hatékonyan és intenzíven lehet TEI-t (és más DH-s dolgokat) tanulni. De mit tegyen az, akinek nincs ideje (pénze) nyári egyetemre menni?

A TEI megértéséhez elengedhetetlenül fontosak a kódolási alapismeretek. Ismerni kell mindenekelőtt a HTML-t és az XML-t. Ezek tanulmányozására Cummings a következő oldalakat ajánlja:

Az utóbbi egy nagyon szellemes videó, amely a kódolás (markup) alapfogalmait illusztrálja.

A fenti források elolvasása után rögtön önálló kísérletezést javasol az XML-lel, amihez szükségünk lesz egy XML-szerkesztőre. A legjobb minden kétséget kizáróan az oXygen, ez azonban nem ingyenes program. Véleményem szerint a kezdeti kísérletezéshez megteszi valamilyen ingyenes eszköz, egy dolog fontos azonban: képesnek kell lennie a validálásra (azaz a létrehozott XML-dokumentum érvényességének az ellenőrzésére). Elég sok választási lehetőségünk van, érdemes áttekinteni az összahasonlításokat. (Én az XML Copy Editort ajánlom.)

Ezután keresnünk kell egy rövidebb (kb. egyoldalas) szöveget, amelyhez hasonlóval foglalkozni szeretnénk. Föntről lefelé haladva kell végighaladnunk a szöveg strukturális jellemzőin: listáznunk kell azokat a szövegegységeket, amelyeket meg szeretnénk jelölni. Érdemes ezenkívül összeírnunk, hogy milyen egyéb jellemzőket szeretnénk kódolni (pl. a neveket, dátumokat, bizonyos szakszavakat, netán nyelvi elemeket, pl. végződéseket stb.).

A következő lépés érdekes: az összeállított listánk alapján az editorral készítenünk kell egy XML-fájlt, amelyben a listában szereplő jellemzőket saját kódokkal kódolnunk kell. Érdemes megfigyelni, hogy a saját kódolásnak milyen nehézségei vannak, mert ez könnyen meggyőzhet bennünket arról, hogy inkább valamilyen kidolgozott kódrendszert érdemes használnunk. Mint amilyen pl. a TEI. A következő posztban a TEI alapjairól lesz szó.

2013. március 9.

A TEI Journal negyedik száma

Megjelent a TEI Journal legújabb (negyedik) száma, amely a 2011-es TEI-konferencia legérdekesebb előadásaiból válogat.

Fotis Jannidis, Malte Rehbein és Laurent Romary szerkesztői előszava után Christian Wittern izgalmas cikke következik a TEI-fájlok publikálásáról.

Nem kevésbé izgalmas Gerrit Brüning, Katrin Henzel és Dietmar Pravida közleménye egy digitális kritikai Faust-kiadás munkálatairól.

Anne Baillot és Sabine Seifert a Humboldt Egyetemen folyó digitalizálási munkálatokat ismerteti, amelynek során az 1800 utáni porosz értelmiség leveleit és egyéb dokumentumait digitalizálják.

Matija Ogrin, Jan Jona Javoršek ésTomaž Erjavec 17–18. századi szlovén kéziratok TEI-kódolásáról és publikálásáról számol be.

Brian L. Pytlik Zillig egy XSLT-konverziós metódust mutat be, amelynek segítségével az XML-gyűjtemények egységesítését végző Abbot nevű eszköz munkamenetét lehet dokumentálni.

Számomra a legizgalmasabb cikk ebben a számban Joel Fredell, Charles Borchers és Terri Ilgen cikke, amelyben az Unicode-ban meg nem lévő karakterek TEI P5-kompatibilis kódolásáról írnak, és nem mellesleg hivatkoznak az Antikvakorpuszra!

A negyedik számot Susanne Haaf, Frank Wiegand és Alexander Geyken közleménye zárja, amely egy nagy német történelmi korpusz építése közben alkalmazott hibakeresési metódust mutat be.

2013. február 26.

DEBA-bemutató

A Debreceni Egyetem kutatóegyetemi programjának keretein belül a Nyelvtudomány, kultúratudomány és bioetika fókuszterület szervezésében kerül sor a Debreceni Bölcsészettudományi Adatbázisokat (DEBA) bemutató rendezvényre 2013. február 28-án, 13.30–15.30-ig a Debreceni Egyetem főépületében, az I. emelet, 133/2-es teremben (Debrecen, Egyetem tér 1.).

A háromrészes esemény első felében az egyes adatbázisokat ismertetik:

13.40-13.50
Emlékezethely-portál
Bemutatja: Dr. Takács Miklós egyetemi adjunktus (Magyar emlékezethelyek kutatócsoport)

13.50-14.00
G-1 Treebank (Lexikai-funkcionális grammatikai korpusz és treebank)
Bemutatja: Dr. Rákosi György egyetemi adjunktus (Lexikai-funkcionális grammatikai kutatócsoport)

14.00-14.10
Kazinczy Ferenc művei – elektronikus kritikai kiadás
Bemutatja: Dr. Bodrogi Ferenc Máté tudományos munkatárs (Textológiai kutatócsoport)

14.10-14.20
HuComTech multimodális élőnyelvi korpusz és adatbázis
Bemutatja: Szekrényes István doktorandusz (HuComTech kutatócsoport)

14.20-14.30
A magyar nyelvű Margit-legenda és latin forrásainak digitális adatbázisa
Bemutatja: Varga Teréz tudományos segédmunkatárs (Magyarországi latin nyelvű írásbeliség és klasszikus kultúra kutatócsoport).

A második részben 14.30 és 15.30 között az érdeklődők számára lehetőség nyílik a szomszédos, 133/1-es számítógépes teremben szakemberek segítségével az adatbázisok kipróbálására.

A harmadik részben (a rendezvénnyel párhuzamosan) kiállítás tekinthető meg a kutatóegyetemi projekt keretében publikált monográfiákból a 133/1-es és 133/2-es termekhez vezető első emeleti folyosón.

2013. február 22.

DH Awards 2012

James Cummings, az oxfordi egyetem neves DH-sának (nem mellesleg kiváló DH-s blog szerzője is) ötlete alapján létrejött egy új, nemzetközi díj, a Digital Humanities Awards, amelyet évente fognak kiosztani több kategóriában. Az első alkalommal február 18-án hirdették ki a 2012-es év legjobbjait. Íme:

A legjobb DH-eszköz

1. Omeka http://omeka.org/

2. Paper Machines https://github.com/chrisjr/papermachines

3. Isidore http://www.rechercheisidore.fr/

A legjobb DH-s blog, cikk vagy egyéb rövid publikáció

1. Digital Humanities Now http://digitalhumanitiesnow.org/

2. Leonardo Flores: “I ♥ E-Poetry” http://leonardoflores.net/

3. Will Self (et al.): “‘Kafka’s Wound’: Re-imagining the Literary Essay for the Digital Age” http://www.thespace.lrb.co.uk/

A legjobb vizualizáció vagy infografika

1. A Thousand Words: Advanced Visualization for the Humanities http://www.tacc.utexas.edu/tacc-projects/a-thousand-words

2. e-Diasporas Atlas http://maps.e-diasporas.fr/

3. ORBIS: The Stanford Geospatial Network Model of the Roman World http://orbis.stanford.edu/ 

A legjobb DH-s segédeszközök a DH tanulásához vagy műveléséhez

1. Digital Humanities Tool Box http://www.scoop.it/t/digital-humanities-tool-box

2. Livingstone’s 1871 Field Diary: A Multispectral Critical Edition: Project History, pages starting from http://livingstone.library.ucla.edu/1871diary/initial_history.htm

3. Bamboo DiRT http://dirt.projectbamboo.org/

A legjobb, nagy nyilvánosságnak szánt DH-s projekt

1. CEISMIC: Canterbury Earthquake Digital Archive http://www.ceismic.org.nz/

2. La Biblioteca Virtual de la Biblioteca Luis Ángel Arango http://www.banrepcultural.org/blaavirtual/indice

3. Dickens Journals Online http://www.djo.org.uk/ 

A legszórakoztatóbb DH-s dolog

1. The Future of the Past http://newspapers.wraggelabs.com/fotp/

2. DigitalNZ magic squares http://wraggelabs.com/shed/magicsquares/

3. 10 PRINT ebooks https://twitter.com/10print_ebooks

A díjazottak a nemzetközi DH-s közösség elismerésén túl használhatják a díj logóját. Azt hiszem, egyik-másik díjazott projektről lesz még szó a blogban.

2013. február 17.

Digitális diplomatikai konferencia

Néha érdemes a Digitális Bölcsészet Európai Szervezetének (The European Association for Digital Humanities, új név, 2012 nyarán változott meg, korábban The Association for Literary and Linguistic Computingként, azaz ALLC-ként volt ismert) a honlapjára látogatni, mert érdekes és fontos hírekről lehet ott értesülni. Például arról, hogy 2013 novemberében Párizsban harmadik alkalommal rendezik meg a digitális diplomatika nemzetközi konferenciáját. A középpontban természetesen továbbra is az a kérdés áll, hogy "What is diplomatics in the digital environment?", azaz Mi a diplomatika a digitális világban? A konferenciára a digitális oklevéltan jeles képviselői március 15-ig jelentkezhetnek. A korábbi müncheni (2007) és nápolyi (2011) konferenciák után az idei eseményen többek közt olyan kérdésekről lesz szó, mint hogyan változtatják meg a hagyományos forráskiadást a digitális eszközök, hogyan érdemes digitalizálni egy oklevelet (képként? szövegként? annotálva?), az oklevelek minden jelentésrétegét lehet reprezentálni digitálisan? stb. A korábbi konferenciákon készült izgalmas prezentációk megtekinthetők a linkelt honlapokon.

2013. február 15.

A TEI éves találkozója

Idén 2013. október 2–5. között a patinás római Sapienzia Egyetemen rendezik meg a TEI szokásos éves találkozóját, amely konferenciával és workshopokkal egybekötött, nagyszabású rendezvény. A felhívás a napokban jelent meg, látható belőle, hogy a témák az éves találkozókon megszokottak lesznek (nagy vonalakban: a TEI-koncepció általában, a TEI felhasználási területei, a TEI-eszközök, a TEI jövője). A jelentkezési határidő március 30.

2013. február 15.

Navigare necesse est

Blogolni pedig muszáj. A 2011 decembere óta eltelt posztmentes időszakot retrospekítv hírposztokkal fogom kitölteni, amelyek a legfontosabb DH-s eseményekről fognak szólni.

2012. február 28.

A TEI Journal második száma

2012 februárjában jelent meg a TEI saját online folyóiratának a második száma. Benne a 2010-es TEI-konferencia legérdekesebb közleményeivel:

Christian Wittern szerkesztői előszava után Marjorie Burghart és Malte Rehbein cikke következik a TEI kéziratkódolási eljárásainak stratégiai kérdéseiről. A következő cikk is a kéziratkódolásról szól: Cristina Vertan és Stefanie Reimers ismertet egy TEI-kódoláshoz kifejlesztett kéziratannotáló eszközt. A harmadik, kéziratdigitalizálással foglalkozó cikk Mohammed Ourabah Soualah és Mohamed Hassoun nevéhez fűződik, és arab szövegek TEI P5-ös kódolását taglalja.

Grant Leyton Simpson és Dot Porter cikke arról szól, hogyan lehet weben publikált, azaz eleve HTML-ben kódolt szövegekből TEI P5-ös XML-t készíteni.

Gerhard Budin, Heinrich Kabas és Karlheinz Mörth arról ír, hogyan lehet digitalizált periodikákból a lehető leghatékonyabban és nagy részletességgel metaadatokat kinyerni.

Neven Jovanović a CroALa projektet ismerteti, amelynek lényege a horvát szerzőktől származó vagy róluk írt latin szövegek korpuszának a megépítése.

Sebastian Pape, Christof Schöch és Lutz Wegner egy nagyon izgalmas keretrendszert ismertet, amely TEI-vel kódolt digitális kritikai kiadások drupalos publikálását teszi lehetővé.

  • hancing a TEI-encoded Text Collection
  • Sebastian Pape, Christof Schöch, and Lutz Wegner
    Developing a Publishing Framework for Digital Editions
- See more at: http://jtei.revues.org/367#sthash.dAB6jvAw.dpuf
- See more at: http://jtei.revues.org/367#sthash.dAB6jvAw.dpuf

2012. január 30.

Elindult a TAPAS

2012 januárjának egyik legfontosabb eseménye a TEI Archiving, Publication, and Access service (TAPAS) elindulása volt. A TEI egyik legnagyobb problémája az volt korábban, hogy a sokszor hosszú évekig tartó munka nem volt eléggé publikus, az egyes projektek egymásról sokszor mit sem tudva dolgoztak majdnem ugyanazon a problémán, nem volt egy olyan közös online felület, ahol az elért eredmények szinte napról napra közzétehetők, megoszthatók, sőt: urambocsá átalakíthatók lettek volna. Ezt a problémát hivatott orvosolni a TAPAS. A projekt már csak azért is érdekes, mert újszerűen ötvöz olyan open source megoldásokat (FEDORA, Drupal), amelyek önmagukban is nagy múltra tekintenek vissza. A TAPAS által használt  ISLANDORA nem más, mint a FEDORA (Flexible Extensible Digital Object Repository Architecture) és a Drupal sajátos ötvözete, egy digitalizált objektumokat kezelő online repozitórium.

2011. december 12.

Ingyenes online NLP-kurzus a Stanfordon

A sajnos igen hosszúra nyúlt posztmentes időszak után egy nagyszerű eseményről adhatok hírt: a Stanford University két oktatója, Dan Jurafsky és Christopher Manning ingyenes online NLP-kurzust tart 2012. január 23-tól mintegy 8 héten keresztül. Az NLP (Natural Language Processing, azaz természetesnyelv-feldolgozás) napjainkban számos nyelvtechnológiai eljárás alapját képezi. A kurzus résztvevői olyan alapvető NLP-eljárásokat tanulhatnak meg, mint a szövegek automatikus szóalakokra, mondatokra bontása, n-gram-, valamint Markov-modellekkel végrehajtott valószínűségi alapú nyelvtani elemzések, vagy a vektorteres információkinyerés.

A kurzus során a hallgatók heti 2 órányi oktatóvideót kapnak, amelyet nem kell feltétlenül élőben megtekinteniük. A videók kisebb részekre lesznek vágva, és beépített kérdéseket is tartalmaznak majd. Ellenőrző kérdéseket ezen túl is kell megoldaniuk a résztvevőknek, a megoldásról mindenki visszajelzést is kap. A kurzus részeként még heti rendszerességgel kell majd kisebb programozási feladatokat elkészíteniük a hallgatóknak. Mindezeken túl egy saját fórumon is lesz lehetőség az eszmecserére, vitára.

A szervezők a következő előismereteket feltételezik: minimális valószínűség-számítás, minimális vektorokkal, vektorterekkel kapcsolatos ismeretek, kis differenciál- és integrálszámítás, programozás (Java vagy Python). A matematikai előismereteket úgy kezelik majd, mintha az ember először alkalmazná őket, tehát feltehetőleg az ezeken a területeken kevésbé járatosak is tudják majd követni a kurzust.

A szervezők az online változatot a Stanfordon tartott órákra alapozzák, amelyek tankönyveit ajánlják az érdeklődők figyelmébe:

Jurafsky and Martin, Speech and Language Processing 2nd Edition

Manning, Schütze and Raghavan 2008

Manning and Schütze 1999

Bird, Klein and Loper 2009.

A kurzust elvégzők tanúsítványt kapnak. Remek lehetőség haladó(bb) nyelvtechnológusoknak, számítógépes nyelvészeknek.

2011. november 8.

A Digitális Kultúra és Elméletek Kutatócsoport rendezvénye a tudomány napja alkalmából

Végre hazai DH-s rendezvényről adhatok hírt! A szegedi Digitális Kultúra és Elméletek Kutatócsoport a magyar tudomány napja alkalmából a nagyközönségnek is szóló (!) rendezvényt szervez. Az eseményre 2011. november 23-án, 14 órakor az SZTE BTK kari konferenciatermében kerül sor (Szeged, Egyetem u. 2.).

További információk: http://vizkult.hu/hirek/digitalis_bolcseszet_eloadasok

Részletes program: http://digitalculture.hu/tevekenysegek/mtu/

Facebook-esemény: https://www.facebook.com/event.php?eid=206454706085808

Az esemény után kerekasztal-beszélgetés a kutatócsoport tagjaival.

2011. november 2.

Hogyan kezdjünk digitális bölcsészettel foglalkozni?

Elkezdeni valamit mindig nehéz (és gyakran folytatni is, ahogyan a blogom bejegyzéseinek a gyakorisága is mutatja *sóhaj*). A DH-ra ez Magyarországon azért is hatványozottan igaz, mert egyelőre nincsenek tankönyvek, monográfiák, amelyek kifejezetten a digitális bölcsészettel, vagy akár annak egy-egy részterületével foglalkoznának (l. pl. korábbi posztomat a korpusznyelvészeti tankönyvről). Vegyük tehát úgy, hogy angolul (minimum) olvasni muszáj annak, aki ilyesmivel akar foglalkozni. Hálistennek ezen a nyelven már sokminden hozzáférhető az interneten is.

Ebben a bejegyzésben Lisa Spiro, a texasi National Institute for Technology in Liberal Education igazgatójának a közelmúltban megjelent blogposztját ismertetem, amelyben tulajdonképpen bejegyzésem címére adja meg a választ.

Először is fontosnak tartom azt a megjegyzését, miszerint a DH-ban nagyon gyakori, hogy a művelői nem formális tanulás újtán jutottak oda, ahol vannak, hanem autodidakta módon, különböző projektekben dolgozva. Ez a jövőben talán változni fog, de még mindig úgy tűnik, hogy valaki úgy lesz DH-s, hogy: (1) bölcsész és érdekli a számítógép, vagy (2) informatikus és érdekli valamilyen bölcsészeti terület. Éppen ezek miatt is lényeges – mondja Spiro – hogy legyünk nyitottak, kísérletező kedvűek, játékosak (!), de az is, hogy a tanulás során legyen egy projekt, amelynek megvalósítása irányítja tapasztalatszerzésünket, valamint az is, hogy legyen kitől kérdeznünk.

Lisa Spiro 10 fontosabb pontban foglalja össze kezdő DH-soknak szóló javaslatait.

1. Legyen világos, hogy milyen célok és kérdések vezérelnek. A digitális bölcsészetben a technológia nem öncélú, hanem mindig valamilyen határozott cél érdekében használatos.

2. Tájékozódj a DH-ról. Javasol is néhány fontos forrást:

3. Légy része a DH-s közösségnek. Itt is ajánl néhány közösségi aktivitási lehetőséget, (bárcsak csupán a hajlandóságon múlna a részvétel):

  • a ThatCamp rendezvényeken interaktív, gyakorlatorientált workshopokon vehetünk részt Európában és az Egyesült Államokban,
  • vegyünk részt DH-konferenciákon (az általa ajánlottak közül az ADHO által szervezett éves DH konferencia kétévenként Európában van; ajánl egy DH-s konferencianaptárt is),
  • vegyünk részt egy regionális DH-projektben vagy indítsunk egyet (!),
  • támogassunk DH-s szervezeteket,
  • vegyünk részt az online DH-s közösségi életben, ajánl is néhány témaspecifikus oldalt, mint pl. a Digital Classicists, a Digital Medievalists, a HASTAC, az EighteenthCentury.org és a Romantic Circles,
  • vegyünk részt crowdsourcing projektekben, mint pl. a Transcribe Bentham, ahol az angol filozófus, Jerermy Bentham kéziratait digitalizálják a közösség tagjai,
  • írjunk kritikákat a DH-s munkákról (itt egy nálunk teljesen szokatlan online folyóiratra hívja fel a figyelmet, ahol az olvasók a megjelenés előtt kritizálhatják a cikkeket: Writing History in the Digital Age),
  • használjuk ki a netes közösségi oldalakat a DH-s kutatókkal való kapcsolattartásra,
  • olvassunk blogokat és szóljunk hozzá (itt pl. egy jó kis gyűjtemény).

4. Informálódj. Nem igazán értem, hogy ez miért külön pont, mert az itt javasoltak jórészt belefértek volna az előzőbe is. Ezek közül talán a legérdekesebb a Humanist Discussion Group, amely 1987 óta (!) fóruma azoknak a bölcsészeknek, akik valamilyen formában használják a technológia adta lehetőségeket a kutatásban.

5. Fedezz fel projekteket. Itt is ajánl néhány fontos gyűjtőoldalt, mint pl.:

6. Vegyél részt (tovább)képzéseken. Rendszeresen megrendezett workshopokat és képzéseket ajánl, amelyek jó része amerikai, de van köztük néhány európai is (pl. a kétévente Európában tartott DH előtt és során rendszeresen megrendezettek). Az online oktatóoldalak viszont utazás nélkül is elérhetőek, ilyen pl. a nagyszerű TEI by Example, vagy a webes projektek készítői számára alapismereteket nyújtó XSLT-for-Humanists.

7. Tanuld a standardokat és a "jó gyakorlatokat". Az ajánlottak közül érdemes kiemelni egy általánosabb ismertetőt a használni érdemes standardokról: NINCH Guide to Good Practice in the Digital Representation and Management of Cultural Heritage Materials, valamint egy tudományágakra bontottat: Guides to Good Practice.

8. Keress partnereket. Mivel a legtöbb DH-s projekt sokféle jártasságot igényel, gyakran elengedhetetlen, hogy ne egyedül dolgozzunk. Az online lehetőségeken (mint amilyen pl. a DHCommons lesz) Lisa Spiro azt ajánlja, hogy intézményünk könyvtáros és informatikus szakembereivel keressük az együttműködési lehetőségeket, valamint, hogy vonjunk be diákokat is a munkánkba. Fontos, hogy szerinte a "csináld magad" megközelítés is gyakran szükséges a DH-kutatásban, mert nem mindig tud minden feltételt biztosítani a DH-szakember számára a munkahelye. Ilyenkor magunknak kell előteremteni a szükséges feltételeket.

9. Tervezz pilótaprojekteket. Kezdésnek nem kell mindjárt egyszerre mindent megvalósítani. A moduláris gondolkodás célravezetőbb lehet. Először tanulságos lehet csak egy kis részét megvalósítani a tervezett nagyobb munkának, hogy meglássuk a nehézségeket, buktatókat.

10. Ahol csak lehetséges, adaptáld a már elérhető eszközöket. Nem kell újra feltalálni a kereket. Amire már van eszköz (különösen ha open source), azt kell használni. Nagyon hasznos lehet ilyenek keresésekor a Digital Research Tools (DiRT) wiki, vagy egy-egy intézmény vagy szervezet  (mint pl. a CHNM vagy a MITH) githubos repozitóriuma.

Azon túl, hogy remek linkgyűjteménynek is tekinthető Lisa Spiro bejegyzése, a tanácsai is megfontolásra érdemesek. Kötelező olvasmány akár haladó DH-sok számára is.

2011. október 22.

Könyvajánló

Változtatnom kell a blog jellegén. Megint sok volt a teendő, így aztán nagyobb lélegzetű posztokra nem jutott idő. Kitaláltam viszont, hogy időnként csak kisebb híreket, információkat fogok megosztani, talán az is hasznos és érdekes lehet, tehát a jövőben rövidebb (ám annál fontosabb) bejegyzésekre is lehet számítani.

Jelen posztban egy nagyon érdekes – és ráadásul a neten hozzáférhető – kötetet szeretnék ajánlani. A szerző Alison Babeu, a Tufts University fantasztikus Perseus-projektjének a munkatársa, a mű címe: “Rome Wasn’t Digitized in a Day”: Building a Cyberinfrastructure for Digital Classics, azaz magyarul kb.: "Rómát sem digitalizálták egy nap alatt": kiberinfrastruktúra kiépítése a digitális klasszika-kutatás számára.

A kötet idén augusztusban jelent meg (kizárólag online formában), és a szerző nem kevesebbre vállalkozott, mint a digitális klasszika-filológia teljes történetének a bemutatására. Igaz, hogy a fókuszban Kr. e. 600 utáni görög, római, közép- és közel-keleti dokumentumok feldolgozása áll, de a digitalizálás ezek esetében tart olyan szinten, hogy egy összefoglaló kötetet valóban megérdemelt. A szerző áttekinti a teljes rendelkezésre álló infrastruktúrát, foglalkozik azok állapotával, használhatóságukkal, fejlesztési lehetőségeikkel.

Az első nagyobb fejezetben a klasszika-filológia számítógépesítésének a történetét tekinti át, amelynek keretében a digitális források öt generációját különbözteti meg az egyszerű szövegközléstől a gazdag annotációval ellátott, és fényképpel együtt tanulmányozható nagy korpuszokig.

A következő fejezetben a multidiszciplináris (értsd: történelemtudományi, filológiai, régészeti, irodalmi, nyelvészeti stb.) digitális könyvtárakkal foglalkozik, majd ezután tér rá az egyes részterületekhez kapcsolódó digitális technológiák kérdésére. Az általános fejezetben olyan kérdések kerülnek elő, mint a klasszikus szövegek OCR-ezése, nyelvi és egyéb annotálása stb. A diszciplináris fejezetben a következő területek kerülnek elő: történelem, régészet, művészettörténet, földrajz, epigráfia, kézirattörténet, numizmatika, paleográfia, papirológia, filológia, prozopográfia. Gazdag áttekintést kapunk mindegyik digitális forrásairól.

A következő részekben a digitális klasszika-filológia infrastruktúrájával, a felhasználók igényeivel foglalkozik. Ezek áttekintése után tér rá arra a kérdésre, hogy milyen jövőbeli változtatások, fejlesztések kívánatosak és szükségesek. Kiemeli a nyílt projektek fontosságát, és hangsúlyozza, hogy komplex virtuális kutatókörnyezetek (virtual research environment) kialakítására van szükség. Az utolsó fejezetben be is mutat jó néhány komplexebb projektet.

Alison Babeu könyve nemcsak azért izgalmas, mert a DH több részterületét felölelő áttekintést ad, hanem azért is, mert rendkívül informatív a folyó kutatások tekintetében: számos olyan projektet ismerünk meg, amelynek a megtalálása sokszor a szerencsén múlik. Ilyen összefoglaló munkákra egyre inkább szükség lesz, hiszen gombamód szaporodnak a jobbnál jobb kutatóműhelyek, amelyeknek a tevékenységét a DH kutatóinak fontos figyelemmel kísérnie.

2011. október 2.

Különös betűk a képernyőn (a böngészőben)

Ismét egy hosszabb posztmentes időszak után vagyunk, elnézést mindenkitől, aki szomjazott közben egy kis DH-ra, igyekszem a közeljövőben aktívabban blogolni. Az antikvakorpusz munkálataival voltam elfoglalva, olvasóim kárpótlásául ezzel kapcsolatos témáról lesz szó ebben a bejegyzésben.

Korábban már írtam arról, hogy milyen nehézséget jelent szövegeket megjeleníteni azokban a DH-s projektekben, ahol a Unicode által nem kódolt speciális karakterek fordulnak elő. A közelgő würzburgi TEI-konferencia absztraktjai között pl. Solving Problems for Online Diplomatic Editions of Medieval Manuscripts címmel szerepel egy előadás, amely többek között ezt a témát fogja boncolgatni. Minden bizonnyal érdekes lesz, hiszen a szerzők azt ígérik, hogy a saját projektjükben kidolgozott módszert mutatják majd be, amelynek segítségével MUFI-kompatibilis fontokat képesek beágyazni a weboldalukba, mégpedig böngészőtől, operációs rendszertől függetlenül.

Amíg az ő módszerüket megismerjük, megmutatom, hogy az antikvakorpusz esetében milyen megoldást választottam. Mivel én is a MUFI ajánlásaihoz igazodom, ezért ki kellett választanom egy, a projekt által támogatott fontkészletet. Andreas Stötzner Andron Scriptor Web elnevezésű fontjára esett a választásom, mert egyrészt Stötzner a MUFI tanácsának elnökhelyettese, másrészt fontkészlete gyönyörű reneszánsz imitáció, kiválóan alkalmas a 16. századi magyar nyomtatványok hangulatának érzékeltetésére. Andreas Stötzner hozzájárult, hogy akár letölthetővé is tegyem a honlapról a fontkészletet.

Az egyik lehetőség tehát az antikvaszöveg-részletek helyes megjelenítésére, ha a felhasználó letölti, és a saját gépére telepíti a készletet. Ezzel azonban több gond is van. A gondos technikai leírás ellenére is előfordulhat, hogy valaki nem boldogul a telepítéssel. Minden bizonnyal vannak olyan érdeklődők is, akik egyáltalán nem is hajlandóak bajlódni a procedúrával. Ráadásul mindemellett még előfordulhat az is, hogy egy nem jól beállított böngészőben a telepítés után sem jelenik meg a készlet. Mindenképpen megoldást akartam találni erre a problémára.

Az egyik kedves barátom hívta föl a figyelmemet a Simo Kinnunen cufón nevű projektjére. Ezzel a fantasztikus módszerrel kikerülhető a telepítés, a felhasználók böngészőjében mégis helyesen jelennek meg a szövegek. Az eljárás lényege a következő. Egy online generátor segítségével a gépünkről feltöltött fontkészletet egy FontForge-szkripttel SVG-fonttá konvertáljuk, ezután az SVG-útvonalakból VML-útvonalakat készít a szkript. Az eredményként kapott fájlt (JSON) majd feltöltjük a weboldalunk szerverére. A JSON-ban tárolt VML-eket egy mellékelt Javascripttel weboldalakba ágyazhatjuk. A szkript a weboldal megadott részeit fogja átalakítani vektorgrafikus elemmé (a HTML 5-ös <canvas>-sszá), amelyben a szerverre feltöltött VML alapján rajzolja ki a megfelelő karaktereket. Hab a tortán, hogy a drupalos oldalakon külön modullal kezelhetjük ezt az ügyes kis megoldást.

Az eljárásnak számos előnye van: az egész hihetetlenül gyors, és gyakorlatilag minden böngészőben működik, a szöveg kicsinyíthető-nagyítható. Vannak azért hátrányai is: a vektorgrafikát nem tudjuk kijelölni, ezért nincs copy-paste (ezt esetleg lehet másolásvédelmi szempontból előnynek is tekinteni, ha nem open-source-ban utazik az ember). Nem működik rajta a sorkizárás sem. Ugyanakkor viszont biztosíthatjuk, hogy a speciális karaktereink bárkinek a böngészőjében helyesen jelenjenek meg akkor is, ha nem telepíti fontkészletünket.

2011. szeptember 21.

Digitális bölcsészet nálunk és más nemzeteknél

Ezzel a DH-val csak a baj van. Most se tudtam tőle több mint egy hétig posztolni. A viccet félretéve a mai bejegyzésem egyik apropója, hogy ősszel kell beadni az Alliance of Digital Humanities Organizations szokásos éves konferenciájára az absztraktokat, és miközben a sajátommal voltam elfoglalva, korábbiakat böngészgettem. Erről pedig az a kérdés jutott eszembe, hogy ez a terület hazánkban miért nincs külön kezelve, miért nincsenek DH-s események stb.

Pedig 1998-ban a fent említett szervezet épp Magyarországon rendezte meg a konferenciát a debreceni (akkor még) Kossuth Lajos Tudományegyetem közreműködésével. Az idei, a Stanfordon megrendezett konferencia anyagát áttekintve elámultam, milyen széles körben művelnek már digitális bölcsészettudományi tevékenységeket, valamint elgondolkodtam azon is, hogy nálunk miért nincs jelen egy-egy terület.

A majd egyhetes konferencián a szokásos előadásokon, posztereken kívül 7 félnapos tutorialt (ezt hogy kéne magyarul mondani?) és egy egésznapos workshopot (és ezt?) is tartottak a jelentkezőknek. Ezek között TEI-kódolással, a DH egyetemi oktatásba integrálásával, különböző konkrét szövegfeldolgozó eszközök (pl. Voyeur) használatával fogalalkozók stb. voltak. A (számomra) legizgalmasabbnak tűnő a Gabmap nevű projektet bemutató tutorial, amelynek során a résztvevők egy a nyelvi variancia elemzésésre alkalmas eszközt ismerhettek meg. A projekt elsősorban a dialektológia számára borzasztó érdekes, mert alkalmas arra, hogy a területi variációkat különböző szempontok szerint vizuálisan megjelenítva igen összetett elemzést hajtsunk végre. Egyébként az egésznapos workshop témája is a vizualizáció volt, és mostanában egyre többet lehet olvasni DH-s körökben arról az igényről, hogy az eredmények megismertetéséhez egyre több ilyen eszközt kellene fejleszteni.

A téma iránti felfokozott érdeklődést mutatja az is, hogy a keynote speaker (magyarul?), David Rumsey a történeti térképek digitalizálásáról és felhasználásáról tartott előadást. Az első napon délelőtt kétszer négy, délután egyszer négy szekcióban zajlottak az előadások, utána következett a poszterszekció. A délelőtti első szakasz panelje a virtuális városbemutató eszközökről, és ezek történelemtudományi hasznosításáról szólt. Vele párhuzamosan két klasszikus digitális filológiai kérdésekkel foglalkozó, valamint egy a digitális régészet- és történelemtudományi szekció zajlott. A számomra legérdekesebb előadások egy felhasználóközpontú digitális szótárról, a DH-s szerzőazonosításról, valamint a "számítógépes régészet"-ről szóltak.

A délelőtti második szakaszban hasonló felosztásban volt egy panel az általánosabb kultúra- illetve irodalomelméletről, két szekció kifejezetten NLP-s, illetve adatbányászati témájú volt, valamint egy szólt a multimédiás DH-s kérdésekről. A legérdekesebb előadások a középangol helyesírás probabilisztikus módszerekkel történő kezeléséről, a jelölőnyelvek és a gráfszerkezetek erejéről, hasznáról, valamint mangaképregények digitális képelemzéséről szóltak.

A délutáni részben volt egy borzasztó izgalmasnak tűnő panel, ahol az eseményközpontú történeti narratívák elemzésének a lehetőségeiről volt szó, és arról, hogy ebben hogyan működhet együtt a DH-s, az információs szakember és az számítástechnikus. (Ilyesmivel a Szegedi Egyetemen is foglalkoznak egyébként, lásd itt a projektek között.) A további három szekció összetétele számomra kicsit esetlegesnek tűnik, mert eléggé eltérő témájú előadások kerültek egymás mellé. Mindenesetre megtalálható volt itt crowdsourcingtól, a DH egyetemi oktatásán keresztül az adatbázisépítésig mindenféle téma.

A poszterszekció szerintem roppant érdekes lehetett. Olyan témák bukkanak itt föl, mint egy arab kéziratkorpusz fejlesztése, az R stilometriai alkalmazása, a homéroszi eposzok hang-n-gramjainak ábrázolása, történeti személyek és helynevek együttes előfordulásának ábrázolása, egyes eszközök (mint pl. a korábban már bemutatott TILE) fejlesztése és még sorolhatnánk.

A második előadásnapon az elsőhöz hasonlóan egy panel és három szekció zajlott párhuzamosan, három részletben. A kicsit vegyes szekciók mellett volt egy kifejezetten irodalomtudományi. A legérdekesebb előadások egy buddhizmussal kapcsolatos szótár digitális kiadásával, valamint egy kis DH-s tudományszociológiával foglalkoztak.

A délelőtt második felében a vegyes témájú szekciókon kívül volt ismét egy irodalmi (mégpedig 19. századi irodalommal foglalkozó), valamint egy eszközfejlesztéssel kapcsolatos szekció. Számomra a 19. századi novellák nemzeti jellegét feltárni kívánó projektet, valamint a TILE fejlesztését bemutató előadások tűnnek a legizgalmasabbnak.

A délutáni szekciók közül egynek volt határozottab arculata: ott konkrét projekteket mutattak be. Ezek közül talán az egyházi kanonikus citációk ontológiáját bemutató előadás lehetett a legérdekesebb. A vegyesek közül a különböző textuális információk vizualizációját lehetővé tévő program, valamint a különböző glifavariációk kezelését végző eszközt bemutató előadásokra ültem volna be elsősorban.

Az utolsó napon még két hasonló felépítésű szakasz volt. Az első ismét nagyon vegyesre sikerült (nem is tudom, hogy mi lehetett az elődások egymás mellé helyezésének a koncepciója). Van itt a Google régi helynevek kutatásában történő felhasználását bemutatótól kezdve az Image Markup Tool fejlesztését bemutatón át a régészeti adatbázisfejlesztésig minden. A digitális papirológiával foglalkozó panel azért elég izgalmas lehetett. Na jó, azért a koreai sajtókorpuszt bemutató előadás is érdekelt volna azért.

Ami számomra igazán érdekes volt az egészben, az az, hogy eléggé feltűnt a konferencia összképéhez viszonyítva a hazai helyzet különbözősége. Nálunk egyes területeket igen sikeresen művelnek (elsősorban a korpusznyelvészetre, a nyelvtechnológiára és a számítógépes nyelvészetre gondolok), míg mások gyakorlatilag még meg sem honosodtak (pl. kifejezetten DH-s megközelítésű történelemtudományi kutatásról nem tudok). A másik nagy különbség pedig szerintem a DH tudományszociológiai helyzete. Nálunk nagyon hiányzik a DH-s szemléletű kutatók közötti élénkebb kommunikáció, sőt: akár az együttműködés. Biztos vagyok benne, hogy borzasztó sokat tanulhat egymástól egy ilyen konferencián pl. a digitális filológus és történész. Tehát arra lenne szükség, hogy tudatosan vállaljuk, hogy igenis DH-s kutatómunkát végzünk, és cseréljünk eszmét a más területeken működő DH-sokkal. Lehet, hogy egy hazai DH-konferenciával kellene kezdeni.

2011. szeptember 13.

Digitalizáljuk a Himnuszt!

Ennek a posztnak a dokumentumdigitalizálás és szövegdigitalizálás lesz a témája. A kettő nem ugyanaz. A különbség illusztrálására egy mindenki által jól ismert költeményt választottam: a Himnuszt. Tudomásom szerint a Himnusznak nem létezik szabványos formában digitalizált változata. Hogyan foghatnánk hozzá?

Először is el kell döntenünk, hogy mit akarunk rögzíteni. Mi is a Himnusz? A kérdésre nem olyan egyszerű válaszolni. A szöveg elsődleges forrása az eredeti kézirat, amelyet 1823-ban írt a Kölcsey. Nyomtatásban először az Aurora c. lapban jelent meg, 1828-ban. Kötetben 1832-ben adta ki a költő, a Versek c. gyűjteményt maga rendezte sajtó alá. Azóta számos kiadást ért meg, a különböző összegyűjtött, valamint válogatott versektől az iskolai szöveggyűjteményekig. Ezek szövege azonban nem egyezik meg egymással. Már az első három esetében is jelentős eltérések vannak, az Aurora-beli szöveg eltér a kézirattól, az első kötetbeli megjelenés szövege pedig mindkettőtől. A későbbi kiadások pedig (akarva-akaratlan) folyton változtattak valamit rajta.

Két lehetőségünk van: vagy kiválasztjuk valamelyik kiadást, és azt rögzítjük, vagy olyan digitalizált változatot készítünk, amelyben az összes variánst feltüntetjük. Az első esetben tulajdonképpen egy dokumentumot (illetve annak szövegét), a második esetben pedig szöveget digitalizálunk (annak minden történeti változásával). Egy irodalmi mű szövege minden esetben ilyen bonyolult történeti képződmény, a hagyományos filológia egyik fő feladata a szöveg megállapítása a történeti változatok és mindenféle körülmény figyelembevételével. Amikor ún. kritikai kiadást készítenek, akkor abban igyekeznek minden ilyen információt feltüntetni.

De mi a digitális filológia feladata? A digitális filológia feltételezi a hagyományos filológiai apparátust. A digitális kritikai kiadás abban lehet több a hagyományostól, hogy élhet a hipertext biztosította lehetőségekkel: az olvasónak nem kell egyszerre minden információt látnia. Ha akarom, akkor pl. egy kattintással csak az eredeti kézirat szövegét jelenítem meg. Ha akarom, a jegyzeteket eltüntetem, és csak kattintásra jelennek meg. Sokáig lehetne folytatni, a digitális kiadásoknak számos előnyük van.

A Himnusz esetében hozzáférhető a hagyományos kritikai kiadás: Kölcsey Ferenc minden munkái. Kritikai kiadás. Sorozatszerkesztő: Szabó G. Zoltán. Universitas Kiadó, Budapest, 1998-tól. A Himnusz szövege a Versek és versfordítások c. kötetben található, amely 2001-ben jelent meg. Az ebben található apparátust kellene lefordítani mondjuk TEI-XML-re. Szerencsére a TEI-nek külön modulja van a digitális kritikai kiadásokhoz.

Miért nincs olyan honlap, ahol meg lehetne tekinteni az kéziratot, az Aurora-beli szöveget, valamint az első kötetbeli szöveget jó minőségű fotómásolatban, valamint természetesen sokféle beállítással kattintható hipertextes változatban is. Mellétenném az Erkel-féle kotta eredetijét is, valamint egy jó minőségű letölthető hangfelvételt. A nemzeti jelképeket bemutató honlapon sajnos nem ilyet találunk, az ottani szövegváltozat számos problémát vet fel (l. Kalcsó Gyula: A Himnusz szövegváltozatainak helyesírása, hangjelölése és szóalaktana. In: Magyartanítás, 2005/3. 29–33).

2011. szeptember 7.

Kőbe vésett XML

A digitális bölcsészet egyik fontos (bár talán kevésbé divatos területe) a történelemtudományhoz és segédtudományaihoz kapcsolódik. A történészek számára nagy előnyt jelent, ha a forrásokat valamilyen internetes felületen tanulmányozhatják, ha pedig a forrás ráadásul kereshető annotációt is tartalmaz, annak a felbecsülhetetlen hasznáról talán nem is kell külön említést tenni. Ma már a legtöbb levéltár például működtet valamilyen online adatbázist (ha mást nem, a katalógusban való böngészést lehetővé téve). A bejegyzésemben egy sajátos forráscsoport digitális archiválásáról és internetes közzétételéről szeretnék szólni.

Az epigráfia (a feliratokkal fogalkozó történeti segédtudomány) számára is nagy áttörést jelentettek az internet adta lehetőségek. A feliratok tanulmányozása sokszor jóval nagyobb nehézséget jelent a kutató számára, mint pl. a kéziratok és nyomtatványok esetében. Sok felirat eleve mozdíthatatlan objektum része (épületen, sziklán stb.), mások múzeumokban találhatók, de nem lehet őket olyan egyszerűen "kikérni", mint mondjuk egy régi kódexet vagy levelet. A hagyományos megoldás a feliratgyűjtemény, amely nyomtatott formában tartalmazza a szövegeket, jobb esetben az objektumról készült fényképpel együtt. Az ilyen gyűjtemények ma már elkészíthetők digitális változatban is.

A Unicode által nem kódolt írásrendszerek esetében hasonló nehézséggel kell megküzdeni, mint a kéziratok és régi nyomtatványok szövegének digitális rögzítésekor (erről már volt szó korábban). Ezen túl azonban számos egyéb problémát is meg kell oldani. Képzeljük el pl. ennek a feliratnak a digitális rögzítését:

 

Látható, hogy a szöveg egy része az olvashatatlanság határáig megkopott, valamint bizonyos részei letörtek. A karcolások és töredezések a kődarab történetével együtt rendkívül fontos információkat hordozhatnak, ezeket valahogyan tartalmaznia kell a digitálisan archivált változatnak. De hogyan lehet ezt megoldani?

A válasz ezúttal is az XML. XML-lel ugyanis az égvilágon mindent lehet kódolni, mivel általános célú jelölőnyelv. A fenti fényképen látható felirat XML-lel kódolt változata megtalálható az Inscriptions of Roman Tripolitania (Tripoliban fellelt római kori feliratok) honlapján. Ez a gyűjtemény tulajdonképpen egy 1952-ben megjelent epigráfiai gyűjtemény digitális kiadása. Nagyon jól használható az egyes feliratok tanulmányozását lehetővé tevő oldal: háromféle változat megtekintését teszi lehetővé. Az első a szöveg kutatók által helyreállított változatát tartalmazza:

[Εὐμοιριτο] Ἑλλάδιος ἔζησε ἔτι ν´
[πλέον ἔλατ(τ)ον μῆ]ν[ες γ´] ἡμέρας
[δεκαπέντε ὁ Χριστὸς μετὰ τ(ο)ῦ] πνεύ-
[ματός σ(ο)υ ἐτ]ελεύ[τισεν μι]νὶ Π̣αυνὶ
5[ἑβδό]μι κατὰ τοὺς Ἄφρ<ο>υς

A következő a szöveg aktuális állapotát, megjelenési formáját tükröző változat (jelölve az elveszett részeket):

[··········]ΕΛΛΑΔΙΟΣΕΖΗΣΕΕΤΙΝ´
[·········]Ν[·····]ΗΜΕΡΑΣ
[············]ΠΝΕΥ
[···········]ΕΛΕΥ[·········]ΝΙ·ΑΥΝΙ
5[·····]ΜΙΚΑΤΑΤΟΥΣΑΦΡ<Ο>ΥΣ

Ez a két változat nem tartalmaz semmilyen hozzáadott információt, viszont a fényképpel együtt máris óriási segítség a kutatónak. A számunkra legérdekesebb a harmadik, az XML-lel kódolt változat. Ebben ilyen kódrészleteket találunk:

<supplied reason="lost" >
Εὐμοιριτο
</supplied>

A <supplied> TEI-XML kód, jelentése: kiegészítés. Az elem attribútumában meg is van adva az ok: @reason="lost", azaz a szövegrészlet elveszett. Vagy pl.:

<expan>
<abbr>
ἔλατ
</abbr>
<ex>
τ
</ex>
<abbr>
ον
</abbr>
</expan>

ahol az <expan> TEI-elem rövidítés feloldását (expansion) jelöli, azon belül pedig megtalálhatjuk magát a rövidített formát (<abbr> 'abbreviation'), és a feloldást (<ex>).

De mire jó ez az egész? a konkrét honlap esetében tulajdonképpen egyetlen célt szolgál: szabványos digitális formában archiválja a feliratot. Az igazi előnye akkor lenne érvényesíthető, ha a kódolt információkat valahogyan elő is lehetne hívni (pl. az összes felirat összes rövidítése kikereshető lenne, hiszen a rövidítések meg vannak jelölve). A TEI kapcsán is gyakran felmerülő probléma ez: sokmindent kódolnak ma már, de ezzel párhuzamosan alig fejlesztenek olyan eszközöket, amelyek segítségével a kódolt információ egyszerűen kinyerhető lenne. Tegyük hozzá gyorsan: az archiválás azért tényleg fontosabb. Az információ kinyerését lehetővé tevő eszközöket meg majd megcsinálja valaki. Addig pedig a világ sok-sok szerverén pihennek azok a bitek-byte-ok, amelyek a kulturális örökséget őrzik a jövő számára.

2011. szeptember 2.

Bevezetés a korpusznyelvészetbe

A digitális bölcsészet bármely területét is tekintjük, ki lehet jelenteni: magyar nyelven jóformán teljesen hiányoznak a bevezető, alapozó könyvek. Persze ennek nyilván az is lehet az oka, hogy ezen területek művelői tudnak angolul, és nem hiányoznak nekik a magyar szakirodalmak. Viszont miután hazánkban már két egyetemen is lehet digitális bölcsészet mesterképzésre járni (ezekről l. az első posztomat), és várhatóan egyre nagyobb lesz az érdeklődés a felsőoktatásban (azt is el tudom képzelni, hogy minden bölcsész- és társadalomtudományi szakosnak jól jönne legalább egy ilyen kurzus), hamarosan szükség lesz alapozó tankönyvekre.

A ritka kivételek közé tartozik Szirmai Monika Bevezetés a korpusznyelvészetbe c. műve. A könyv a Tinta Kiadónál jelent meg a Segédkönyvek a nyelvészet tanulmányozásához c. sorozat XLVI. darabjaként 2005-ben, ma már letölthető a fenti linkről. A könyvnek van egy alcíme is: A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában. A főcím és az alcím a kötet két fő részét reprezentálja, ugyanis az első négy fejezet a bevezető, az 5. pedig az alcímben jelzett témáról szól. A szerző a művét "a lehető legszélesebb közönségnek" szánja, de arra törekedett – mint a bevezető előtt írja –, hogy főként a nyelvszakos egyetemi hallgatók, az általános és középiskolai tanárok, a magyar nyelvet és irodalmat, valamint idegen nyelvet tanító tanárok és a nyelvtanulók forgassák haszonnal.

Az első fejezet címe Mi a korpusznyelvészet? A szerző a bevezetőben hangsúlyozza, hogy a korpusznyelvészet nem azonos a számítógépes nyelvészettel, az utóbbi művelője ugyanis nem nélkülözheti a programozási ismereteket, míg az előbbié igen (bár nem hátrány, ha mégis konyít hozzá). Az első fejezetben a korpusz fogalmával és a korpusztervezés alapvető mozzanataival foglalkozik (mint a reprezentativitás, a mintavétel, a korpuszok fajtái, az annotáció).

Némiképp logikátlan, hogy ezután következik a Számítástechnika és nyelvtudomány c. fejezet (szerintem ugyanis ezzel kellett volna kezdeni). Ebben a számítástechnika nagyon vázlatos története után a korpuszok fejlődésének a leírása következne (az alcím szerint). Ebben a részben azonban inkább tudománytörténetről van szó, sőt: a kapcsolódó tudományágak áttekintése is ide került, különösen a számítógépes nyelvészetnek (azon belül is a magyarországi kutatásoknak) szentel nagyobb figyelmet. A fejezetet néhány külföldi folyóirat bemutatása zárja.

A harmadik (legterjedelmesebb) fejezet címe: A korpuszokról. Ebben a részben konkrét korpuszok ismertetése található. Sajnos a fejezet felépítése ismét logikátlan egy kicsit: néhány korpusz (mindenféle indoklás nélkül) külön alfejezetbe került, míg a végén nyelvek szerinti csoportosításban egy-egy alfejezet több korpusz bemutatását tartalmazza. Összességében azonban igen jó áttekintést ad a legfontosabb korpuszokról (beleértve a magyar nyelvűeket is).

A negyedik fejezetben A szoftverekről esik szó. Mivel a könyvet a szélesebb közönségnek szánja a szerző, érthető, hogy elsősorban azokra a programokra koncentrál, amelyeket különösebb szakértelem nélkül is tud gyakorlatilag bármely felhasználó szövegfeldolgozásra használni, ezért a konkordanciaprogramok ismertetése került a fókuszba. Feltétlenül kiemelendő, hogy a szerző elsősorban az ingyenesen hozzáférhető szoftverekre koncentrál.

Az ötödik fejezet a könyv alcímében megnevezett témát járja körül: Korpusznyelvészeti módszerek az oktatásban. Látszik, hogy ez a szerző fő szakterülete, hiszen igen alaposan, és a többi fejezethez képest jóval logikusabban és áttekinthetőbben tárgyalja, hogy miként lehet a korpuszokat és a konkordanciákat az anyanyelv- és idegennyelv-oktatásban és -tanulásban felhasználni. Egy tanár számára pl. nagyon hasznosak lehetnek az 5.5-ös részben ismertetett feladattípusok (Saját készítésű feladatok címmel).

A kötet leghasznosabb része ezután következik: a könyvben szereplő korpuszok, szövegtárak és adatbázisok listája (internetes elérhetőségükkel együtt), valamint egy többnyelvű fogalomtár. Ezeken túl a 2005-ig terjedő időszakig egész jó bibliográfia, valamint tárgy-, név- és korpuszmutató zárja a könyvet.

Bevezet-e a korpusznyelvészetbe a Bevezetés a korpusznyelvészetbe? Igen is, meg nem is.

Ami jól benne van: néhány alapfogalom (igen hasznos a többnyelvű fogalomtár), a korpuszfajták bemutatása, a legfontosabb korpuszok bemutatása (a mellékelt listával együtt), a konkordanciaprogramok és alkalmazásuk, valamint egy alkalmazási terület: a nyelvoktatás.

Ami hiányzik belőle: valamivel áttekinthetőbb tudománytörténet, a nyelvészeti alkalmazások szélesebb körének a bemutatása (ha már bevezetés a korpusznyelvészetbe), és ami a legfontosabb: szerintem alapvonalakban igenis szót kellene ejteni egy ilyen témájú könyvben a kódolásról.

Összességében azonban örülnünk kell neki, hogy legalább a korpuszokról van egy olyan bevezető tankönyv, amely az általánosabb célú DH-képzésben igenis jól használható (kevés viszont a korpusznyelvészethez).

2011. augusztus 27.

Különös betűk a képernyőn

A régi szövegekből álló korpuszok építésekor az egyik legnehezebb feladat annak a problémának a megoldása, hogy miként tároljuk és jelenítsük meg azokat a speciális betűket, amelyek a számítógéphasználó szélesebb rétegek számára nem annyira fontosak, hogy a karakterkódolási szabványok kezelői gondoltak volna a kezelésükre. Márpedig manapság egyre gyakoribb, hogy középkori kéziratokból, kódexekből, korai nyomtatványokból készítenek korpuszt. A korpuszépítéskor követendő karakterkódolási elvekről nemrégiben jelent meg egy poszt a Számítógépes nyelvészet blogban. Ez inspirált, hogy én is foglakozzam a kérdéssel, egy kicsit más szemszögből.

Nem akarok a karakterkódolás elméletébe és történetébe belemélyedni, de a témához mégiscsak kell pár szót ejteni róla. Először is a számítógép számára nem létezik betű, csak kód. A kód ugye alapvetően bináris: elektronikus gépekről beszélünk, vagyis arról az egyszerű elvről, hogy a "vezetékben" vagy van áram, vagy nincs. Ha van, akkor azt nevezzük 1-nek, ha nincs, az legyen a 0. Ez egy bitnyi információ, amelynek tehát két értéke lehet. Bináris kóddal az égvilágon mindenféle információt lehet kódolni, legfeljebb az összetettebb információhoz több kódra van szükség. A gép számára a betűk csak kódok tehát. Ha pl. két betűnk lenne, akkor egy biten lehetne kódolni őket, az egyik lenne a 0, a másik az 1. 3-hoz vagy 4-hez már két bit kell, és így tovább. A számítástechnika hőskorában, amikor még minden gép csak angol nyelvű szövegeket jelenített meg a konzolokon, akkor elég volt 7 bit (128 féle érték), hogy mindent lehessen kódolni, az angol ábécé betűin kívül az írásjeleket, a szóközt és még néhány ún. vezérlőkaraktert is. Amikor aztán felmerült az igény arra, hogy más nyelvek betűi is megjelenjenek, hozzácsaptak még egy bitet, így már 256 féle kódot lehetett használni. A 7 bites kódolási rendszert hamar szabványosították, így jött létre az American Standard Code for Information Interchange ( ASCII), majd a 8 bites változatok szabványosításával a különböző ún. kiterjesztett ASCII kódrendszerek. A magyar nyelvű szövegeket pl. az ISO/IEC 8859-2 szabványban rögzített ún. Latin-2-es kódrendszerrel lehet kódolni, ebben már benne van az ún. Latin-1-ből hiányzó ő és ű is.

Hamar kiderült azonban, hogy az egybyte-os (8 bit együttesét nevezik byte-nak) rendszerek is kevésnek bizonyulnak, ha mondjuk olyan írásokat kell megjeleníteni, amelyeknek 256-nál is több írásjelük van (mint pl. a kínai). A kézenfekvő megoldás a bitek növelése volt. Az első univerzális karakterkészletek (az ISO/IEC 10646-os szabvány, a Universal Character Set – UCS, valamint a konzorciális keretek között fejlesztett Unicode) megalkotásakor eleinte egyszerűen két byte-ot használtak, amellyel lehetséges volt 65536 kód kiosztása. Később ezeket még tovább bővítették (ma már 4 byte-osak), de valójában a téma szempontjából a technikai részletek már nem annyira fontosak, a lényeg az, hogy ma már elvileg lehetséges minden használatban lévő, valamint a történelem folyamán használatos írásrendszert kódolni.

De. Ahhoz, hogy egy írásrendszer benne legyen a Unicode-ban, az írás használóinak kell kezdeményezniük (ha a Unicode fejlesztői nem gondolnak rá maguktól). Ez a helyzet a középkori kéziratokban, valamint a korai nyomtatványokban használt speciális betűkkel is. Bármennyire gyorsan fejlődik is a Unicode, még mindig sokféle speciális jel hiányzik belőle. A kérdés az, hogy mit tehet akkor egy ilyen jellegű korpuszt fejlesztő szakember. Nem véletlen, hogy a DH-konferenciákon állandó témaként szerepel a karakterkódolás problémája (pl. legújabban majd a würzburgi TEI-konferencián).

A szabványos megoldáshoz kizárólag a Unicode használható, mivel a korpuszok zöme ma már XML-alapú, és az XML támogatja a Unicode-ot. Amennyiben pl. valaki a TEI-XML-t választja a korpusza annotálásához, akkor egyúttal a Unicode mellett teszi le a garast. Mit legyen azonban a Unicode-ból hiányzó karakterekkel? A szerencsésebb eset az, amikor a speciális betű ellőállítható már létező Unicode-elemekből, azaz ún. kombinált karaktert használunk. Ilyen pl. a LATIN SMALL LETTER O WITH COMBINING LATIN SMALL LETTER E, ilyeneket láthatunk pl. ebben a szövegben. (A csupa nagybetűs leírás valójában a karakter, vagyis a graféma megnevezése. Ehhez tartozhat egy vagy több kódpont, valamint egy vagy több megjelenési forma. Lehet pl. dőlt, félkövér stb. A megjelenési forma, az ún. glyph v. glifa látszik a képernyőn). Ha azonban nem tudjuk kombinált jelként felépíteni a speciális karakterünket, akkor már csak egy megoldás marad: az ún. Private Use Area (PUA) használata. Ez olyan kódpontok összességét jelenti, amelyeket szabadon hagytak saját jelek használatára. Ezzel csak az a gond, hogy ha saját fejlesztésű karakterkészletet használok, akkor a felhasználóknak is le kell tölteniük azt a saját gépükre. Ezt vagy megteszik, vagy nem. Ráadásul ez esetben célszerű részletes technikai útmutatót mellékelni, szóval macera.

Sajnos azonban nincs más út, ha meg is akarjuk jeleníteni ezeket a karaktereket. (Ha nem akarjuk feltétlenül megjeleníteni, akkor van mód az XML-ben megfelelő módon kódolni, de ez talán inkább másik poszt témája lehet.) Ha már a PUA-t használjuk, legalább tegyük ezt valamilyen nemzetközi normának megfelelő módon. A középkori (és kora újkori) szövegek esetében szerencsére van ilyen: Medieval Unicode Font Initiative-nak hívják (MUFI). A MUFI lényege, hogy ajánlásokat fogalmaznak meg a Unicode-ban egyelőre nem kódolt karakterek kódolására. Ez a PUA átmeneti használatát jelenti, majd – amennyiben a Unicode konzorcium elfogadja – saját szabványos kódpont kiosztását (pl. 2008 áprilisában, a Unicode 5.1-es verziójának a megjelenésekor 152 MUFI-javaslat került bele a standardba). Amennyiben a MUFI ajánlásait betartó fontkészletet telepít a felhasználónk a saját gépére, akkor helyesen fogja tudni megjeleníteni a szövegeinket.

2011. augusztus 22.

Válságban a TEI konzorcium?

A TEI-levelezőlistát követők a múlt héten érdekes fejlemények tanúi lehettek. Az események megértéséhez fontos tudni, hogy a TEI-nek két fő testülete van: a Board of Directors és a Technical Council. Az előbbi felelős a TEI-konzorcium irányításáért, stratégiai kérdésekben dönt, és felügyeli a pénzügyi folyamatokat. Az utóbbi magának a standardnak a fejlesztéséért felelős. Mindkettőnek demokratikusan válaszott tagjai vannak. A board elnöke, Martin Mueller augusztus 4-én egy levelet írt a board és a council tagjainak, amelyben felvázolta elképzeléseit a konzorcium jövőjével kapcsolatban.

A levél voltaképpen két nagy témát jár körül: a TEI-standard jövéjét és a konzorcium finanszírozását. Mueller egy kicsit szkeptikus a TEI sikerességét illetően, mint levelében kifejti, szerinte a szövegkódolásban érintett tudományágak képviselői, de sokszor még a könyvtáros szakemberek sem ismerik eléggé a TEI-t és a benne rejlő lehetőségeket. Az egyik fő problémát abban látja, hogy bár a TEI rendkívül hasznos kódolóeszköz, nem kínál megoldást a dekódolásra, azaz a kutatók nehezen tudják kiaknázni a kódolt szövegek adta lehetőségeket. Úgy látja, a konzorciumnak foglalkozni kell azzal, hogyan tudják az egyes tudományágak hasznosítani a TEI-kóddal ellátott szövegeket.

Fontosnak tartja továbbá, hogy a TEI bekapcsolódjon a "big data" világába. A hatalmas adatbázisok, óriási mennyiségű digitalizált tartalmak szolgáltatása területén fontos lenne, hogy valamilyen standard kódot használjanak. Szerinte nem biztos, hogy a részletekbe menő, mély kódolással kell foglalkozni, hanem úgy látja, hogy először egy vázlatos kód is elegendő, amelyet aztán tovább lehet finomítani. A TEI-nek szerinte elő kellene segítenie az ilyen irányú hasznosítását is.

A pénzügyekkel kapcsolatban kifejti, hogy az 5000 dolláros maximális tagsági díj (amelyet egyébként olyan nagy intézmények fizetnek, ahol a TEI-t legalább 25 alkalmazott hasznosítja) igen jelentős tétellé vált az utóbbi időben. (Szervezetként a minimális tagsági díj egyébként 100 dollár. Az egyéni tagság – amelyről megjegyzi, hogy igen ritka – 50 dollárba kerül.) A tagsági díjak átgondolását sürgeti, differenciáltabb rendszert szeretne, alacsonyabb díjakkal. Arra is fölhívja a figyelmet, hogy az európai tagok jóval kisebb mértékben fizetnek tagdíjat, mint az amerikaiak. A TEI-konzorcium egyébként 70 intézményből és néhány egyéni tagból áll. A konzorcium szervezetének az átalakításától jelentős megtakarításokat remél, javaslatot tesz új szervezeti keretek kialakítására, amelyben a fő szervezeti egységek kevesebb tagból állnának.

Augusztus 11-én a board telefonkonferenciát tartott, amelynek során bizalmi szavazást kértek Martin Mueller ellen. Bár a board 6 tagjából csak négyen szavaztak, 3:1 arányban Mueller ellen, az elnök lemondott. A helyette titkos szavazással megválasztott megbízott elnök, John Unsworth közleményében azt mondta, hogy Mueller leváltásának az oka az volt, hogy többen nem értettek egyet a szervezeti átalakításokra vonatkozó elképzelésekkel. Miután Sarah Wells hétfőn a TEI-listán bejelentette az eseményeket, azok a TEI-közösségben meglehetős felháborodást váltottak ki, a reakciók a TEI-levelezőlistán, blogbejegyzésekben, Google-plus posztokban és Twitter-bejegyzésekben olvashatók. A technical council például azt írta, hogy "sokkolta és elkeserítette" őket, ami történt.

A történéseknek (és Mueller levelének) van egy-két nagyon fontos tanulsága. Egyrészt úgy tűnik, hogy a TEI-konzorciumot is érzékenyen érintik a gazdasági válság hatásai. Másrészt olyan változások zajlanak a DH világában, amelyekkel a TEI-nek feltétlenül lépést kell tartania, ha nem akar marginális helyzetbe sodródni. Úgy látszik, hogy a közösség tagjai között elég nagy különbségek vannak a TEI funkciójával és jövőbeli szerepével kapcsolatos elképzeléseket illetően. Az ősszel esedékes szokásos éves TEI-konferencián Würzburgban minden bizonnyal heves viták lesznek, és meghatározó jelentőségű döntések születnek majd.

2011. augusztus 17.

Régi szövegek gépi elemzése

A Számítógépes nyelvészet blogban sokszor esik szó a statisztikai alapú gépi nyelvfeldolgozási-elemzési metódusokról. Az eljárás lényege, hogy kellően nagy mennyiségű adat alapján viszonylag jó eredménnyel lehet nyelvi szabályszerűségekre következtetni. De vajon működik-e ez régi szövegek esetében is? Ebben a posztban csupán a kérdéskör egyik szegmense kerül elő.

Régi szövegek gépi elemzésekor számos probléma merül fel. A legtöbb gondot talán a betűhasználat következetlensége okozza. A magyar nyelv esetében a 19. század közepéig (sőt: bizonyos regiszterek esetében egészen a mai napig!) jellemző, hogy egy-egy hangot többféle betű vagy betűkapcsolat jelöl, valamint hogy egy-egy betű vagy betűkapcsolat többféle hangot is jelölhet. A nehézségeket fokozza, ha egy szövegen belül fordul elő a többféle jelölésmód. További problémát jelent, ha a szövegek többféle nyelvváltozatban, pl. többféle nyelvjárásban íródtak.

Kézenfekvőnek tűnik tehát, hogy először egységesítsük a hangjelölést, azaz azonos hang helyén mindig ugyanaz a betű vagy betűkapcsolat szerepeljen. Igen ám, de a hangérték megállapítása sokszor komoly nyelvtörténeti felkészültséget igényel, ráadásul bizonyos esetekben akár többféle olvasat is elképzelhető. A számítógép ugye nem nyelvtörténész, és nem is tud olvasni (?). Ezzel a problémával szembesültek az MTA Nyelvtudományi Intézetének kutatói is, amikor ómagyar és középmagyar kori szövegekből álló, morfológiailag elemzett és egyértelműsített korpusz létrehozását tűzték ki célul.

A korpusz építése a Magyar Generatív Történeti Szintaxis projekt részeként indult, egy tömör összefoglalót tölhetünk le a tervezett adatbázisról innen. A prezentációban látható, hogy a normalizálás (azaz a mai, egységes hangjelöléssel leírt szövegváltozat előállítása) ebben a projektben is része az automatizált elemzés előkészítésének. Magáról a folyamatról kiváló összefoglalást ad Oravecz Csaba, Sass Bálint és Simon Eszter cikke.

Az eljárás ugyanazon az elképzelésen alapul, amelyet oniegin ír le a Számítógépes nyelvészeten megjelent posztjában. A Bayes-szabályt:

(azaz egy feltételhez kötött esemény és annak inverze közti összefüggést leíró formulát) ez esetben hangjelölésre alkalmazták. A gépi fordításban ezt szó-N-gramok, jelen esetben karakter-N-gramok segítségével lehet megtenni, vagyis azt kell megvizsgálni, hogy egyes karaktercsoportok milyen valószínűséggel felelnek meg valamilyen egységes jelölésmódnak. Az MTA kutatói a legegyszerűbb megoldást választották: a mai helyesírást vették alapul, amelyben következetes a hangjelölés, vagyis azt a célt tűzték ki maguk elé, hogy a régi szövegeket mai helyesírásra konvertálják, normalizálják. (Ez nyilván hasznos is a további feldolgozási feladatok megoldásához, pl. a morfológiai elemzéshez.)

Mivel a korpusz normalizálását géppel akarták elvégezni, két dologra volt szükségük: nagy mennyiségű egységes hangjelölésű adatra (erre kiváló a Magyar Nemzeti Szövegtár korpusza, illetve annak egy részlete), valamint egy ún. tanulókorpusz (két szöveg, az ún. Müncheni emlék és a Szabács viadala), amelyben a hangjelölést nyelvtörténész kézzel egységesítette. A két korpusz közti megfelelések alapján lehet a még nem normalizált korpuszrészlet normalizálását elkezdeni. A szkript ezek alapján a régi szöveg szóalakjaiból lehetséges mai alakokat generál, és megadja az egyes alakok helyességének valószínűségét.

Mivel az antikvakorpusz esetében is megoldandó feladat volt az automatikus elemzés, ezért elgondolkodtam a módszer alkalmazhatóságán. A cikk elolvasása után több kérdés is felmerült bennem. Hogyan lehet elegendő egy 15. és egy 16. századi szövegből álló, mindössze 1525 tokent tartalmazó korpusz tanulókorpusznak? Igen nagy a valószínűsége annak, hogy sok-sok jelölésmód kimaradt belőle. Az antikvakorpusz esetében is nagyon nehéz lenne olyan szövegrészleteket kiválasztani, amelyekben minden (vagy legalább a legtöbb) lehetséges jelölésmód szerepel. Azután miért nem gyűjtjük össze inkább a lehetséges jelölésmódokat? Hiszen a 16. században (de az ómagyarban is) legfeljebb néhány tucat betűjelről beszélünk. Még a karakterbigramok esetében sem okoz gondot a kézi átfésülés (tovább tarthatott a Szabács viadalát kézzel normalizálni). A trigram már nagyobb falat, hiszen ha mondjuk 40 jelet feltételezünk, akkor már 64 000 kombinációt kellene értékelnünk. Igen ám, de bizonyos kombinációk eleve kizárhatók. Nem használatosak a régi szövegekben pl. csupa mahánhangzó- vagy mássalhangzójelből álló trigramok. De még ennél is nyomósabb érv, hogy amennyiben rendelkezésünkre állnak az egy- és kétjegyű betűk lehetséges hangértékei, nem volna egy jobb egy sztochasztikus eljárás eredménye, ha egyszerűen figyelmen kívül hagynánk a trigramokat?

Mindenesetre a régi szövegek esetében alkalmazható statisztikai módszerek területe igen izgalmas téma, valószínűleg még sokszor lesz róla szó.

2011. augusztus 13.

Kód és kép összekapcsolása 2.

Az előző bejegyzésemben bemutattam a TILE projektet. Az alkalmazás nevében szereplő 'szöveg-kép összekapcsolás' helyett én szándékosan kód és kép összekapcsolásáról beszélek, hiszen az lenne a legjobb, ha nem csupán a nyers szöveg, hanem a kódolt szöveg kapcsolódna össze a dokumentumról készült fotóval. Láthattuk, hogy a TILE valójában csak bizonyos keretek között, korlátozottan képes arra, amit a neve sugall.

Valamivel jobb a helyzet az Image Markup Toollal: ez esetben az annotációt ugyanis közvetlenül TEI-kódként menthetjük el. A projekt gazdája Martin Holmes, aki a kanadai University of Victoria egy spin-off cégének, a Half-Baked Software Inc.-nek az egyik alapítója, az egyetem Humanities Computing and Media Centerének (HCMC) a kutatója. A kis program Kóta Péter, a Pázmány Péter Katolikus Egyetem Medievisztika Tanszékének oktatója jóvoltából magyarul is tud. Az önkicsomagoló telepítővel az installálás néhány percet vesz igénybe.

Az alkalmazás két ablakot nyit: az egyikben a képet, a másikban az annotációt fogjuk látni. Maga az annotálás hasonlóan működik a TILE-éhoz: a képen kijelölt területekhez rendel hozzá a program kódot. Nagy különbség azonban, hogy ez esetben a kódot mi magunk határozhatjuk meg. Mivel az eszköz kimenete egy TEI P5-ös XML-fájl, ezért nyilván TEI P5-kódokat célszerű megadnunk (a program nem végez validálást, tehát ha nem megfelelő kódokat írunk be, akkor is elmenthetjük a fájlt, csak az nem lesz valid).

A kimenet leegyszerűsítve ilyen lesz:

<TEI>
    <teiHeader>
        <!-- ...a fejléc tartalma... -->
    </teiHeader>
    <text>
        <body>
            <!-- ...TEI-tartalom... -->
            <div type="imtAnnotatedImage">
                <svg xmlns="http://www.w3.org/2000/svg">
                    <!-- ...svg-tartalom... -->
                    <image>
                        <!-- a képfájl referenciája kerül ide -->
                    </image>
                    <rect>
                        <!-- a képfájlon kijelölt terület adatai
                         kerülnek ide -->
                    </rect>
                </svg>
                <div type="imtAnnotationLayer">
                    <!-- maga az annotáció kerül ide -->
                </div>
            </div>
            <!-- ...TEI-tartalom vége... -->
        </body>
    </text>
</TEI>

 Magának a <body>-n belüli <div>-nek a tartalma (Dot Porter példájával élve a TEI-wikiről) ilyesmi:

Az eszköz (mint a neve is mutatja) elsősorban képek TEI-kódolására kiváló (a program a TEI-fejléc szerkesztésére is lehetőséget ad). Szöveg kódját csak nehézkesen, és utólagos munkálatok elvégzésével lehet képhez kötni a segítségével. Egyvalamit azonban kiválóan megoldhat: könnyedén lehet TEI-vázfájlt (azaz mondjuk egy szöveget is tartalmazó oldal vagy oldalak nagyobb egységeit – elsősorban bekezdéseit – kódoló fájlt) létrehozni vele. Ebbe lehet azután beleilleszteni magát a szöveget.

A kód és kép összekapcsolási lehetőségeit bemutató sorozatom még mindig nem ért véget. Legközelebb egy újabb eszközt mutatok be.

2011. augusztus 9.

Kód és kép összekapcsolása

Korábban már volt arról szó, hogy a legjobb megoldás a "digitális fakszimilék" publikálására az lenne, ha a kódolt szöveget összekapcsolnánk a dokumentumról készült jó minőségű fotóval. Álmaim annotáló eszköze egy olyan alkalmazás, amely lehetővé tenné a kód és a kép manuális összekapcsolását egy felhasználóbarát felületen keresztül. Nos, valami ilyesmi a Text-Image Linking Environment (TILE).

A projekt gazdája a University of Maryland egyik intézete, (az egyébként más szempontból is érdekes) Maryland Institute for Technology in the Humanities (irigylésre méltó, hogy több amerikai egyetemen külön intézetben zajlanak a DH-kutatások), valamint az Indiana University, és olyan, a DH-ban járatosak számára ismert nevek kötődnek hozzá, mint Dot Porter vagy John Walsh (aki jelenleg a TEI tanácsának a tagja). Az eszköz online hozzáférhető, de letölthető az offline is használható változata.

A szoftver arra alkalmas, hogy egy kódolt szöveget összekapcsoljunk egy kép négyszög vagy ellipszis alakú részletével. Jelenleg elsősorban egy szöveg sorainak az annotációjára használható (van egy beépített automatikus sorfelismerő is benne, amely egész jól működik). Két dologra van szükségünk: egy megfelelő formátumú kódolt szövegre (P5-ös verziójú TEI-XML), és egy megfelelő formátumú (JPG, PNG) képre. A képnek a weben kell lennie, és az XML-fájlban hivatkozni kell rá. Ha ez megvan, akkor a TILE felhasználói felületén a Load gombra kattintva fel kell tölteni az XML-fájlt, amivel együtt betöltődik a kép is (mert ugye az XML-ben benne a referencia).

Bal oldalon megjelenik a szöveg sorokra tördelve (a TEI <l>, azaz 'line' eleme alapján), jobb oldalon pedig a kép. Az automata sorfelismerőt használva megjelölhetjük a képen a sorokat, de akár kézzel is elvégezhetjük a műveletet (ha nem vagyunk megelégedve az automatikus felismerés eredményével, ami a fotó minőségétől függően jobb-rosszabb). Ezen túl még lehetőségünk van a kép bármely négyszög vagy ellipszis alakú részét a szöveg bármilyen egységéhez kötni ún. labelek (címkék) segítségével. Ehhez a jobb oldalon az Activate Highlight Mode-ra kell kattintanunk (kis toll formájú ikon), ki kell jelölnünk a szövegegységet, majd a felugró ablakban meg kell adnunk a címke nevét, ezután pedig a jobb oldalon kijelölhetjük a kép megfelelő részét.

Mit is csinál a TILE? Voltaképpen hozzáad az XML-fájlban a <teiHeader>-höz egy új elemet, a <tile>-t. Ebben <array> nevezetű elemeket hoz létre, amelynek @key és @value attribútumai lehetnek. Több <array> is egymásba ágyazható. Ezek az oldalakhoz és a sorokhoz lesznek kapcsolva, mégpedig a TEI-kódok alapján (ugyanis pl. a <l> elemnek is van @n attribútuma).  Az alábbi kódrészlet ezt mutatja:

... <array key="pages">
        <array key="0">
          <value key="id" value="0cf7e"/>
          <value key="url" value="http://mith.umd.edu/tile/sampledata/images/acs0000001-01-100.jpg"/>
          <array key="lines">
            <array key="0">
              <value key="text" value="Anactoria"/>
              <value key="id" value="line0"/>
            </array>
            <array key="1">
              <value key="text" value="τίνος αὖ τὺ πειθοῖ"/>
              <value key="id" value="line1"/>
            </array>
            <array key="2">
              <value key="text" value="μὰψ σαγηνεύσας φιλόταταϗ"/>
              <value key="id" value="line2"/>
            </array>
            <array key="3">
              <value key="text" value="Sappho."/>
              <value key="id" value="line3"/>
            </array>
            <array key="4">
              <value key="text" value="My life is bitter with thy love; thine eyes"/>
              <value key="id" value="line4"/>
              <array key="shapes">
                <value key="0" value="154_shape"/>
              </array>
            </array> ...
Az első <array> az oldalt azonosítja, a következők a sorokat, az attribútumok tartalmazzák az azonosítót és az "értéket", azaz magát a szöveget, valamint (ahogyan ez a 4-es számú sornál látszik) a hozzárendelt képterület azonosítóját (@key="shapes"). Ezek után következik az oldalhoz definiált képterületek megadása, ugyancsak az azonosítók segítségével:

... <array key="shapes">
            <array key="0">
              <value key="id" value="154_shape"/>
              <value key="type" value="rect"/>
              <value key="_scale" value="1"/>
              <value key="color" value="#000000"/>
              <array key="posInfo">
                <value key="x" value="109.13723254322"/>
                <value key="y" value="568.26627979399"/>
                <value key="width" value="726.32709933934"/>
                <value key="height" value="33.870175616861"/>
              </array>
              <array key="lines">
                <value key="0" value="line4"/>
              </array>
            </array> ...
Az eredményt természetesen el is menthetjük.

Őszintén szólva kicsit csalódtam, amikor kipróbáltam az alkalmazást. Én ugyanis arra számítottam, hogy rendes TEI-annotációt lehet vele csinálni, azaz a TEI-kódokhoz tudom hozzárendelni a kép megfelelő részeit. Ennek ellenére nagyon örülök, hogy maga az ötlet már alkalmazásban is testet öltött. Van azonban más lehetőség is a TEI-fájlok manuális képhez kapcsolására. De erről majd máskor.