View Gyula Kalcsó's profile on LinkedIn

I use TEI

Legújabb hozzászólások

2011. augusztus 1.

Kódból kimenet

Az első posztom egyik kommentjében említettem, hogy az antikvakorpusz esetében is azt a nemzetközi normáknak megfelelő gyakorlatot próbálom követni, hogy minden, a weben megjelenő tartalmat a szövegek kódolt változatából, az alapfájlból állítok elő. Ez azt jelenti, hogy pl. a lapozóban (pager) megjelenített szövegrészleteket, vagy a majdani letölthető fájlokat is minden esetben ugyanabból az XML-fájlból generáljuk. Az XML-fájl azonban önmagában "csak" a szövegstruktúrára és/vagy az eredeti dokumentum formai jellemzőire vonatkozó kódokat tartalmaz. A megjelenítést szabályozó kódnak nem is szabad az XML-fájlban szerepelnie, hiszen az XML többek között épp arra van kitalálva, hogy elválassza a formai és a strukturális információkat egymástól. Az XML-fájlokból az eXtensible Stylesheet Language Transformation (XSLT) segítségével tudunk különféle kimeneteket generálni. Az XSLT lényege az, hogy egy külön fájlban tárolt utasítások segítségével az XML-struktúra különböző elemeihez megjelenítési sajátosságokat rendel hozzá. (Megjegyzés: tulajdonképpen ezt csinálják a szövegszerkesztők is, csak ott magában a fájlban vannak a megjelenési utasítások is.)

Az antikvakorpusz esetében teljesen magától értetődő volt, hogy milyen kódolási eljárást válasszak. Természetesen a TEI-t. A Text Encoding Initiative (TEI) az egyik legtöbbet emlegetett fogalom lesz ebben a blogban. Most csak annyit, hogy a TEI-XML-hez saját XSLT-t fejleszt a konzorcium, amelynek épp nemrégiben készült el a legújabb változata.

Ezzel azonban legalább két gond van. Az ember azt gondolná, hogy egy ilyen régi és széles körben használatos ajánlás egész jól működik. Sajnos nem így van. A TEI levelezőlistáján pl. épp a napokban folyik egy eszmecsere arról, hogy a TEI-XSLT (még) nem tudja jól kezelni az üres elemeket (mint amilyen pl. a <pb /> 'page break', azaz oldaltörés). A probléma lényege az, hogy ha <xx> …. <pb/> …. </xx>

típusú kódrészlettel van dolga az XSLT-nek, akkor előfordulhat, hogy információveszteség nélkül nem tudja végrehajtani a konverziót. Tegyük fel, hogy az <xx> egy <emph> elem (emphasis, azaz 'hangsúly', 'nyomaték'). Az XSLT a <pb /> utáni részre nem fogja alkalmazni az <emph>-re előírt formázást. Átmeneti megoldásként Sebastian Rahtz összedobott egy kis eszközt, amely a fentihez hasonló kódrészletekből ilyet csinál:

<xx>…. </xx><pb/><xx>….</xx> A másik (kisebb) gond az, hogy ha a TEI-XSLT fejlesztőinek ízlésétől eltérő kimenetet szeretnénk, akkor át kell írnunk a kódot.

A gondok ellenére azonban a legjobb, ha maradunk a nemzetközi gyakorlat mellett. Épp az a nagyszerű az ilyen open source projektekben, hogy mindenki hozzátesz egy kicsit, és idővel egyre tökéletesebbé lehet csiszolni a kódolási eljárásokat.

Kalcsó Gyula jegyezte be, 11:03-kor.

Címkék: TEI XSLT

Szólj hozzá!

A bejegyzés trackback címe:

https://digitalisbolcseszet.blog.hu/api/trackback/id/tr973116341

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása