View Gyula Kalcsó's profile on LinkedIn

I use TEI

Legújabb hozzászólások

2011. augusztus 6.

TEI és Drupal

A címben említett házasság biztosan a sikeresebbek közé fog tartozni, még akkor is, ha – mint minden házasság – ez sem mentes a súrlódásoktól, kisebb zökkenőktől. Már említettem, hogy a TEI az antikvakorpusz esetében kötelező választás volt, nincs igazán jó alternatívája. A Drupalról hasonlókat lehet elmondani. Bár igen sok CMS (Content Management System, azaz tartalomkezelő rendszer) áll már rendelkezésre, véleményem szerinte azonban a Drupal messze kimagaslik a többihez képest rugalmasságával, és nem ami talán még fontosabb: biztonságosságával.

Ahhoz, hogy a Drupalba TEI-t lehessen integrálni, a CMS-ünket alkalmassá kell tennünk az XML kezelésére. Ehhez külön modulokkal kell (?) kiegészítenünk. Az XML-kezelő modulok mindegyike a PHP XML-feldolgozó képességeit használja ki.

Stephanie Shchlitz blogjában ír arról, hogy a TEI-EJ projektben hogyan használják az XML Content modult. A modul nem csupán az XML-fájlok (akár XSL-es) megjelenítésére képes, hanem alkalmas validálásra is. PHP 5-öt igényel, azon egyszerű oknál fogva, hogy a SimpleXML kiterjesztést használja. (A SimpleXML-lel nagyon elegánsan megoldható az XML-feldolgozás, ugyanis objektummá tudjuk konvertálni a forrásunkat, és onnantól kezdve egyszerűvé válik az egyes elemek, attribútumaik és tartalmuk elérése, valamint könnyedén tudunk velük tömbindexekkel műveleteket végezni.)

Az XML Content tulajdonképpen arra alkalmas, hogy a Drupalban új beviteli formát hoz létre, ahol XML-fájlt adhatunk meg. Telepítése a szokásos módon történik: a legjobb megoldás, ha a sites/all/modules mappába másoljuk a tömörített csomag tartalmát. Ezután az adminisztrációs felületen a modulok között engedélyeznünk kell. Mint említettem, új beviteli formát hoztunk létre, amely az új tartalmak beküldésekor lesz választható, tehát a webhelybeállítások között, a beviteli formák adminisztrációs felületén tudjuk megadni, hogy mely tartalomtípusok bevitelekor használható (alapértelmezés szerint mindegyikhez hozzá lesz rendelve), valamint itt konfigurálhatjuk az XML-lel kapcsolatos dolgokat: az XSLT elérési útját adhatjuk meg, továbbá a validálás módját (ha akarunk egyáltalán validálni).

Van azonban néhány ellenérv a modul használatával kapcsolatban. Egyrészt csak fejlesztői változatban létezik, jelenleg nincs belőle hivatalos stabil verzió. Másrészt csak Drupal 6-ig hozzáférhető, a legújabb Drupal-verzió alatt használhatatlan. Sajnos nincs azonban más modul, amely alkalmas lenne a TEI-XML-fájlok kezelésére. (Úgyhogy magyar Drupal-modulfejlesztők hajrá!)

Az egyetlen mód arra, hogy ne kelljen kompromisszumokat kötni az antikvakorpusz esetében, ha saját megoldást dolgozok ki a probléma kezelésére. A fentebb már említett PHP SimpleXML lehetőséget ad erre. Ebben az esetben a Drupal node tulajdonképpen egy PHP-szkriptet fog meghívni, amely elvégzi az XML-feldolgozást. Ennek részletei azonban már egy későbbi posztban kaphatnak helyet.

Kalcsó Gyula jegyezte be, 17:22-kor.

Címkék: antikvakorpusz PHP XML CMS Drupal TEI

3 komment

2011. augusztus 3.

Digitális kiadások

A filológiával foglalkozók jól tudják, hogy semmi sem pótolhatja az autopsziát, azaz a kutatandó szöveg kézbevételét, az eredeti dokumentum tanulmányozását. Igen ám, de sokszor komoly nehézségekbe ütközhet a hozzáférés: ha a kutató a dokumentum tárolási helyétől távol él, ha a dokumentum állapota nem teszi lehetővé a használatot, vagy abban a nem ritka esetben, amikor a dokumentum megsemmisül, elvész stb. A digitális archiválás sokat segít ezeken a nehézségeken. Magának a digitalizálásnak a fogalma is megér egy misét (értsd: külön posztot), de jelen bejegyzésben inkább arról szeretnék szólni, hogy milyen lenne az ideális digitális változata egy archiválandó dokumentumnak.

Úgy gondolom, alapvetően négy követelménynek kell eleget tennie.

  • Először is: hozzáférhető legyen az interneten.
  • Másodszor: tanulmányozható legyen jó minőségű fotón.
  • Harmadszor: minél teljesebb körű keresést lehessen végezni a szövegben (vagy akár a szövegen kívüli dokumentumegységekben is).
  • Negyedszer: hasznos, ha valamilyen formában le is menthetjük a saját gépünkre.

Nos, az a helyzet, hogy ilyen archivált dokumentumot eddig még nem találtam (persze mindig hozzá kell tennünk: lehet, hogy nem kerestem elég jól).

A fent felsorolt követelményeknek részben eleget tevő online dokumentumok különböző szintjeit képviselik a digitális filológiai igényességnek. A legalapvetőbb (mondhatni legigénytelenebb) megoldás, ha mondjuk egy irodalmi mű valamilyen szövegváltozát valamilyen egyszerű szövegformátumban teszik közzé. A korai MEK dokumentumai között sok ilyet lehetett találni, eleinte TXT-fájlként, később már esetleg RTF-változatban is le lehetett tölteni ezeket. Volt is felzúdulás a filológusok körében (joggal). Sokszor előfordult pl. az, hogy valamilyen igénytelen kiadásnak a szövegét vették alapul (és gépelték be), felrúgva a legalapvetőbb szövegközlési normákat is. Mentségükre szolgáljon az, hogy szerzői jogi problémákkal is meg kellett küzdeniük, valamint némileg az is, hogy az ilyen rossz szöveg is jobb a semmilyennél (?). A MEK esetében a mai napig a legtöbb dokumentum ennek a két kritériumnak tesz eleget: online hozzáférhető, és valamilyen formában (ma már leggyakrabban PDF-ben) letölthető.

Ez utóbbi formátum már egy fejlettebb szintje a digitális archiválásnak. A PDF-ben ugyanis integrálva van (lehet) a dokumentum fotója is. De arra is van példa, hogy a PDF nem tartalmaz képet, csak a tisztított (vagy éppen tisztítatlan) OCR-ezett (Optical Character Recognition, azaz optikai karakterfelismerés) vagy begépelt szöveg található benne. A legfejlettebb változat az ún. kétrétegű PDF, amelyben a dokumentum képe és OCR-ezett szövege össze is van kapcsolva, és kereshetünk is benne. Mielőtt hátradőlhetnénk, hogy na akkor meg is van a megoldás, fontos leszögezni, hogy az OCR-ezett szöveg korrektúra nélkül igényesebb kutatómunkára alkalmatlan. De még a korrektúrázott változatok sem elégíthetnek ki minden igényt, a PDF-technológia által megszabott keretek ugyanis nem tesznek lehetővé speciális annotációt (pl. nem tudjuk logikai markuppal ellátni a szöveget, azaz olyan kódokat használni, amelyek segítségével a szövegen túl másra is kereshetnénk). Mindazonáltal a kétrégetű PDF – különösen nem túl régi, speciális nyomdai megoldásokat nem alkalmazó, jól OCR-ezhető dokumentumok esetében – jól működhet. (Jó példa erre az Erdélyi magyar szótörténeti tár, amelyben végre online kereshet a kutató, nem kell a többkilós köteteket emelgetnie, vagy csak azért a könyvtárban ülnie, hogy használhassa a nem kölcsönözhető 12 vaskos kötetből álló szótárt.)

Előfordul az a megoldás is, hogy csupán a dokumentumról készült képeket lehet megnézegetni (és esetleg letölteni). Természetesen ez is óriási segítséget jelenthet a kutatóknak, hiszen rengeteg időt, pénzt, fáradságot spórolhatnak meg azzal, hogy nem kell a kutatott objektum tárolási helyére utazniuk.

De milyen is az ideális digitálisan archivált dokumentum?

Először is: olyan formátumban tárolják, amely szabványos, platformfüggetlen, könnyen megosztható, és lehetővé teszi a logikai markupot. A legjobb megoldás az XML. Az XML-fájlból előállítható HTML-kimenet a böngészős megjelenítéshez, és PDF a letöltéshez (mivel a PDF is XML-alapú). Az XML-fájlok össze vannak kapcsolva a dokumentumról készült jó minőségű fényképpel, mégpedig oly módon, hogy a szövegben vagy a kódban végzett keresés eredménye a fotón is megjeleníthető. A szövegben elhelyezett kódok nem csupán a szövegstruktúrát írják le, hanem a hagyományos nyomtatott kritikai kiadásokhoz hasonlóan (képzett filológus által megállapított!) gazdag szövegkritikiai információkat is kódolnak. Ez az, amire a kétrétegű PDF (még) nem képes, illetve csak korlátozottan, és nehezen visszakereshető módon: kézi jegyzeteket ugyanis természetesen fűzhetünk hozzá. Elvileg lehetséges a PDF-szabvány módosítása, hiszen nyílt a forráskódja. Elképzelhető lenne pl. a TEI-XML és a PDF integrálása. Ilyen törekvésekről azonban nincs tudomásom (az okokról van elképzelésem, de ez messzire vezetne a tárgytól, talán majd egy másik posztban).

Az interneten hozzáférhető, filológiailag igényes projektek általában a szöveg-kép összekapcsolást nem valósítják meg. Ezek többnyire az XML-forrásfájlban tárolt szöveget jelenítik meg, a szövegkritikai jegyzetekkel (általában hipertextes megoldással). Ilyenek pl. az ELTE-n készült hálózati kritikai kiadások, bár egyik-másik esetében a fotók is megjeleníthetők, csak nincsenek összekapcsolva a szöveggel. Ennél még jobb, amikor saját keresőfelületet is kínálnak, ahol a különböző kódolt információkra is lehet keresni. Úgy gondolom, hogy a digitális bölcsészet fejlődése azonban hamarosan lehetővé teszi a fent leírt ideális digitális dokumentumok webes megjelenését is. A TEI pl. nagy hangsúlyt fektet az ilyen irányú fejlesztésre, a P5-ös verziójú Guidelines 11. és 12. fejezete a tárgyalt problémával foglalkozik.

2011. augusztus 1.

Kódból kimenet

Az első posztom egyik kommentjében említettem, hogy az antikvakorpusz esetében is azt a nemzetközi normáknak megfelelő gyakorlatot próbálom követni, hogy minden, a weben megjelenő tartalmat a szövegek kódolt változatából, az alapfájlból állítok elő. Ez azt jelenti, hogy pl. a lapozóban (pager) megjelenített szövegrészleteket, vagy a majdani letölthető fájlokat is minden esetben ugyanabból az XML-fájlból generáljuk. Az XML-fájl azonban önmagában "csak" a szövegstruktúrára és/vagy az eredeti dokumentum formai jellemzőire vonatkozó kódokat tartalmaz. A megjelenítést szabályozó kódnak nem is szabad az XML-fájlban szerepelnie, hiszen az XML többek között épp arra van kitalálva, hogy elválassza a formai és a strukturális információkat egymástól. Az XML-fájlokból az eXtensible Stylesheet Language Transformation (XSLT) segítségével tudunk különféle kimeneteket generálni. Az XSLT lényege az, hogy egy külön fájlban tárolt utasítások segítségével az XML-struktúra különböző elemeihez megjelenítési sajátosságokat rendel hozzá. (Megjegyzés: tulajdonképpen ezt csinálják a szövegszerkesztők is, csak ott magában a fájlban vannak a megjelenési utasítások is.)

Az antikvakorpusz esetében teljesen magától értetődő volt, hogy milyen kódolási eljárást válasszak. Természetesen a TEI-t. A Text Encoding Initiative (TEI) az egyik legtöbbet emlegetett fogalom lesz ebben a blogban. Most csak annyit, hogy a TEI-XML-hez saját XSLT-t fejleszt a konzorcium, amelynek épp nemrégiben készült el a legújabb változata.

Ezzel azonban legalább két gond van. Az ember azt gondolná, hogy egy ilyen régi és széles körben használatos ajánlás egész jól működik. Sajnos nem így van. A TEI levelezőlistáján pl. épp a napokban folyik egy eszmecsere arról, hogy a TEI-XSLT (még) nem tudja jól kezelni az üres elemeket (mint amilyen pl. a <pb /> 'page break', azaz oldaltörés). A probléma lényege az, hogy ha <xx> …. <pb/> …. </xx>

típusú kódrészlettel van dolga az XSLT-nek, akkor előfordulhat, hogy információveszteség nélkül nem tudja végrehajtani a konverziót. Tegyük fel, hogy az <xx> egy <emph> elem (emphasis, azaz 'hangsúly', 'nyomaték'). Az XSLT a <pb /> utáni részre nem fogja alkalmazni az <emph>-re előírt formázást. Átmeneti megoldásként Sebastian Rahtz összedobott egy kis eszközt, amely a fentihez hasonló kódrészletekből ilyet csinál:

<xx>…. </xx><pb/><xx>….</xx> A másik (kisebb) gond az, hogy ha a TEI-XSLT fejlesztőinek ízlésétől eltérő kimenetet szeretnénk, akkor át kell írnunk a kódot.

A gondok ellenére azonban a legjobb, ha maradunk a nemzetközi gyakorlat mellett. Épp az a nagyszerű az ilyen open source projektekben, hogy mindenki hozzátesz egy kicsit, és idővel egyre tökéletesebbé lehet csiszolni a kódolási eljárásokat.

2011. július 30.

Nem találunk szavakat

Mivel is lehetne manapság frappánsabban elkezdeni egy blogot? Esterházy Péter 1979-es Termelési regényének kezdőmondata azért illik kis blogunk nyitóposztjába, mert valami olyasmit érzek, mint amit Esterházy mondata mögé gondolok: lehet egyáltalán ma blogot indítani (lehet egyáltalán ma regényt írni – gondolhatta (a fene) Esterházy)? Nomeg itt van ez a digitális bölcsészet. Ami ugye irodalomtudomány is. Meg még mi? (De erről később.)

Szóval manapság csak blogolni lehet, de blogot indítani? Nehéz ügy. Annyi blog van. Az embernek az az érzése, hogy mindenről ír már valaki, sőt: mindenről többen írnak. Aztán ott van a Facebook, a Twitter és a többi "közösségi". Ezeken is megosztanak, csoportokban folyik mindenféléről a diskurzus stb. Minek akkor a blog? Régóta töröm a fejem azon, hogy elindítok egy szakmai blogot, de sokáig hiányzott valami, ami igazán motivál. Most, hogy lassan elkészül a mindennapi munkám fő csapásirányát jelentő antikvakorpusz új, drupalos honlapja, úgy éreztem, itt az idő.

Ezen a blogon tudományról (?) lesz szó. Nem ismeretterjesztő oldalnak szánom, de nem leszek szomorú attól, ha nem szakmabeliek is olvasni fogják (igyekszem ezt majd amennyire lehet, szem előtt tartani). A munkám során összegyűjtött tapasztalatokról, a szakirodalomról, webes helyekről, a digitális bölcsészet híreiről, eseményeiről, eszközökről, projektekről és még sok minden másról lesz szó. De miért is?

Vagyunk ma már elég sokan kis hazánkban, akik ezzel a területtel foglalkozunk (még ha nem is vagyunk ennek tudatában, mint sokáig én se :)). Ennek ellenére nem nagyon van a DH-t (digital humanities, gyakran csak így fogom emlegetni) átfogó internetes platform (vagy csak nem néztem szét eléggé?), ahol tájékozódni, eszmét cserélni stb. lehetne. Van pl. a nyelvtechnológusoknak ilyen, vagy számítógépes nyelvészeti blog, aztán a megannyi könyvtári honlap és blog, ahol digitalizálásról van szó, van (kicsit halottnak tűnő) irodalomtudományi oldal, és még sorolhatnám (fogom is!). Szóval nem akarok én itten se az úttörő színében tetszelegni, meg úgy tenni, mintha az egyetlen hely lenne ez a blog, ami ilyesmire jó, de örülnék, ha kialakulna itt egy szakmai diskurzus, mégpedig kötetlen, baráti hangvételben, jó hangulatban.

De miről is van szó? Mi ez a digitális bölcsészet? A fentebb már említett számítógépes nyelvészeti blog szerzője, Varjú Zoltán szerint nem külön diszciplína, hanem "csak" metodológia. Király Péter, a hazai TEI-kódolás egyik úttörője, könyvtári informatikus, a MEK "aktivistája" a 2010 májusában, a THATCamp-konferencián elfogadott nemzetközi kiáltvány fordítását közli blogjában. Eszerint a digitális bölcsészet "transzdiszciplína", amely "magába foglalja mindazokat a módszereket, rendszereket és heurisztikus szemléletmódokat melyek a bölcsészet- és társadalomtudományokban fellelhető digitális dolgokhoz köthetőek". Valami ilyesmit gondolok én is. Nincs "digitális bölcsész", illetve csak az van (épp ezért van jól, hogy nincs digitális bölcsészet alapszak a felsőoktatási intézményeinkben, hanem csak MA, pl. Debrecenben vagy a Pázmányon, ahová valamely bölcsészeti vagy társadalomtudományi, urambocsá' informatikus, matematikus alapszakon végzetteket várnak). Manapság az, aki komolyan veszi az irodalom-, nyelv-, történelem-, könyvtár-, szociológia-, régészet-, levéltári, muzeológiai stb-stb. tudományt, nem kerülheti ki azokat a dolgokat, amelyeket a "digitális" jelző takar.

"Másnap Esterházy így replikázott: "Szavakat vezet világtalan"." Ennek fényében indulunk.

süti beállítások módosítása