A filológiával foglalkozók jól tudják, hogy semmi sem pótolhatja az autopsziát, azaz a kutatandó szöveg kézbevételét, az eredeti dokumentum tanulmányozását. Igen ám, de sokszor komoly nehézségekbe ütközhet a hozzáférés: ha a kutató a dokumentum tárolási helyétől távol él, ha a dokumentum állapota nem teszi lehetővé a használatot, vagy abban a nem ritka esetben, amikor a dokumentum megsemmisül, elvész stb. A digitális archiválás sokat segít ezeken a nehézségeken. Magának a digitalizálásnak a fogalma is megér egy misét (értsd: külön posztot), de jelen bejegyzésben inkább arról szeretnék szólni, hogy milyen lenne az ideális digitális változata egy archiválandó dokumentumnak.
Úgy gondolom, alapvetően négy követelménynek kell eleget tennie.
- Először is: hozzáférhető legyen az interneten.
- Másodszor: tanulmányozható legyen jó minőségű fotón.
- Harmadszor: minél teljesebb körű keresést lehessen végezni a szövegben (vagy akár a szövegen kívüli dokumentumegységekben is).
- Negyedszer: hasznos, ha valamilyen formában le is menthetjük a saját gépünkre.
Nos, az a helyzet, hogy ilyen archivált dokumentumot eddig még nem találtam (persze mindig hozzá kell tennünk: lehet, hogy nem kerestem elég jól).
A fent felsorolt követelményeknek részben eleget tevő online dokumentumok különböző szintjeit képviselik a digitális filológiai igényességnek. A legalapvetőbb (mondhatni legigénytelenebb) megoldás, ha mondjuk egy irodalmi mű valamilyen szövegváltozát valamilyen egyszerű szövegformátumban teszik közzé. A korai MEK dokumentumai között sok ilyet lehetett találni, eleinte TXT-fájlként, később már esetleg RTF-változatban is le lehetett tölteni ezeket. Volt is felzúdulás a filológusok körében (joggal). Sokszor előfordult pl. az, hogy valamilyen igénytelen kiadásnak a szövegét vették alapul (és gépelték be), felrúgva a legalapvetőbb szövegközlési normákat is. Mentségükre szolgáljon az, hogy szerzői jogi problémákkal is meg kellett küzdeniük, valamint némileg az is, hogy az ilyen rossz szöveg is jobb a semmilyennél (?). A MEK esetében a mai napig a legtöbb dokumentum ennek a két kritériumnak tesz eleget: online hozzáférhető, és valamilyen formában (ma már leggyakrabban PDF-ben) letölthető.
Ez utóbbi formátum már egy fejlettebb szintje a digitális archiválásnak. A PDF-ben ugyanis integrálva van (lehet) a dokumentum fotója is. De arra is van példa, hogy a PDF nem tartalmaz képet, csak a tisztított (vagy éppen tisztítatlan) OCR-ezett (Optical Character Recognition, azaz optikai karakterfelismerés) vagy begépelt szöveg található benne. A legfejlettebb változat az ún. kétrétegű PDF, amelyben a dokumentum képe és OCR-ezett szövege össze is van kapcsolva, és kereshetünk is benne. Mielőtt hátradőlhetnénk, hogy na akkor meg is van a megoldás, fontos leszögezni, hogy az OCR-ezett szöveg korrektúra nélkül igényesebb kutatómunkára alkalmatlan. De még a korrektúrázott változatok sem elégíthetnek ki minden igényt, a PDF-technológia által megszabott keretek ugyanis nem tesznek lehetővé speciális annotációt (pl. nem tudjuk logikai markuppal ellátni a szöveget, azaz olyan kódokat használni, amelyek segítségével a szövegen túl másra is kereshetnénk). Mindazonáltal a kétrégetű PDF – különösen nem túl régi, speciális nyomdai megoldásokat nem alkalmazó, jól OCR-ezhető dokumentumok esetében – jól működhet. (Jó példa erre az Erdélyi magyar szótörténeti tár, amelyben végre online kereshet a kutató, nem kell a többkilós köteteket emelgetnie, vagy csak azért a könyvtárban ülnie, hogy használhassa a nem kölcsönözhető 12 vaskos kötetből álló szótárt.)
Előfordul az a megoldás is, hogy csupán a dokumentumról készült képeket lehet megnézegetni (és esetleg letölteni). Természetesen ez is óriási segítséget jelenthet a kutatóknak, hiszen rengeteg időt, pénzt, fáradságot spórolhatnak meg azzal, hogy nem kell a kutatott objektum tárolási helyére utazniuk.
De milyen is az ideális digitálisan archivált dokumentum?
Először is: olyan formátumban tárolják, amely szabványos, platformfüggetlen, könnyen megosztható, és lehetővé teszi a logikai markupot. A legjobb megoldás az XML. Az XML-fájlból előállítható HTML-kimenet a böngészős megjelenítéshez, és PDF a letöltéshez (mivel a PDF is XML-alapú). Az XML-fájlok össze vannak kapcsolva a dokumentumról készült jó minőségű fényképpel, mégpedig oly módon, hogy a szövegben vagy a kódban végzett keresés eredménye a fotón is megjeleníthető. A szövegben elhelyezett kódok nem csupán a szövegstruktúrát írják le, hanem a hagyományos nyomtatott kritikai kiadásokhoz hasonlóan (képzett filológus által megállapított!) gazdag szövegkritikiai információkat is kódolnak. Ez az, amire a kétrétegű PDF (még) nem képes, illetve csak korlátozottan, és nehezen visszakereshető módon: kézi jegyzeteket ugyanis természetesen fűzhetünk hozzá. Elvileg lehetséges a PDF-szabvány módosítása, hiszen nyílt a forráskódja. Elképzelhető lenne pl. a TEI-XML és a PDF integrálása. Ilyen törekvésekről azonban nincs tudomásom (az okokról van elképzelésem, de ez messzire vezetne a tárgytól, talán majd egy másik posztban).
Az interneten hozzáférhető, filológiailag igényes projektek általában a szöveg-kép összekapcsolást nem valósítják meg. Ezek többnyire az XML-forrásfájlban tárolt szöveget jelenítik meg, a szövegkritikai jegyzetekkel (általában hipertextes megoldással). Ilyenek pl. az ELTE-n készült hálózati kritikai kiadások, bár egyik-másik esetében a fotók is megjeleníthetők, csak nincsenek összekapcsolva a szöveggel. Ennél még jobb, amikor saját keresőfelületet is kínálnak, ahol a különböző kódolt információkra is lehet keresni. Úgy gondolom, hogy a digitális bölcsészet fejlődése azonban hamarosan lehetővé teszi a fent leírt ideális digitális dokumentumok webes megjelenését is. A TEI pl. nagy hangsúlyt fektet az ilyen irányú fejlesztésre, a P5-ös verziójú Guidelines 11. és 12. fejezete a tárgyalt problémával foglalkozik.
Legújabb hozzászólások