A Számítógépes nyelvészet blogban sokszor esik szó a statisztikai alapú gépi nyelvfeldolgozási-elemzési metódusokról. Az eljárás lényege, hogy kellően nagy mennyiségű adat alapján viszonylag jó eredménnyel lehet nyelvi szabályszerűségekre következtetni. De vajon működik-e ez régi szövegek esetében is? Ebben a posztban csupán a kérdéskör egyik szegmense kerül elő.
Régi szövegek gépi elemzésekor számos probléma merül fel. A legtöbb gondot talán a betűhasználat következetlensége okozza. A magyar nyelv esetében a 19. század közepéig (sőt: bizonyos regiszterek esetében egészen a mai napig!) jellemző, hogy egy-egy hangot többféle betű vagy betűkapcsolat jelöl, valamint hogy egy-egy betű vagy betűkapcsolat többféle hangot is jelölhet. A nehézségeket fokozza, ha egy szövegen belül fordul elő a többféle jelölésmód. További problémát jelent, ha a szövegek többféle nyelvváltozatban, pl. többféle nyelvjárásban íródtak.
Kézenfekvőnek tűnik tehát, hogy először egységesítsük a hangjelölést, azaz azonos hang helyén mindig ugyanaz a betű vagy betűkapcsolat szerepeljen. Igen ám, de a hangérték megállapítása sokszor komoly nyelvtörténeti felkészültséget igényel, ráadásul bizonyos esetekben akár többféle olvasat is elképzelhető. A számítógép ugye nem nyelvtörténész, és nem is tud olvasni (?). Ezzel a problémával szembesültek az MTA Nyelvtudományi Intézetének kutatói is, amikor ómagyar és középmagyar kori szövegekből álló, morfológiailag elemzett és egyértelműsített korpusz létrehozását tűzték ki célul.
A korpusz építése a Magyar Generatív Történeti Szintaxis projekt részeként indult, egy tömör összefoglalót tölhetünk le a tervezett adatbázisról innen. A prezentációban látható, hogy a normalizálás (azaz a mai, egységes hangjelöléssel leírt szövegváltozat előállítása) ebben a projektben is része az automatizált elemzés előkészítésének. Magáról a folyamatról kiváló összefoglalást ad Oravecz Csaba, Sass Bálint és Simon Eszter cikke.
Az eljárás ugyanazon az elképzelésen alapul, amelyet oniegin ír le a Számítógépes nyelvészeten megjelent posztjában. A Bayes-szabályt:
(azaz egy feltételhez kötött esemény és annak inverze közti összefüggést leíró formulát) ez esetben hangjelölésre alkalmazták. A gépi fordításban ezt szó-N-gramok, jelen esetben karakter-N-gramok segítségével lehet megtenni, vagyis azt kell megvizsgálni, hogy egyes karaktercsoportok milyen valószínűséggel felelnek meg valamilyen egységes jelölésmódnak. Az MTA kutatói a legegyszerűbb megoldást választották: a mai helyesírást vették alapul, amelyben következetes a hangjelölés, vagyis azt a célt tűzték ki maguk elé, hogy a régi szövegeket mai helyesírásra konvertálják, normalizálják. (Ez nyilván hasznos is a további feldolgozási feladatok megoldásához, pl. a morfológiai elemzéshez.)
Mivel a korpusz normalizálását géppel akarták elvégezni, két dologra volt szükségük: nagy mennyiségű egységes hangjelölésű adatra (erre kiváló a Magyar Nemzeti Szövegtár korpusza, illetve annak egy részlete), valamint egy ún. tanulókorpusz (két szöveg, az ún. Müncheni emlék és a Szabács viadala), amelyben a hangjelölést nyelvtörténész kézzel egységesítette. A két korpusz közti megfelelések alapján lehet a még nem normalizált korpuszrészlet normalizálását elkezdeni. A szkript ezek alapján a régi szöveg szóalakjaiból lehetséges mai alakokat generál, és megadja az egyes alakok helyességének valószínűségét.
Mivel az antikvakorpusz esetében is megoldandó feladat volt az automatikus elemzés, ezért elgondolkodtam a módszer alkalmazhatóságán. A cikk elolvasása után több kérdés is felmerült bennem. Hogyan lehet elegendő egy 15. és egy 16. századi szövegből álló, mindössze 1525 tokent tartalmazó korpusz tanulókorpusznak? Igen nagy a valószínűsége annak, hogy sok-sok jelölésmód kimaradt belőle. Az antikvakorpusz esetében is nagyon nehéz lenne olyan szövegrészleteket kiválasztani, amelyekben minden (vagy legalább a legtöbb) lehetséges jelölésmód szerepel. Azután miért nem gyűjtjük össze inkább a lehetséges jelölésmódokat? Hiszen a 16. században (de az ómagyarban is) legfeljebb néhány tucat betűjelről beszélünk. Még a karakterbigramok esetében sem okoz gondot a kézi átfésülés (tovább tarthatott a Szabács viadalát kézzel normalizálni). A trigram már nagyobb falat, hiszen ha mondjuk 40 jelet feltételezünk, akkor már 64 000 kombinációt kellene értékelnünk. Igen ám, de bizonyos kombinációk eleve kizárhatók. Nem használatosak a régi szövegekben pl. csupa mahánhangzó- vagy mássalhangzójelből álló trigramok. De még ennél is nyomósabb érv, hogy amennyiben rendelkezésünkre állnak az egy- és kétjegyű betűk lehetséges hangértékei, nem volna egy jobb egy sztochasztikus eljárás eredménye, ha egyszerűen figyelmen kívül hagynánk a trigramokat?
Mindenesetre a régi szövegek esetében alkalmazható statisztikai módszerek területe igen izgalmas téma, valószínűleg még sokszor lesz róla szó.
Legújabb hozzászólások