View Gyula Kalcsó's profile on LinkedIn

I use TEI

Legújabb hozzászólások

2011. augusztus 17.

Régi szövegek gépi elemzése

A Számítógépes nyelvészet blogban sokszor esik szó a statisztikai alapú gépi nyelvfeldolgozási-elemzési metódusokról. Az eljárás lényege, hogy kellően nagy mennyiségű adat alapján viszonylag jó eredménnyel lehet nyelvi szabályszerűségekre következtetni. De vajon működik-e ez régi szövegek esetében is? Ebben a posztban csupán a kérdéskör egyik szegmense kerül elő.

Régi szövegek gépi elemzésekor számos probléma merül fel. A legtöbb gondot talán a betűhasználat következetlensége okozza. A magyar nyelv esetében a 19. század közepéig (sőt: bizonyos regiszterek esetében egészen a mai napig!) jellemző, hogy egy-egy hangot többféle betű vagy betűkapcsolat jelöl, valamint hogy egy-egy betű vagy betűkapcsolat többféle hangot is jelölhet. A nehézségeket fokozza, ha egy szövegen belül fordul elő a többféle jelölésmód. További problémát jelent, ha a szövegek többféle nyelvváltozatban, pl. többféle nyelvjárásban íródtak.

Kézenfekvőnek tűnik tehát, hogy először egységesítsük a hangjelölést, azaz azonos hang helyén mindig ugyanaz a betű vagy betűkapcsolat szerepeljen. Igen ám, de a hangérték megállapítása sokszor komoly nyelvtörténeti felkészültséget igényel, ráadásul bizonyos esetekben akár többféle olvasat is elképzelhető. A számítógép ugye nem nyelvtörténész, és nem is tud olvasni (?). Ezzel a problémával szembesültek az MTA Nyelvtudományi Intézetének kutatói is, amikor ómagyar és középmagyar kori szövegekből álló, morfológiailag elemzett és egyértelműsített korpusz létrehozását tűzték ki célul.

A korpusz építése a Magyar Generatív Történeti Szintaxis projekt részeként indult, egy tömör összefoglalót tölhetünk le a tervezett adatbázisról innen. A prezentációban látható, hogy a normalizálás (azaz a mai, egységes hangjelöléssel leírt szövegváltozat előállítása) ebben a projektben is része az automatizált elemzés előkészítésének. Magáról a folyamatról kiváló összefoglalást ad Oravecz Csaba, Sass Bálint és Simon Eszter cikke.

Az eljárás ugyanazon az elképzelésen alapul, amelyet oniegin ír le a Számítógépes nyelvészeten megjelent posztjában. A Bayes-szabályt:

(azaz egy feltételhez kötött esemény és annak inverze közti összefüggést leíró formulát) ez esetben hangjelölésre alkalmazták. A gépi fordításban ezt szó-N-gramok, jelen esetben karakter-N-gramok segítségével lehet megtenni, vagyis azt kell megvizsgálni, hogy egyes karaktercsoportok milyen valószínűséggel felelnek meg valamilyen egységes jelölésmódnak. Az MTA kutatói a legegyszerűbb megoldást választották: a mai helyesírást vették alapul, amelyben következetes a hangjelölés, vagyis azt a célt tűzték ki maguk elé, hogy a régi szövegeket mai helyesírásra konvertálják, normalizálják. (Ez nyilván hasznos is a további feldolgozási feladatok megoldásához, pl. a morfológiai elemzéshez.)

Mivel a korpusz normalizálását géppel akarták elvégezni, két dologra volt szükségük: nagy mennyiségű egységes hangjelölésű adatra (erre kiváló a Magyar Nemzeti Szövegtár korpusza, illetve annak egy részlete), valamint egy ún. tanulókorpusz (két szöveg, az ún. Müncheni emlék és a Szabács viadala), amelyben a hangjelölést nyelvtörténész kézzel egységesítette. A két korpusz közti megfelelések alapján lehet a még nem normalizált korpuszrészlet normalizálását elkezdeni. A szkript ezek alapján a régi szöveg szóalakjaiból lehetséges mai alakokat generál, és megadja az egyes alakok helyességének valószínűségét.

Mivel az antikvakorpusz esetében is megoldandó feladat volt az automatikus elemzés, ezért elgondolkodtam a módszer alkalmazhatóságán. A cikk elolvasása után több kérdés is felmerült bennem. Hogyan lehet elegendő egy 15. és egy 16. századi szövegből álló, mindössze 1525 tokent tartalmazó korpusz tanulókorpusznak? Igen nagy a valószínűsége annak, hogy sok-sok jelölésmód kimaradt belőle. Az antikvakorpusz esetében is nagyon nehéz lenne olyan szövegrészleteket kiválasztani, amelyekben minden (vagy legalább a legtöbb) lehetséges jelölésmód szerepel. Azután miért nem gyűjtjük össze inkább a lehetséges jelölésmódokat? Hiszen a 16. században (de az ómagyarban is) legfeljebb néhány tucat betűjelről beszélünk. Még a karakterbigramok esetében sem okoz gondot a kézi átfésülés (tovább tarthatott a Szabács viadalát kézzel normalizálni). A trigram már nagyobb falat, hiszen ha mondjuk 40 jelet feltételezünk, akkor már 64 000 kombinációt kellene értékelnünk. Igen ám, de bizonyos kombinációk eleve kizárhatók. Nem használatosak a régi szövegekben pl. csupa mahánhangzó- vagy mássalhangzójelből álló trigramok. De még ennél is nyomósabb érv, hogy amennyiben rendelkezésünkre állnak az egy- és kétjegyű betűk lehetséges hangértékei, nem volna egy jobb egy sztochasztikus eljárás eredménye, ha egyszerűen figyelmen kívül hagynánk a trigramokat?

Mindenesetre a régi szövegek esetében alkalmazható statisztikai módszerek területe igen izgalmas téma, valószínűleg még sokszor lesz róla szó.

Kalcsó Gyula jegyezte be, 11:48-kor.

Címkék: antikvakorpusz normalizálás régi szövegek gépi elemzése sztochasztikus módszerek MGTSZ N gram

2 komment

A bejegyzés trackback címe:

https://digitalisbolcseszet.blog.hu/api/trackback/id/tr953160020

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Zoltán Varjú · http://szamitogepesnyelveszet.blogspot.com/ 2011.08.18. 15:09:38

Nekem is a legnagyobb problémám az hogy egy 1525 tokenes korpusz mennyire lehet jó mint tréning korpusz.

Kérdéses továbbá hogy mennyire lehet reprezentatív maga a minta, milyen elvek mentén választották ki a tréning korpusz elemeit, hogyan törekednének arra hogy a minta "ráhúzható" legyen majd az egész populációra. Itt annyiban szerencsések vagyunk hogy maga a populáció ismert, viszont a mintavételezéshez ismerni kellene több dolgot is (milyen sztrátumokat keressünk, mekkora a csoportokon belüli ill. a csoportok közötti variancia, stb) amihez sok munka kell és számítógépes és történeti nyelvészek szoros együttműködése. Nyilván gyakorlati kérdés milyen pontosságot fogadnak el, de itt fenyeget az a veszély hogy a sztrátumok száma nagyon nagyra nő, ekkor pedig maga a minta is túl nagy lesz...

Viszont nagyon érdekelne ha valaki végre élne a citizen science és a crowdsourcing technikáival - ezen a téren megérné megkockáztatni hogy a publikumhoz forduljanak a kutatók, végezzék el a lelkes amatőrök a manuális munkát (pl átírás, ellenőrzés stb).

Kalcsó Gyula · http://digitalisbolcseszet.blog.hu 2011.08.19. 10:17:36

Az antikvakorpusz bővítése kapcsán már én is gondolkodtam a crowdsourcingon. Lehet hogy teszek is majd egy kísérletet, egy próbát mindenképpen megér.
süti beállítások módosítása