View Gyula Kalcsó's profile on LinkedIn

I use TEI

Legújabb hozzászólások

2011. szeptember 2.

Bevezetés a korpusznyelvészetbe

A digitális bölcsészet bármely területét is tekintjük, ki lehet jelenteni: magyar nyelven jóformán teljesen hiányoznak a bevezető, alapozó könyvek. Persze ennek nyilván az is lehet az oka, hogy ezen területek művelői tudnak angolul, és nem hiányoznak nekik a magyar szakirodalmak. Viszont miután hazánkban már két egyetemen is lehet digitális bölcsészet mesterképzésre járni (ezekről l. az első posztomat), és várhatóan egyre nagyobb lesz az érdeklődés a felsőoktatásban (azt is el tudom képzelni, hogy minden bölcsész- és társadalomtudományi szakosnak jól jönne legalább egy ilyen kurzus), hamarosan szükség lesz alapozó tankönyvekre.

A ritka kivételek közé tartozik Szirmai Monika Bevezetés a korpusznyelvészetbe c. műve. A könyv a Tinta Kiadónál jelent meg a Segédkönyvek a nyelvészet tanulmányozásához c. sorozat XLVI. darabjaként 2005-ben, ma már letölthető a fenti linkről. A könyvnek van egy alcíme is: A korpusznyelvészet alkalmazása az anyanyelv és az idegen nyelv tanulásában és tanításában. A főcím és az alcím a kötet két fő részét reprezentálja, ugyanis az első négy fejezet a bevezető, az 5. pedig az alcímben jelzett témáról szól. A szerző a művét "a lehető legszélesebb közönségnek" szánja, de arra törekedett – mint a bevezető előtt írja –, hogy főként a nyelvszakos egyetemi hallgatók, az általános és középiskolai tanárok, a magyar nyelvet és irodalmat, valamint idegen nyelvet tanító tanárok és a nyelvtanulók forgassák haszonnal.

Az első fejezet címe Mi a korpusznyelvészet? A szerző a bevezetőben hangsúlyozza, hogy a korpusznyelvészet nem azonos a számítógépes nyelvészettel, az utóbbi művelője ugyanis nem nélkülözheti a programozási ismereteket, míg az előbbié igen (bár nem hátrány, ha mégis konyít hozzá). Az első fejezetben a korpusz fogalmával és a korpusztervezés alapvető mozzanataival foglalkozik (mint a reprezentativitás, a mintavétel, a korpuszok fajtái, az annotáció).

Némiképp logikátlan, hogy ezután következik a Számítástechnika és nyelvtudomány c. fejezet (szerintem ugyanis ezzel kellett volna kezdeni). Ebben a számítástechnika nagyon vázlatos története után a korpuszok fejlődésének a leírása következne (az alcím szerint). Ebben a részben azonban inkább tudománytörténetről van szó, sőt: a kapcsolódó tudományágak áttekintése is ide került, különösen a számítógépes nyelvészetnek (azon belül is a magyarországi kutatásoknak) szentel nagyobb figyelmet. A fejezetet néhány külföldi folyóirat bemutatása zárja.

A harmadik (legterjedelmesebb) fejezet címe: A korpuszokról. Ebben a részben konkrét korpuszok ismertetése található. Sajnos a fejezet felépítése ismét logikátlan egy kicsit: néhány korpusz (mindenféle indoklás nélkül) külön alfejezetbe került, míg a végén nyelvek szerinti csoportosításban egy-egy alfejezet több korpusz bemutatását tartalmazza. Összességében azonban igen jó áttekintést ad a legfontosabb korpuszokról (beleértve a magyar nyelvűeket is).

A negyedik fejezetben A szoftverekről esik szó. Mivel a könyvet a szélesebb közönségnek szánja a szerző, érthető, hogy elsősorban azokra a programokra koncentrál, amelyeket különösebb szakértelem nélkül is tud gyakorlatilag bármely felhasználó szövegfeldolgozásra használni, ezért a konkordanciaprogramok ismertetése került a fókuszba. Feltétlenül kiemelendő, hogy a szerző elsősorban az ingyenesen hozzáférhető szoftverekre koncentrál.

Az ötödik fejezet a könyv alcímében megnevezett témát járja körül: Korpusznyelvészeti módszerek az oktatásban. Látszik, hogy ez a szerző fő szakterülete, hiszen igen alaposan, és a többi fejezethez képest jóval logikusabban és áttekinthetőbben tárgyalja, hogy miként lehet a korpuszokat és a konkordanciákat az anyanyelv- és idegennyelv-oktatásban és -tanulásban felhasználni. Egy tanár számára pl. nagyon hasznosak lehetnek az 5.5-ös részben ismertetett feladattípusok (Saját készítésű feladatok címmel).

A kötet leghasznosabb része ezután következik: a könyvben szereplő korpuszok, szövegtárak és adatbázisok listája (internetes elérhetőségükkel együtt), valamint egy többnyelvű fogalomtár. Ezeken túl a 2005-ig terjedő időszakig egész jó bibliográfia, valamint tárgy-, név- és korpuszmutató zárja a könyvet.

Bevezet-e a korpusznyelvészetbe a Bevezetés a korpusznyelvészetbe? Igen is, meg nem is.

Ami jól benne van: néhány alapfogalom (igen hasznos a többnyelvű fogalomtár), a korpuszfajták bemutatása, a legfontosabb korpuszok bemutatása (a mellékelt listával együtt), a konkordanciaprogramok és alkalmazásuk, valamint egy alkalmazási terület: a nyelvoktatás.

Ami hiányzik belőle: valamivel áttekinthetőbb tudománytörténet, a nyelvészeti alkalmazások szélesebb körének a bemutatása (ha már bevezetés a korpusznyelvészetbe), és ami a legfontosabb: szerintem alapvonalakban igenis szót kellene ejteni egy ilyen témájú könyvben a kódolásról.

Összességében azonban örülnünk kell neki, hogy legalább a korpuszokról van egy olyan bevezető tankönyv, amely az általánosabb célú DH-képzésben igenis jól használható (kevés viszont a korpusznyelvészethez).

Kalcsó Gyula jegyezte be, 14:10-kor.

Címkék: könyv digitális bölcsészet korpuszok korpusznyelvészet

13 komment

A bejegyzés trackback címe:

https://digitalisbolcseszet.blog.hu/api/trackback/id/tr943197757

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Zoltán Varjú · http://szamitogepesnyelveszet.blogspot.com/ 2011.09.03. 09:32:47

Én még nem fejeztem be a könyv olvasását, de nekem is furcsa a számítástudományhoz való viszonya - de az első három fejezet alapján ez egy elfogadható tankönyv.

Szerintem tény hogy a nyelvészet területén követelmény egy minimális programozási tudás (jó esetben ez kiegészül egy kis adatbázis és markup háttérrel is) ez az amit Stefan Th. Gries 'linguistic computing' névvel illet, inkább gyakorlati megközelítés, adatkezelés és elemzés, nem szoftvermérnökség és/vagy számítástudomány. (Mellesleg az alapok elvileg adottak ehhez mivel egy nyelvész tanul logikát, egy kis halmazelméletet, jó esetben formális nyelveket és egy kis statisztikát is...)

Nekem nem is az a problémám hogy nincs rendes tankönyv - annak ez a kötet megteszi, aki elolvassa mehet tovább a klasszikus bevezetőkre mint pl McEnry-Wilson Corpus Linguistics kötete és onnét tovább is léphet Oakes Statistics for Corpus Linguistics és Gries Quantitative Corpus Linguistics with R könyveivel. De ami ezek között és után van az hiánycikk! Mindenki magának szedegeti össze a tudását és össze-vissza haladunk az úton. Szerintem a leghasznosabb dolog egy "study guide" lenne ami összeszedi mit érdemes megtanulni, milyen sorrendben stb. Ezek nagyon elterjedtek más területeken, nekem nagy kedvencem a Learning about Machine Learning measuringmeasures.com/blog/2010/3/12/learning-about-machine-learning-2nd-ed.html

Ami nagyon de nagyon kellene a területre belépőknek az egy jó gyakorlókorpusz. Nyers szövegek, annotált szövegek, egy könnyen használható POS tagger és egy stemmer. Ha ezek adottak akkor adaptálhatóak lennének a népszerű R és NLTK példák és sokkal könnyebb lenne belépni erre a területre a kezdőknek... (Itt nem gondolok nagy dologra, hiszen pl a MEK-ből simán lehet nyers szöveget kinyerni, a Snowball stemmer használható az NLTK-ból és az R-hez is van wrapper, csak egy elfogadható minőségű könnyen használható tagger-re lenne még szükség ami a legegyszerűbben úgy menne ha valaki publikussá tenne egy jó adag pos-taggelt korpuszt)

Kalcsó Gyula · http://digitalisbolcseszet.blog.hu 2011.09.03. 10:02:18

A study guide-dal kapcsolatban nagyon igazad van. A gyakorlókorpusz is jó ötlet, bár én (DH-s szmeszögből) nem annyira nyelv(észet)specifikusra tervezném. Ehhez egyébként esetleg használhatóak lennének a MOKK-os cuccok (hunmorph: mokk.bme.hu/resources/hunmorph/, hunpos: code.google.com/p/hunpos/), nem?

Zoltán Varjú · http://szamitogepesnyelveszet.blogspot.com/ 2011.09.03. 10:24:47

A probléma az csupán hogy nehezen használhatóak, ha odaadod ezeket valakinek 1) nem biztos hogy tudja telepíteni 2) én linuxon pipeline-ban használom héba-hóba ezeket, de erre nem vevők az emberek, platformfüggetlen megoldást kellene találni amiben végig dolgozhat valaki.

Én arra gondoltam hogy egy egyszerű trainer-el kellene az NLTK-hoz taggert készíteni. Jó, nem lenne olyan minőségű amit az ipar vagy a kutatás igényel, de használható lenne. Ehhez pedig egy POS-tagelt korpusz kelle csak - nem ismersz egyet ami szabadon felhasználható erre ? :D

Érdemes lenne átbeszélni milyen lenne egy kis magyar gyakorlókorpusz, nem ártana összerakin egy ilyet. Nem csak nyelvészek DHsok de szerintem infósok is használni tudnák (rögtön az ugrik be hogy az nltk-t mennyire jó lenne magyar példákkal felturbózni). Össze kellene írni a tervezési szempontokat! Engem régóta foglalkoztat ez, ha akadnak hasonló őrültek, én benne lennék egy ilyen "open source/ open data" projektben.

Kalcsó Gyula · http://digitalisbolcseszet.blog.hu 2011.09.04. 09:37:57

A Szeged Korpusz licence tiltja az ilyen irányú felhasználást?

Zoltán Varjú · http://szamitogepesnyelveszet.blogspot.com/ 2011.09.04. 10:29:50

@Kalcsó Gyula: Amennyire én tudom körülményes megszerezni a korpuszt. Levéleben (! - nem emailben vagy valamilyen online felületet kitöltve) kell kérni, gondolom hogy ha valaki kéri akkor kiadják az adatokat az óráihoz is hogy tudjon tanítani, de szerintem szükség lenne egy olyan nyílt adathalmazra amit tényleg szabadon lehet letölteni, elemezni sőt akár módosítani és terjeszteni is.

Én úgy látom hogy a legjobb az lenne ha a MEK egy részét dolgozná fel valaki -azzal tutira nem lehet baj.

kirunews 2011.09.06. 22:18:26

Mi lenne, ha csinálnánk egy oldalt a MEK-ben, és meghirdetnénk többé kevésbé világosan, hogy mi kellene. Az ezzel foglalkozó tanszékek munkatársainak célzottan, és egy csomó levelezőlistára, fórumra, facebook oldalra pedig kampányszerűen meg lehetne hirdetni. Én nem vagyok ebben otthon, úgyhogy nem tudom, hogy mekkora szövegre gondolsz: Pál utcai fiúk vagy Egri csillagok? Lehetne modernebb szöveg is, és ekkor előzetesen megkereshetnénk a szerzőt, hogy járuljon hozzá. A MEK-es részét a dolognak meg tudom szervezni. Ha bármi technikai segítség kell, akkor feltehetőleg azt is. El tudnák képzelni egy olyan együttműködést, hogy megfelelő előkészítés után 4-5 tanszék egy féléves szeminárium során feldolgozza ugyanannak a szövegnek a réjuk eső részét párhuzamosan, közben pedig lehet egy-két közös meetinget is tartani.

Kalcsó Gyula · http://digitalisbolcseszet.blog.hu 2011.09.07. 13:09:27

@kirunews: Egyelőre az ötletelés fázisában van a dolog, de nagyon örülnénk a segítségednek. Előre is kösz. Egyébként itt nem egy szövegről lenne szó, hanem óriási (elég nagy) szöveggyűjteményről.

kirunews 2011.09.08. 14:38:10

@zoltanvarju, @Kalcsó Gyula: elkezdtem a dolog megvalósításának praktikus kérdésein gondolkozni. Kérlek, hogy próbáljatok választ adni ezekre a kérdésekre, ha lehetséges:

- sosem csináltam POS tagelést, így nem tudom, hogy ez mivel jár, de látatlanban irreális, hogy pusztán "valaki" (vagyis egy mégoly elszánt tegelő) létre tudja hozni a korpuszt. Van-e reális becslés arról, hogy egy felkészült szakembernek/hallgatónak mennyi lehet a "normája" (pl. az OSzK-ban kb. negyedóra egy átlagos könyv katalogizálása.).

- milyen munkafázisok vannak? Tagelés, ellenőrzés trivialitás, de lehet, hogy más is van. Hogyan aránylanak egymáshoz ezek a munkafázisok (pl. egy "ellenőr" két-három, vagy inkább 12-20 tagelő munkáját képes ellenőrizni?).

- Milyen típusú szakértelem kell a tageléshez? A tagelés megkezdéséhez szükséges-e néhány évi nyelvészeti előtanulmány, vagy a gimnáziumi anyag magabiztos ismerete és egy néhány órás technológiai bevezetővel már neki is lehet állni?

- vannak-e automatizálható tesztek? lehet-e kérni esetleg kontrolszöveget?

- a szegedi korpuszt említettétek, de úgy tudom a Magyar Értelmező Nagyszótárhoz létezik egy másik szövegkorpusz az MTA Nyelvtudományi Intézetében. Ez vajon elérhető-e?

- hány olyan hely van itthon, ahol folynak ilyen típusú kutatások, oktatás, netán céges tevékenség, és hány olyan, ami közvetlen haszonélvezője, tesztelője lehet a korpusznak?

- van-e speciális szoftverkövetelmény? Lehet-e/kell-e csoportmunkában dolgozni?

- a létrejövő korpusz alkalmas-e arra, hogy azt programozók kezdjék különféle szempontok alapján használni, ezzel frissítve meglévő eszközeiket, vagy újakat készítve (keresés, szövegbányászat, parser, helyesírás ellenőrzés, elválasztás stb.)? Ha igen, akkor véleményem szerint ez a réteg egy plusz minőségellenőrzést is jelenthet, amennyiben rögtön jelezni tudják, ha valahol hiba van.

- végül: én két modelt tudok javasolni. Egyik az önkéntességen alapuló (pl. Wikipedia-jellegű) projektszervezés, a másik pedig a hivatalos, jogi alapra fektetett (konzorcium, pályázás stb.). Van-e olyan érv, miszerint ezt a projektet egyik vagy másik (netán itt fel nem sorolt) módon kellene megvalósítani?

Egyelőre ennyi. Van még kérdés bőséggel, de haladjunk sorban.

kirunews 2011.09.08. 14:39:00

@zoltanvarju: lásd az előző kommentet. Ezt csak azért rektam ide, hogy te is kapj értesítést ;-)

Zoltán Varjú · http://szamitogepesnyelveszet.blogspot.com/ 2011.09.08. 15:47:45

Összegzés: Megállapodtunk abban hogy közösen ötletelünk. A hétvégén nyitok egy Google Docs-ot és meghívok rá minden érdeklődőt. Aki szeretne beszállni még, itt jelezheti kommentben!

Kalcsó Gyula · http://digitalisbolcseszet.blog.hu 2011.09.11. 15:55:03

@kirunews: Bizonyos kérdéseidre válaszok a Zoli által nyitott GoogleDocban.

davidgero · http://szamitogepesnyelveszet.blogspot.com 2011.09.13. 16:10:57

Kicsit késve, de én is bekapcsolódnék a gondolatmenetbe.

Először is a könyvről: nekem kötelező olvasmányaim között volt. Nem igazán szerettem. Hiányzott belőle az, amit elvártam volna egy ilyen könyvtől. A bibliográfiáját és az elérhető korpuszok nevét viszont mai is használom, mert nagyon jó gyűjtés.

Én úgy találtam, hogy a bevezetőben megcélzott tág közönség indokolta az általános tárgyalást. De csodálkoztam, hogy például a NooJ kimaradt a tárgyalásból. A NooJ is ingyenes, használható simán konkordancia mérésre is, de azért ennél jóval súlyosabb program. Például könnyedén beépíthető a hunmorp, így egy alapvető taggelő is a kezünkbe kerül.
(A program egyetlen hátránya, hogy több időt kell tölteni a használatba vételéhez, illetve, hogy nem keresztplatformos. .NET-el üzemel. Illetve a licenceléssel is akadnak problémák..)

Egyébként, az MTA-tól is lehet szerezni taggelt korpusz, kifejezetten a NooJ-hoz. Ehhez e-mail-en elég felkeresni őket.

A MOKK-ról... a felvetés szerintem jó, de egy személyes élménnyel megtoldanám a dolgot. Nekem egy fél évembe került, míg otthon a saját gépemen beüzemeltem. Nem értettem az informatikához, még az alapvető különbségekkel sem voltam a tisztában. Kíváncsi voltam, hogy milyen eredményes a taggelő. - Kitartó voltam és egy fél év alatt sikerült beüzemelnem... - De ezt a ráfordítást szerintem nem igazán lehet elvárni mindenkitől...

A Szegedi korpusz... A szegedi korpusz tényleg csak postai levéllel lehet kikérni. Ez a szerződés miatt szükséges. Kutatási célra felhasználható a forrás megjelölésével, illetve a kikérés után is csak egy részét küldik meg. Teszthez elvileg jó, de én is a napokban kértem ki, úgyhogy bővebb információm még nincs, de majd beszámolok.

Mindenesetre én is jobbnak tartanék egy olyan példát, tanuló korpuszt, amit bárki felállíthat otthon is. Jó tanulási céllal, jó tapasztalat, és jó bemutató, hogy az emberek megismerkedhessenek a témával.

Tundenyuszi 2012.03.09. 16:25:24

Sziasztok,

azt szeretném kérdezni, hogy van-e esetleg bármi ötletetek, hol lehetne szerezni felcimkézett holland korpuszt?

Köszi a választ előre is.
süti beállítások módosítása