Indig Balázs (ELTE IK) | |
Mentális konstrukciók adatorientált azonosítása korpuszban a Mozaik módszer és kapcsolódó eljárások segítségével | |
2025. Március 25. 16:30 | |
HUN-REN Nyelvtudományi Kutatóközpont HUN-REN Nyelvtudományi Kutatóközpont | |
Földszinti nagyelőadó (013) zoom ➚ | |
1068 Budapest, Benczúr utca 33. |
Az ember fejében számos nyelvi mintázat van jelen valamilyen formában, amelyeket nyelvtanuláskor tudatosan próbálunk bővíteni explicit konstrukciók segítésével. Az ilyen mintázatok korpuszból történő kinyeréséhez jelenleg két fő megközelítés adódik: a nyelvészek az elméleti hipotéziseikhez manuális keresésekkel gyűjtenek bizonyítékokat, míg a nagy nyelvmodellek statisztikai eljárásokkal kódolt összefüggések segítségével képesek egyre emberszerűbb kimenetet generálni. Ugyanakkor e módszerek gyengesége, hogy a nyelvmodellek nyelvi tudása nem interpretálható, tisztán statisztikai megközelítésre épül, ezért nem összeegyeztethető a nyelvtudomány eddigi eredményeivel. A manuális keresések adatai pedig a kutató intuíciójával terheltek, így statisztikailag nem jól formáltak.
A Mozaik módszer kiterjesztéseként létrejött modell célja, hogy csökkentse a kutató intuíciójának szerepét és így a manuális munkát a korpuszbeli minták keresésekor. A megközelítés moduláris természete miatt nyelvi jelenségek széles skálája vizsgálható vele, és ezáltal a nagy nyelvmodellekhez hasonló képességekkel bíró, interpretálható modell jön létre, amely tovább tudja építeni a nyelvről alkotott ismereteinket, hidat képezve a két megközelítés között.
Az előadásomban különböző nyelvtudományi irányzatok felől közelítve ismertetem a motivációt a modell mögött. Bemutatom a rendszer alapját képező Mozaik módszer működését, valamint esettanulmányokon keresztül az egész eljárás jelenlegi állását, működését és relevanciáját. Végül pedig kitekintést adok a további fejlesztési és alkalmazási lehetőségekre.
Bajzát Tímea, Indig Balázs, Kalivoda Ágnes (2024): “A fatens felelt pedig…” – A Történeti Magánéleti Korpusz igei szerkezeteinek mozaik n-gram alapú feldolgozása. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): XX. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: Szegedi Tudományegyetem TTIK, Informatikai Intézet. 43–58.
Indig Balázs, Bajzát Tímea (2024): Compressing Noun Phrases to Discover Mental Constructions in Corpora – A Case Study for Auxiliaries in Hungarian. In: Mika Hämäläinen, Flammie Pirinen, Melany Macias, Mario Crespo Avila (eds.): Proceedings of the 9th International Workshop on Computational Linguistics for Uralic Languages. Helsinki: ACL. 96–103.