Alvaro HILARIO
BILBO

Egungo Testuen Corpusa, euskarak egun dituen arazo sofistikatuei irtenbidea emateko tresna berria

EHUko Euskara Institutuak garatutako Egungo Testuen Corpusak (ETC) 205 miloi hitz biltzen ditu, munduko handienetako bat eta euskaraz sekula egin den handiena delarik. Bere baitan dakartzan XXI. mendeko testuetan agertzen diren hitzak interpretatzen ditu bakoitzaren inguruan dagoen informazio osoa emateko. Tresna berri hau erabilerraza eta argia da.

ETC-aren aurkezpen ekitaldia. (Monika DEL VALLE/ARGAZKI PRESS)
ETC-aren aurkezpen ekitaldia. (Monika DEL VALLE/ARGAZKI PRESS)

Abandoibarran dagoen Bizkaia aretoak hartu du Euskal Herriko Unibertsitateko Euskara Institutuak azken urteotan garatu duen Egungo Testuen Corpusaren (ETC) aurkezpena.

205 miloi hitz biltzen dituen corpus honek –munduko handieneteako bat eta euskaraz sekula egin den handiena– bere baitan dakartzan XXI. mendeko testuetan agertzen diren hitz guztien gaineko informazioa ematen du.

Bere egiletako bat den Ibon Sarasolaren esanetan, ETCk «hizkuntza zehatz bat, une zehatz batean» ikasteko balio du. Euskara Institutuko zuzendaria Pello Salaburu eta Ibon Sarasola ez ezik, Iñigo Urkullu lehendakariak eta EHUko erretorea Iñaki Goirizelaiak ere parte hartu dute ekitaldian.

Euskara batuak dituen arazo berriei irtenbidea emateko jaioa da ETC: «Batuaren arazoak gero eta sofistikatuagoak dira eta beharrezkoak dira, beraz, hau bezalako tresna berriak», adierazi du Sarasolak.

«Testuak dira. Corpusak interpretatzen ditu eta testuetan dauden hitzak inguruko informazioa ematen du. Ez dira liburu elektronikoak, bada beste ezer»; horrela definitu du ETCa Pello Salaburuk. Segituan eta ETC bera baliatuz, azaldu ditu Salaburuk tresna honen nondik norakoak: testu bilduma euskarri informatikoan dugu –«betiere, hizkera mota baten adierazleak»– eta bertan diren hitzei buruzko informazioa ematen du; izan ere, hitza baten gaineko informazioa ematen du, hura hartzen duen esaldia kontuan hartuz. Corpus arloan mota askotako corpusak daude eta «arrunten artean» kokatu zuen Euskara Institutuak eginiko hau «erabilerraza» baita eta «oso informazio interesgarria» zabaltzen duelako.

Neurriak, horiek zelan aukeratu, interfazea, informazioaren berdintasuna eta hitzen inguruan zelako informazioa ematen den ditugu diren corpus ezberdinak sailkatzeko itemak.

Corpusen munduko mutur biak ikustarazteko, eredu bi erabili ditu Pello Salaburuk: Google Books, 500.000 miloi hitz biltzen dituen arren, haututako hitza azpimarratuta agertu baino egiten ez duena; eta Catalunyako AnCora, miloi bat hitz dakartza eta horien guztien inguruko ezaugarriak eskaintzen ditu–.

«Sistema argia eta erakargarria»

Azpimarratu du «bilatzeko sistema argia eta erakargarria» dela, alde honetan Josu Landak egindako lana eskertu bitartean.

Aukeratutako testu guztiak XXI. mendekoak eta prosazkoak dira; egileen aburuz, hauxe da beste funtsezko ezaugarri bat: «Euskara asko egonkortu da 2000tik aurrera, urte horretan atera baitzuen Euskaltaindiak ‘Hiztegi batua’, eta horrek eragin handia izan du», esan du Salaburuk.

Ibon Sarasolak azaldu du hiztegiak corpus baten gainean daudela eraikita. Testuak eta erabilerak ETCn badira jatorriz euskaraz idatzitako testuak eta itzulpenak direnak.

Horietan bilaketak egitea erraza ei da, emaitzak «aberatsak» direlarik. “Etxea” hitza sartuz gero, lema (etxe) eta horren aldaera guztiak (Etxeak, etxera...) agertzen dira. Bilaketa bukatu eta gero. automatikoki agertzen da «tarta» bat, lema eta aldaerek osatua, ehunekoetan, zelan banatzen diren aldaerak erakusten duena.

Aldaera bakoitzeko adibide guztiak ere kontsulta daitezke: hitza bere esaldian agertzen da, eta nork erabiltzen duen, non, noiz eta abar ere ikus daiteke.

Ibon Sarasolak aipatu du hitzaren eboluzioa ere ikus daitekeela agertzen diren grafikoetan: urtez urte hitz bat gehiago edo gutxiago erabili den, urtekako ereduak ere azaltzen direlarik. Hitz bakoitzaren sare semantikoa ere eskaintzen digu ETCk.

ETC eraikitzen ibili den Euskara Institutuko Ibon Sarasolak azpimarratu du jatorrizko testuetan eta itzulpenetan erabiltzen den euskara ezberdina dela. Bere ustez,kontu bi azaleratzen ditu honek: «euskaraz egiten dugunean arazoak saihesten» segitzen dugu; eta, bestalde, hizkuntz politika okerrak egiten ari dira EAEn, zenbait itzulpen diruz lagunduz, esaterako. Lagunaro Fundazioaren diru-laguntza jaso du egitasmoak.