Desde hoy la comunidad educativa vasca cuenta con el corpus
de euskera más grande jamás elaborado con un total de 204,9 millones de
palabras. Elaborado por el Instituto del Euskera de la UPV/EHU está disponible on-line.
Egungo Testuen Corpusa (ETC) ha sido hoy presentado en
Bilbao en un acto en el que han intervenido el lehendakari Urkullu, el rector
de la UPV/EHU Iñaki Goirizelaia, el director del Instituto del Euskera , Pello
Salaburu y el investigador Ibon Sarasola, así como el director general de Lagun
Aro, Pablo Mongelos.
ETC es el corpus más grande jamás elaborado en euskera que
ha necesitado cuatro años para llevarlo a cabo. En formato on-line y abierto a
cualquiera, cuenta con 204,9 millones de palabras en vasco y ofrece información
de cada una de ellas, donde la posibilidad de distinguir entre lema y todas sus
variantes.
También se pueden hacer consultas sobre todos los ejemplos de cada
variante., comparar entre varios términos el uso que se les a o consultar conjuntos
de palabras.
Además permite observar la evolución del uso de un termino
mostrando año a año si se va utilizando más o menos, lo que permite abrir vías
para analizar los motivos de esa evolución.
Todos los textos en prosa sacados de libros, prensa y textos
de la Wikipedia escogidos por su calidad pero del siglo XXI. "El euskera
se ha estabilizado mucho a partir del 2000, pues ese año publicó Euskaltzaindia
Hiztegi Batua' y eso ha tenido gran influencia", ha indicado Salaburu.
ETC se complementa con otros corpus elaborados en la
anterioridad por el Instituto del Euskera de la UPV/EHU, como son Ereduzko
prosa Gaur' con 25 millones de palabras. Para elaborar Orotariko Euskal
Hiztegia' de Euskaltzaindia se utilizó un corpus de cinco millones de palabras.