Informacyje ô korpusie

„Corpus” to łacińske słowo. Po naszymu „corpus” to ciało. Korpus jynzyka to je srogi zbiōr pisanych abo gŏdanych tekstōw, nojczyńścij we formie elektrōnicznyj. Korpusōw sie używŏ do analizy statystycznyj, testowaniŏ hipotez statystycznych, sprawdzaniŏ wystōmpiyń abo weryfikowaniŏ prawideł jynzykowych na danym polu gŏdki.

Part Korpusu Ślōnskij Mŏwy we wolnym dostympie online mŏ 1 102 837 słōw. Ta liczba bydzie rōść skirz tego, iże wszyjske zebrane teksty do budowy korpusu majōm 2 001 281 słōw, ale niy do wszyjskich szło dostać zwolõ na jejich ôpublikowanie.

Korpus online skłŏdŏ sie ze 941 dokumyntōw, co z nich nojstarszy je listek ôd Ambrożego Szklŏrza, mieszczana ôleskigo, do princa brzeskigo Jurzigo II, napisany we 1574 roku. Nojnowsze sōm rozmajte artykuły publicystyczne i informacyjne ze portalu Wachtyrz.eu. Nojkrōtszy dokumynt mŏ 67 słōw i je to śpiywka ô chopcach z Niezdrowic, nojdugszy to piōntŏ czyńść „Duchōw Wojny” ôd Alojzego Lyski, co mŏ 82 221 słōw.

Utwory literacke, artykuły presowe i publicystyka były ôstawiōne we ôryginalnyj formie. Teksty gwarowe były stransliterowane ze alfabetu fōnetycznego do ślabikŏrzowego.

Nŏczynie użyte do udostympniyniŏ projektu to Manatee, co ôdpowiadŏ za procesowanie korpusu, jak tyż KonText przigotowany ôd Instytutu Czeskigo Korpusu Nŏrodowego. KonText ôdpowiadŏ za interfejs używŏcza, to znaczy za to, co widzymy przi robocie. Instytut Czeskigo Korpusu Nŏrodowego pōmŏgoł przi instalacyji tyj tajle serwisu, co udostympniŏ ślōnski korpus.