Wkludzynie do roboty ze korpusym

Tukej idzie przeczytać krōtke wkludzynie do roboty ze korpusym. Połniyjszy kurs (po czesku) idzie znojś we serwisie Czeskigo Korpusu Nŏrodowego.

Je dostympnych piyńć spusobōw wyszukowaniŏ we korpusie.

  • Podstawowy – szukanie gynau takij formy, jakŏ je podanŏ. Niy spiyrŏ wyrażyń regularnych. We anotowanych korpusach podanie formy podstawowyj zwrŏcŏ wszyjske formy jeji ôdmiany (szukanie czŏrny pies dałoby czŏrny pies, czŏrnego psa, czŏrnymu psu itd.). Ślōnski korpus niy je anotowany (na razie), beztōż wyszukowarka zwrŏcŏ ino to, co dostŏwŏ.
  • Fraza – wyszukowanie podobne do podstawowego, ale spiyrŏ regularne wyrażynia. Niy wyszukuje ôdmiany, ino to, co mŏ podane (czŏrny pies ôddŏ ino czŏrny pies).
  • Forma wyrazowŏ – szukŏ jednyj kōnkretnyj formy (kaj ôddŏ kaj, kajż ôddo kajż, kaj.* ôddŏ kaj, kajż, kajś, kajby, kajniykaj itp.)
  • Part wyrazu – zwrŏcŏ wszyjske słowa, co w nich znojdzie sie zadanŏ forma (pra ôddŏ pra, prawidło, pranie, prawić, kapra, sprawiedliwy itd.)
  • CQL – Corpus Query Language. Bez to, iże ślōnski korpus niyma na razie anotowany, tyn spusōb wyszukowaniŏ niyma użyteczny.

Wyrażynia regularne

Wyrażynia regulane przizwŏlajōm nōm akuratnie ôpisać zbiōr cugōw, co pasujōm do szukanego słowa abo zjawiska. Do tego używŏ sie ekstra znakōw i dzikich kart ze włŏsnym znaczyniym.

  • kropka (.) – ôznaczŏ jedyn niyôkryślōny znak: d.m wyszukŏ dom, dōm, dóm, dym, dam itd.
  • interwał ({n, k}) – ôznaczŏ, wiela razy może sie powtōrzyć znak, co stoji przed nim: wan{1,2}a wyszukŏ wana i wanna. Jak k sie niy wpisze ({n,}), to n bydzie potraktowane jak minimum, a jak wpisze sie same n ({n}), wyszukanŏ bydzie gynau ta liczba: wan{1}a znojdzie ino wana.
  • gwiŏzdka (*) – ôznaczŏ kożdõ liczbã powtōrzyń znaku, co stoji przed niōm, ôd zera do niyskōńczōności.
  • plus (+) – ôznaczŏ kożdõ liczbã powtōrzyń znaku, co stoji przed nim, ôd jedyn do niyskōńczōności
  • znak zapytaniŏ (?) – ôznaczŏ zero abo jedno powtōrzynie znaku, co stoji przed nim.
  • wykŏz ([]) – przizwŏlŏ na ôbranie znaku ze zbioru wkludzōnego do kwadratowych nŏwiasōw: d[oóō]m ôddŏ dom, dóm, dōm. Idzie tyż używać dywiza (-) jako ôperatora zakresu (bp. [a-z], [0-9]; trzeba pamiyntać, iże a-z ôznaczŏ ino litery łacińske podstawowe. Żeby szukać cołkigo alfabetu ślabikŏrzowego, trzeba wpisać a-zãćłńōôõŏśźż). Dodanie karetu na poczōntek zbioru we nŏwiasie bydzie ôznaczać, iże chcymy znojś wszyjske znaki, ino niy te we nŏwiasie: d[^oōó]m ôddŏ dym, dam itp., ale niy dom, dōm ani dóm.
  • ôkrōngły nŏwias () – cug znakōw we nŏwiasach ôkrōngłych je traktowany jak jednostka. Dziynki tymu idzie dō niego dodŏwać mnożniki i niy bydōm ône tykać ino jednego znaku, ino wszyjskigo, co je we nŏwiasie: ō(ma){1,2} ôddŏ ōma i ōmama.
  • piōnowŏ kryska (|) – tyż ôznaczŏ zbiōr, ale niy indywidualnych znakōw, ino cołkich cugōw: dōm|dom ôddŏ dōm i dom, a dōm(a|owi|ym) ôddŏ dōma, dōmowi, dōmym.

Przikłady użyciŏ wyrażyń regularnych:

  • s.m – ôddŏ sam, sōm, som, sóm, sem
  • dōm.* – ôddŏ dōm, dōmu, dōmek, dōmyślać, Dōmbrowa
  • .{1,2}dōm – ôddŏ padōm, wodōm, bydōm, modōm
  • d[oōó]m – ôddŏ dom, dōm i dóm
  • d[oōó]m(|u|owi|ym|em|ie|y|ow|ów|ōw|om|ōm|óm|ach|ami|oma|óma|ōma|ama|a) – ôddŏ cołkõ ôdmianã słowa dōm we trzech wariantach pisownie.