DE1091 Valodas sistēmas un dati

Kods DE1091
Nosaukums Valodas sistēmas un dati
Statuss Obligātais/Ierobežotās izvēles; Brīvās izvēles
Līmenis un tips Pamatstudiju, Akadēmiskais
Tematiskā joma Datorika
Struktūrvienība Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Mācībspēks Oksana Ivanova, Tatjana Kelebeka, Sintija Petroviča-Kļaviņa
Kredītpunkti 6.0
Daļas 1
Anotācija Studiju kursā aplūkotas galvenās valodas strukturālās apakšsistēmas (fonoloģija, morfoloģija, sintakse, semantika un pragmatika). Studējošie apgūst prasmi reprezentēt, iegūt un analizēt empīriskos valodas datus pētniecībai un tehnoloģiju attīstībai. Apvienojot teoriju ar praktisku darbu, studējošie apgūst korpusu izveides un vaicāšanas metodes, lingvistisko struktūru anotēšanas principus, kā arī dažādu datorizētu metožu (korpusu rīku, vārdšķiru un morfoloģiskās marķēšanas rīku u. c.) izmantošanu sistēmas līmeņa paraugu un valodas variācijas izpētei. Īpaša uzmanība tiek pievērsta formālu valodas sistēmu aprakstu sasaistīšanai ar uz datiem balstītām darba plūsmām, kas tiek izmantotas dabīgās valodas apstrādē (DVA) un valodas inženierijā, tostarp datu priekšapstrādē, anotēšanas vadlīniju izstrādē un reproducējamās analīzes veikšanā..
Studiju kursa saturs
Saturs Pilna un nepilna laika klātienes studijas Nepilna laika neklātienes studijas
Kontaktstundas Patstāvīgais darbs Kontaktstundas Patstāvīgais darbs
Ievads valodas sistēmās un lingvistiskajos datos. Lingvistisko datu loma valodas tehnoloģijās. 4 6 0 0
Fonoloģiskās sistēmas un datu reprezentācija. Fonoloģisko datu digitalizēšana un anotēšana. 4 6 0 0
Morfoloģija un morfoloģiskie dati. Morfoloģiskā marķēšana un anotācijas shēmas. 6 8 0 0
Sintakse: struktūra un anotācija. Koku bankas (tree banks), sintaktiskā analīze (parsing) un sintaktisko datu formāti. 6 8 0 0
Semantika un nozīmes reprezentācija. Semantiskā anotēšana un vārda nozīmes nošķiršanas datu kopas. 6 8 0 0
Datu avoti un korpusu izstrāde. Korpusu veidi. Izlases veidošana, metadati un reprezentativitāte. 4 6 0 0
Anotācijas principi un datu kvalitāte. Vadlīnijas, marķētāju vienprātība un ētiskie jautājumi. Rīki manuālai un automātiskai anotēšanai. 6 10 0 0
Datu formāti, standarti un savietojamība. Lingvistisko datubāzu un ontoloģiju sasaistīšana. 4 6 0 0
Kvantitatīvās un statistiskās metodes lingvistiskajos datos. Pamata statistika lingvistiskajiem pētījumiem. Biežuma analīze, kolokācijas un asociācijas rādītāji. 4 6 0 0
No lingvistiskajām sistēmām līdz skaitļošanas modeļiem. Valodas struktūras kartēšana dabisko valodu apstrādes (DVA) uzdevumu kontekstā. Noteikumos balstītas pieejas un mašīnmācīšanās metodes. 6 10 0 0
Daudzvalodu un starpvalodu dati. Daudzvalodu korpusu līdzināšana. 6 10 0 0
Gadījumu izpētes uz datiem balstītajā valodniecībā. Korpusu pētniecīskie projekti, kas sasaista struktūru un datus. Reproducējamas darba plūsmas un rezultātu vizualizācija. 8 14 0 0
Kopā: 64 98 0 0
Mērķis un uzdevumi, izteikti
kompetencēs un prasmēs
Studiju kursa mērķis ir attīstīt studējošo pamatkompetences lingvistisko sistēmu analīzē, reprezentācijā un apstrādē, izmantojot uz datiem balstītas un datorizētas pieejas. Studiju kursa uzdevumi: - stiprināt studējošo izpratni par valodas strukturālajiem komponentiem (fonoloģiju, morfoloģiju, sintaksi, semantiku, pragmatiku); - nodrošināt studējošajiem praktiskās un pārnesamās prasmes lingvistisko datu vākšanā, anotēšanā un pārvaldībā digitālajā vidē; - attīstīt studējošo spēju izmantot datorizētus un statistiskus rīkus lingvistisko parādību analīzei un interpretācijai dažādās valodās; - veicināt kritisku izpratni par datu kvalitāti, anotēšanas standartiem un ētiskajiem principiem valodas datu tehnoloģijās; - nodrošināt studējošajiem iespēju integrēt teorētiskās valodniecības zināšanas ar empīrisku datu analīzi pētniecības, valodas modelēšanas un tehnoloģiju izstrādes vajadzībām.
Sasniedzamie studiju
rezultāti un to vērtēšana
Spēj demonstrēt padziļinātu izpratni par galvenajām valodas apakšsistēmām (fonoloģiju, morfoloģiju, sintaksi, semantiku un pragmatiku) un to savstarpējām saiknēm. - Eksāmens. Patstāvīgie analītiskie uzdevumi. Kritēriji: studenti demonstrē izpratni par galvenajām valodas apakšsistēmām un spēj analizēt tos, izmantojot atbilstošus analītiskus rīkus.
Spēj vākt, anotēt un pārvaldīt lingvistiskos datus atbilstoši noteiktajiem standartiem un anotācijas ietvariem. - Praktiskie datu anotēšanas uzdevumi. Kritēriji: tiek vērtēta studentu spēja izvērtēt lingvistisko datu kopu un anotēšanas prakšu uzticamību, validitāti un atbilstību ētikas principiem.
Spēj integrēt valodniecības teoriju ar empīrisku datu analīzi patstāvīgajā pētniecības projektā. - Analītiska eseja par datu kvalitāti un pētniecības ētiku. Kritēriji: tiek vērtēta studentu spēja izmantot korpusos balstītus un datorizētus rīkus lingvistisko struktūru un paraugu analīzei un interpretācijai.
Spēj efektīvi komunicēt pētījuma rezultātus rakstiskā un mutiskā formā, kā arī piedalīties akadēmiskās diskusijās. - Dalība semināros un prezentācija. Kritēriji: tiek vērtēta studentu prasme pamatot savu viedokli un prezentēt darba rezultātus, izmantojot jomai specifiskus jēdzienus un terminoloģiju.
Studiju rezultātu vērtēšanas kritēriji
Dalība semināros un prezentācija - 10%
Patstāvīgie analītiskie uzdevumi - 20%
Analītiska eseja par datu kvalitāti un pētniecības ētiku - 15%
Praktiskie datu anotēšanas uzdevumi - 25%
Eksāmens - 30%
 
Priekšzināšanas Angļu valoda B2 līmenī saskaņā ar Eiropas kopējām vadlīnijām, ja studiju kurss tiek apgūts angļu valodā. Angļu valodas prasmes, lai lasītu obligāto literatūru, ja studiju kurss tiek apgūts latviešu valodā.
Studiju kursa plānojums
Daļa KP Stundas Pārbaudījumi Pārbaudījumi (brīvai izvēlei)
Lekcijas Prakt. d. Lab. Ieskaite Eksāmens Darbs Ieskaite Eksāmens Darbs
1 6.0 32.0 32.0 0.0 * *

Pieteikties uz šo kursu

[Kursa apraksts PDF formātā]