Hrvatski jezični korpus

Izvor: Wikipedija
Skoči na: orijentacija, traži

Hrvatski jezični korpus (HJK) je korpus tekstova hrvatskoga jezika koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).

Pozadina[uredi VE | uredi]

Hrvatski jezični korpus je u početku financiralo Ministarstvo znanosti, obrazovanja i športa Republike Hrvatske unutar istraživačkoga programa Hrvatske jezične mrežne riznice pod brojem 0212010 iz svibnja 2005. godine. U drugoj razvojnoj fazi, od 2007. godine, HJK se dalje razvijao kao dio istraživačkoga programa Hrvatske jezične riznice koji je također financirao MZOŠ (cf. Ćavar and Brozović Rončević, 2012[1]). U tom programu (voditeljica Dunja Brozović Rončević) HJK je razvijan kroz rezultate rada znanstvenih projekata Hrvatske jezične riznice. Voditelji HJK-a su Dunja Brozović Rončević i Damir Ćavar.

Ciljevi[uredi VE | uredi]

Jedan od glavnih ciljeva HJK-a jest stvoriti javno dostupan korpus hrvatskoga jezika obilježen na više razina: lematizacijski, morfološki, morfosintaktički, fonološki i sintaktički. Osim onih pisanih na standardnome hrvatskom jeziku, HJK obuhvaća i tekstove iz raznih dijakronijskih faza hrvatskoga jezika, kao i digitalizirane rukopise te rječnike hrvatskoga jezika.

Format i dostupnost[uredi VE | uredi]

Sakupljeni i digitalizirani tekstovi Hrvatskoga jezičnog korpusa obilježeni su s pomoću standarda TEI XML u inačici P5. HJK trenutačno obaseže više od 90 milijuna pojavnica. Korpusu se pristupa preko Philologicova [2] sučelja (vidi The ARTFL Project[3], Department of Romance Languages and Literatures, University of Chicago). Podijeljen je u različite potkorpuse, a za specifične istraživačke potrebe stvaraju se i prilagođeni potkorpusi.

Sadržaj[uredi VE | uredi]

HJK je sastavljen od odabranih tekstova hrvatskoga jezika pokrivajući razne funkcionalne stilove i žanrove. Potkorpus standardnoga jezika obuhvaća pisane izvore iz razdoblja početaka standardizacije hrvatskoga jezika, tj. od druge polovice 19. stoljeća. Hrvatski jezični korpus sastoji se od sljedećih tekstova:

  • temeljnih djela hrvatske književnosti (romani, novele, crtice, drame, pjesme, eseji),
  • beletristike,
  • sveučilišnih udžbenika i znanstvenih publikacija raznih disciplina,
  • školskih priručnika,
  • prevedenih djela vrsnih hrvatskih prevoditelja,
  • mrežnih časopisa i novina,
  • knjiga iz predstandardizacijskoga perioda hrvatskoga jezika prilagođenih suvremenome jeziku.

Suradnja[uredi VE | uredi]

Izgradnja HJK-a omogućena je suradnjom sa sljedećim ustanovama:

Referencije[uredi VE | uredi]

Vanjske poveznice[uredi VE | uredi]