Hrvatski jezični korpus

Izvor: Wikipedija

Hrvatski jezični korpus (HJK) je korpus tekstova hrvatskoga jezika koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).

Pozadina[uredi | uredi kôd]

Hrvatski jezični korpus je u početku financiralo Ministarstvo znanosti, obrazovanja i športa Republike Hrvatske unutar istraživačkoga programa Hrvatske jezične mrežne riznice pod brojem 0212010 iz svibnja 2005. godine. U drugoj razvojnoj fazi, od 2007. godine, HJK se dalje razvijao kao dio istraživačkoga programa Hrvatske jezične riznice koji je također financirao MZOŠ (cf. Ćavar and Brozović Rončević, 2012[1]). U tom programu (voditeljica Dunja Brozović Rončević) HJK je razvijan kroz rezultate rada znanstvenih projekata Hrvatske jezične riznice. Voditelji HJK-a su Dunja Brozović Rončević i Damir Ćavar.

Ciljevi[uredi | uredi kôd]

Jedan od glavnih ciljeva HJK-a jest stvoriti javno dostupan korpus hrvatskoga jezika obilježen na više razina: lematizacijski, morfološki, morfosintaktički, fonološki i sintaktički. Osim onih pisanih na standardnome hrvatskom jeziku, HJK obuhvaća i tekstove iz raznih dijakronijskih faza hrvatskoga jezika, kao i digitalizirane rukopise te rječnike hrvatskoga jezika.

Format i dostupnost[uredi | uredi kôd]

Sakupljeni i digitalizirani tekstovi Hrvatskoga jezičnog korpusa obilježeni su s pomoću standarda TEI XML u inačici P5. HJK trenutačno obaseže više od 90 milijuna pojavnica. Korpusu se pristupa preko Philologicova[2] sučelja (vidi The ARTFL Project,[3] Department of Romance Languages and Literatures, University of Chicago). Podijeljen je u različite potkorpuse, a za specifične istraživačke potrebe stvaraju se i prilagođeni potkorpusi.

Sadržaj[uredi | uredi kôd]

HJK je sastavljen od odabranih tekstova hrvatskoga jezika pokrivajući razne funkcionalne stilove i žanrove. Potkorpus standardnoga jezika obuhvaća pisane izvore iz razdoblja početaka standardizacije hrvatskoga jezika, tj. od druge polovice 19. stoljeća. Hrvatski jezični korpus sastoji se od sljedećih tekstova:

  • temeljnih djela hrvatske književnosti (romani, novele, crtice, drame, pjesme, eseji),
  • beletristike,
  • sveučilišnih udžbenika i znanstvenih publikacija raznih disciplina,
  • školskih priručnika,
  • prevedenih djela vrsnih hrvatskih prevoditelja,
  • mrežnih časopisa i novina,
  • knjiga iz predstandardizacijskoga perioda hrvatskoga jezika prilagođenih suvremenome jeziku.

Suradnja[uredi | uredi kôd]

Izgradnja HJK-a omogućena je suradnjom sa sljedećim ustanovama:

Izvori[uredi | uredi kôd]

  1. Ćavar and Brozović Rončević, 2012
  2. Philologic
  3. The ARTFL Project. Inačica izvorne stranice arhivirana 4. prosinca 2009. Pristupljeno 21. srpnja 2011. journal zahtijeva |journal= (pomoć)

Vanjske poveznice[uredi | uredi kôd]