Društvo LJUDMILA
Rozmanova ulica 12
1000 Ljubljana
Slovenia
Prostori: osmo/za

Metaiskalnik za slovensko kulturo

Beta verzija portala Kulturnik je dostopna na naslovu http://kulturnik.si.

Podrobnosti o Kulturniku, ki ob Iskalniku po cult digi zbirkah prinaša še Dogodke in Novice, ki so agregirane iz številnih raznolikih virov, smo lansirali 23.12.2013.

METAISKALNIK PO SLOVENSKI KULTURI - zgodovina iniciative in projekta KULTURNIK

Na področju digitalizacije kulture v Sloveniji že vrsto let vznikajo spletne iniciative, večinoma podprte z javnimi sredstvi in posvečene posameznim umetnostnim in kulturnim področjem. Praviloma gre za všečne portale s kvalitetnimi vsebinami, ki se sčasoma tudi izboljšujejo.


Kljub bogastvu vsebin, ki ga je tak razvoj prinesel, je uporabnik, ki želi te podatke najti in uporabiti, soočen s praktično nepremostljivimi ovirami:


  • Podatkovne zbirke so razdrobljene po več deset spletnih mestih.
  • Za preiskovanje se uporabljajo različni iskalniki z različnimi uporabniškimi vmesniki in nekonsistentnim delovanjem
  • Tudi preiskovanje s splošnimi spletnimi iskalniki je težavno - številni podatki so iskalnikom popolnoma nedostopni, a tudi ostali se porazgubijo v množici irelevantnih zadetkov.
  • Strojno preiskovanje in obdelava obstoječih podatkov je praktično nemogoča.


Kot rešitev smo zasnovali metaiskalnik, ki bo uporabniku na enem mestu omogočal preiskovanje vseh podatkovnih zbirk o slovenski kulturi in pregledno izpisovanje zadetkov. S tem bo uporabniku omogočeno preiskovanje in pregledovanje zadetkov iz vseh zbirk na enem mestu, ponudnikom zbirk pa bo zagotovljena večja vidnost in dostopnost njihovih vsebin. Ker bo omogočal izvoz strojno berljivih podatkov, bo pomagal tudi vzpostaviti okolje za razvoj drugih specializiranih spletnih servisov za slovensko kulturno industrijo.


Za začetek smo izdelali prototip metaiskalnika, ki namesto uporabnika dostopi do obstoječih iskalnikov, iz dobljenih strani z rezultati postrga relevantne zadetke, in jih prikaže uporabniku na kar se da konsistenten način.


Pri tem naivnem pristopu smo se seveda hitro srečali s težavami:

  • Podatke iz iskalnikov dobimo v obliki, namenjeni človeškemu uporabniku, zato moramo zadetke iz njih "postrgati", tj. analizirati HTML izpis in uganiti, kje so relevantni podatki.
  • Strganje je programersko zahtevno, saj je treba za vsak vir podatkov napisati poseben strgalnik. Nekateri iskalniki vračajo rezultate v semantično slabo strukturiranem in nekonsistentnem HTML izpisu in zato zahtevajo zapletene algoritme, ki so nagnjeni k napakam.
  • Zaradi osveževanja in nadgrajevanja spletnih strani se HTML izpisi iskalnikov sčasoma spreminjajo, in tako zahtevajo dodatno delo na strgalnikih.
  • Različni iskalniki različno razumejo iste iskalne zahteve, zato je popolnoma konsistentno preiskovanje nemogoče, že delna konsistenca pa zahteva precej dela na strgalnikih.


Pri tem gre za težave, ki ne zadevajo samo našega metaiskalnika, temveč vsak poskus ponovne uporabe obstoječih podatkovnih zbirk o slovenski kulturi, in tako zavirajo razvoj inovativnih spletnih storitev in posledično sodelovanje, razvoj in raziskovanje v slovenski kulturi.


Za odpravljanje teh težav bo potrebno sodelovanje upravljalcev obstoječih podatkovnih zbirk o slovenski kulturi, zato smo pripravili pobudo za standarde za izmenjavo podatkov, ki smo jo 9. marca 2012 naslovili na Ministrstvo za izobraževanje, znanost, kulturo in šport ter na Ministrstvo za pravosodje in javno upravo.

Naša pobuda je obrodila sadove, leta 2013 se je na pobudo Saša Gazdića z Ministrstva za kulturo, odvijalo delo delovnih skupin na temo eVsebine (Digitalna agenda EU).

Vsa gradiva so dostopna na portalu e-Vsebine, tudi Smernice za e-vsebine, v pripravi, ki bodo ponudile standarde za interoperabilnost in digitalizacijo v slovenski kulturi.