Detail projektu

CPK - Využití sémantických technologií pro zpřístupnění kulturního dědictví prostřednictvím Centrálního portálu knihoven (CPK)

Období řešení: 01.03.2016 — 31.12.2020

Zdroje financování

Ministerstvo kultury ČR - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)

- plně financující (2016-03-01 - 2020-12-31)

O projektu

Primárním cílem projektu je vybudovat Centrální portál českých knihoven (CPK), který poběží na adrese http://www.knihovny.cz/. CPK bude integrovat informační zdroje různého charakteru - zejména databáze popisující nebo obsahující informace o našem kulturním dědictví nebo plné texty, které jsou jeho součástí. Pro plnohodnotné využití těchto informací je nutné je uživateli přehledně zpřístupnit s co největším využitím znalosti syntaktické a sémantické struktury zpřístupňovaných informací. Zásadní problém v oblasti tematického zpřístupnění dokumentů představuje absence potřebných metadat. U většiny katalogizačních záznamů pořízených v rámci retrospektivní konverze katalogů českých knihoven (tedy u záznamů vzniklých v minulosti nejprve v podobě knižního lístku a o několik desítek nebo i stovek let později přepsaných do databáze) chybí věcný popis a s ohledem na jejich množství je jeho doplnění formou manuální rekatalogizace a obsahové analýzy s knihou v ruce nereálné. Řada knih z fondů knihoven (již více než 110 tis. svazků monografií a stovky periodik) však již disponuje i plnými texty - zejména díky projektu Národní digitální knihovna, na jehož řešení se MZK podílela. Počet dokumentů vybavených plnými texty postupně narůstá, každým rokem lze očekávat digitalizaci dalších desítek tisíc svazků, z nichž téměř polovina je digitalizována přímo v MZK. Ačkoli je značná část digitalizovaných dokumentů chráněna autorským právem a nesmí být zpřístupňována mimo budovu knihovny, je možné tyto texty prohledávat a využít je ke zlepšení způsobu zpřístupnění digitalizované části kulturního dědictví. Nabízí se jejich využití pro vyhledávání a zpřístupnění s využitím metod vycházející z technologií sémantické anotace textu a nejmodernějších metod tzv. hloubkového učení (deep learning) z existujících dat. Vzhledem k tomu, že se jedná o automatizovené, nikoli manuální zpracování, mělo by být u velkých objemů dat reálné. Součástí Řada zpřístupňovaných databází bude přitom hrát specifickou roli - budou propojovat informace získané z jiných databází nebo je významným způsobem obohatí. Takto bude využita například databáze národních autorit Národní knihovny ČR, na jejímž budování se podílí řada českých knihoven včetně MZK.

Popis anglicky
The main goal of this project is to establish Central Portal of Czech Libraries (CPK), which will run on the address: http://www.knihovny.cz/. CPK will integrate information sources of various character - especially databases which describe or contain information about our cultural heritage or full texts, which are part of it.

Klíčová slova
portál knihoven, sémantické technologie, full textové indexování, odstranění duplicity bibliografických záznamů,

Klíčová slova anglicky
discovery system; semantic technologies; library portal; full text indexing; bibliographic record deduplication

Označení

DG16P02R006

Originální jazyk

čeština

Řešitelé

Smrž Pavel, doc. RNDr., Ph.D. - hlavní řešitel

Útvary

Ústav počítačové grafiky a multimédií
- spolupříjemce (13.04.2015 - 31.12.2020)
Moravská zemská knihovna v Brně
- příjemce (13.04.2015 - 31.12.2020)

Výsledky

SMRŽ, P.; KURÁK, O.; OTRUSINA, L.: CPKclassifier; Automatický klasifikátor pro Centrální portál knihoven. https://github.com/KNOT-FIT-BUT/CPKclassifier. URL: https://github.com/KNOT-FIT-BUT/CPKclassifier. (software)
Detail

OTRUSINA, L.; SMRŽ, P.: CPKLinkedOpenDataLinker; Softwarové nástroje pro poloautomatické provazování katalogizačních záznamů s databází národních autorit a relevantními národními zdroji LOD (Linked Open Data). https://github.com/KNOT-FIT-BUT/CPKLinkedOpenDataLinker. URL: https://github.com/KNOT-FIT-BUT/CPKLinkedOpenDataLinker. (software)
Detail

OTRUSINA, L.; SMRŽ, P.: CPKFulltextAnalyser; Software pro doplňování informací o původcích dokumentů a dalších metadat na základě analýzy plných textů dokumentů. https://github.com/KNOT-FIT-BUT/CPKFulltextAnalyser. URL: https://github.com/KNOT-FIT-BUT/CPKFulltextAnalyser. (software)
Detail

OTRUSINA, L.; SMRŽ, P.: CPKSemanticEnrichment; Systém pro sémantické obohacování plných textů o vazbu na jmenné autority. https://github.com/KNOT-FIT-BUT/CPKSemanticEnrichment. URL: https://github.com/KNOT-FIT-BUT/CPKSemanticEnrichment. (software)
Detail

OTRUSINA, L.: NAKI II: Sémantické technologie pro portály a digitální knihovny. Kounicova 65a, 601 87 Brno (09.11.2016)
Detail