Publikace dat statistických ročenek ve standardu otevřených dat

Název projektu Publikace dat statistických ročenek ve standardu otevřených dat
Číslo projektu TD020121
Řešitel Ing. Dušan Chlapek, Ph.D.
Doba trvání 01/2014 - 06/2015
Poskytovatel dotace Technologická agentura České republiky
Klíčová slova Propojitelná otevřená data, důchodová statistika, prezentace dat, prediktivní modely, transformace dat, veřejná správa, otevřené vládnutí

Popis projektu

Státní správa má k dispozici velký objem statistických dat, která mohou být prospěšná řadě orgánů státní správy, či samosprávy i soukromým společnostem při plánování jejich aktivit. Tato data jsou často publikována v papírové formě nebo ve formátu PDF, CSV či excelových souborů a to většinou izolovaně za rok nebo měsíc.

Hlavním cílem projektu je vytvořit typový postup a IT architekturu pro publikaci statistických dat v podobě otevřených propojitelných dat (Linked Open Data) a tento postup i architekturu ověřit na projektu publikace dat statistické ročenky z oblasti důchodového pojištění (důchodová statistika) České správy sociálního zabezpečení (ČSSZ). Nad daty důchodové statistiky v podobě otevřených propojitelných dat bude vytvořena internetová prezentační aplikace. Novost projektu spočívá ve vytvoření doménově specifických ontologií pro data důchodové statistiky a v jejich internetové prezentaci v podobě otevřených propojitelných dat.

Využití principů publikace otevřených propojitelných dat pro data důchodové statistiky umožní využít potenciálu, který lze z takových dat získat. Státní, výzkumné i soukromé subjekty pak mohou pro své potřeby taková data zpracovávat a propojovat je i s jinými datovými zdroji, vytvářet nad takovými propojenými daty analýzy nebo modely s cílem zabezpečit lepší služby obyvatelům nebo lépe plánovat své aktivity a rozvoj, což přispívá k poskytování lepších služeb občanům a podnikatelským subjektům a ke zvýšení jejich konkurenceschopnosti (a tím i ke zvýšení konkurenceschopnosti ČR).

Projekt je řešen v období 01/2014 - 06/2015. Na řešení projektu se podílí Vysoká škola ekonomická v Praze a KOMIX s.r.o.

Cíle projektu

Hlavním cílem projektu je vytvořit typový postup a IT architekturu pro publikaci podkladových dat pro různé zdroje statistických dat zejména statistické ročenky v podobě otevřených propojitelných dat a tento postup ověřit na projektu publikace dat důchodové statistiky.

Dílčí cíle projektu jsou:

  1. vytvořit a popsat ontologii (otevřený formát) pro publikování dat důchodové statistiky,
  2. definovat metodiku pro publikaci statistických dat v podobě otevřených propojitelných dat,
  3. vyvinout aplikaci pro převod zdrojových dat do formátu RDF s využitím vytvořené ontologie a vytvořit prezentaci publikovaných dat pro koncové uživatele,
  4. v pilotní podobě zpřístupnit vybraná data důchodové statistiky pro orgány veřejné správy, výzkumné organizace, penzijní fondy, pojišťovny, podnikatele, občany pro jejich další zpracování ve formátu otevřených dat s využitím definované ontologie a ověřit tak vytvořenou metodiku, navrženou architekturu a vlastní softwarové řešení.
  5. vytvořit specializovanou mapu s interpretací regionálních rozdílů, jako jednu z prvních aplikací nad transformovanými daty.

Výstupy projektu

Název výstupu Popis výstupu
2014
Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení Necertifikovaná metodika popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení popisuje doporučený způsob publikace dat statistické ročenky z oblasti důchodového pojištění České správy sociálního zabezpečení v podobě otevřených propojitelných dat a specifikuje architekturu IT řešení, pomocí kterého je publikace dat zajištěna.

Návrh metodiky je k dispozici ke stažení zde.
Datová pumpa pro převod zdrojových dat do publikační databáze Datová pumpa, která zajišťuje převod zdrojových dat důchodové statistiky ČSSZ do formátu RDF v souladu s definovanými ontologiemi a jejich uložení v publikační databázi.

Dokumentace k Datové pumpě pro převod zdrojových dat do publikační databáze, včetně odkazů na zdrojové kódy jsou k dispozici zde.
Publikační databáze Publikační databáze obsahující data statistických ročenek z oblasti důchodového pojištění ČSSZ ve formátu RDF za roky 2008-2012.

Dokumentace publikační databáze je k dispozici zde.

Převedená data ve formátu RDF jsou dostupná přes webovou službu, která umožňuje dotazování nad daty s pomocí dotazovacího jazyka SPARQL: http://opendata.vse.cz:8890/sparql

Data důchodové statistiky ve formátu RDF, metadata, definice datových kostek a další ontologie vytvořené v rámci projektu jsou zpřístupněny pod licencí Creative Commons Attribution 4.0 International Public License (CC BY 4.0).
Webová prezentační aplikace Webová aplikace demonstrující použitelnost publikační databáze pro vytvoření interaktivních výstupů.

Webová aplikace je k dispozici na adrese: https://opendata.vse.cz/duchodova-statistika/

Upozornění: Aplikace je spustitelná pouze v aktuálních verzích webových prohlížečů Firefox, Google Chrome, Internet Explorer (od verze 9).

Dokumentace Webové aplikace je k dispozici zde.

Webová aplikace je vyvíjena jako svobodný software pod licencí GNU General Public License v3. Zdrojové kódy aplikace jsou k dispozici zde.
2015
Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu Výsledky příslušných výzkumných metod, které vedou k získání údajů z transformovaných dat ČSSZ, budou využity jako podklady pro specializované mapy. Specializované mapy jsou vhodným nástrojem pro interpretaci regionálních rozdílů srovnání realizovaných politik. Tyto mapy budou součástí výstupů z databáze, které v kombinaci s dalšími socio-ekonomickými ukazateli budou sloužit k lepšímu rozhodování při formování rozhodnutí o modifikacích a parametrech sociálního systému.

Specializovaná mapa s interpretací regionálních rozdílů v oblasti sociálního výzkumu je k dispozici zde.

Dokumentace Specializované mapy je k dispozici zde.

Specializovaná mapa je vyvíjena jako svobodný software pod licencí GNU General Public License v3. Zdrojové kódy a jejich dokumentace jsou k dispozici zde.