Co je toto za text

Soupis skoro všeho, co vím a nevím o hrubých datech státní pokladny. Mohl by být užitečný pro

  • mě při tvorbě balíku
  • kohokoli, kdo bude chtít balík použít
  • kohokoli, kdo chce data použít jinak

Nejsem rozpočtář ani účetní - tato data primárně používám k zodpovídání ekonomických otázek, takže nemusím bazírovat na přesné terminologii nebo přesnosti dat do poslední koruny. Pokud ale je v textu něco špatně nebo je potřeba doplnit, budu rád za pull request nebo issue.

Kde brát informace

Soustava prvků dostupných ze státní pokladny

  • číselníky
  • výkazy (publikovány jako “transakční data”) bez téměř jakýkcholi lidsky čitelných identifikátorů - k tomu je potřeba napojit číselníky
  • části výkazu (tabulky - v datech označeny v daném sloupci)

Prakticky to vypadá tak, že jeden balík s výkazem obsahuje více CSV souborů, kdy jednotlivé soubory obsahují jednu nebo víc tabulek daného výkazu.

Číselníky jsou v XML, ale dají se i prohlížet (příklad) a tamtéž stáhnout v CSV.

Pozor: číselníky jsou časově determinované a pokud neodfiltrujete položky nerelevantní pro dané časové období, můžou při napojování JOINem vzniknout chyby nebo nechtěné duplicity…

Typy výkazů

  • účetní: drží se účetnické logiky
    • rozvaha
    • výkaz zisků a ztrát
    • cash flows
    • stavy bankovních účtů
    • přehled o změnách vlastního kapitálu
  • rozpočty: drží se rozpočtářské logiky
    • standardní rozpočty v rozpočtové skladbě za jednotlivé organizace
    • specifické výkazy: transfery přijaté územními organizacemi, transfery poskytnuté ústředními organizacemi územním, specifické ukazatele, účelové třídění/programové financování
  • další specifické výkazy: ukazatele účetní jednotky (vypočtené)

Jak se to odráží v datech?

  • pokud to správně chápu, tak sloupce začínající ZU_ jsou údaje, sloupce začínající ZC_ slouží k napojení na číselník identifikovaný zbytkem názvu
  • někdy jsou atributy daných řádků vidět až v číselnících: například se může stát, že v datech je nějaký řádek označen jako program X a není tam sloupec označující zdroj peněz, ale informaci o zdroji obsahuje až číselník programů, který je potřeba napojit.

Příjmy, výdaje, financování

  • jedna praktická poznámka: veřejné rozpočty se formálně skládají z příjmů, výdajů a financování, přičemž financování znamená hrubě řečeno půjčky.

Rozpočtová skladba

Tomuto je dobré rozumět: český státní rozpočet umí peníze rozdělovat do různých druhů škatulek. tyto druhy škatulek se jmenují třídění.

Týká se to jen rozpočtových reportů.

  • podle druhu: např. kapitálové x běžné
  • podle funkce: např. obrana, zdravotnictví,…
  • podle kapitol: MPSV, MMR…
  • podle zdroje: národní x evropské
  • podle typu řízení organizace: místní x centrální
  • podle fáze rozpočtového cyklu: schválený rozpočet, rozpočet po změnách, konečný rozpočet, skutečnost

Každý typ třídění má typicky několik úrovní, např.

  • u druhového druh, třída, seskupení, podseskupení
  • u funkčního … skupina, podskupina, paragraf
  • atd.

Jak se to odráží v datech

Rozpočtová data si lze představit jako tabulku v “dlouhém formátu”, kde každá koruna má svůj řádek a pro každý typ členění má tabulka sloupec, který danou korunu zařazuje do nejjemnějšího rozpadu daného členění. (Třeba paragraf 1234, který spadá do skupiny 12, podskupiny 123 atd. - tyto kódy a hierarchie lze rozklíčovat napojením číselníku.) Plus tabulka obsahuje organizaci, pro kterou je tato koruna rozpočtována nebo účtována. (V praxi nejde o jednotlivé koruny, ale o kyblíky všech korun, které odpovídají dané kombinaci atributů/členění).

Jinými slovy, je to rozdrobené na nejmenší známé průniky všech použitých členění.

Třídění podle fází se odráží v numerických proměnných.

Organizace jsou naskládané pod v jednom souboru, čili jeden soubor obsahuje celou množinu reportujících organizací (organizace, které jsou součástí státu, nebo naopak všechny místně řízení). Není to tedy tak, že bychom pro každou organizaci museli stahovat extra soubor.

Tím pádem veškeré výdaje podle členění X získáme tak, že sečteme všechna čísla ve skupinách podle členění X a ignorujeme ostatní členění; členění jde taky kombinovat - typicky nás můžou zajímat výdaje na jednotlivé sektory dál dělené na kapitálové a běžné.

Toto platí pro běžné rozpočtové výkazy (datasety). Všechna členění jsou v jedné tabulce. Některé výkazy ale obsahují součty a mezisoučty nebo ukazatele, které jsou součty jiných řádků, takže na to pozor, nejde to sčítat - je zkrátka dobré se na data přece jen občas podívat očima. V takových případech ale číselník obsahuje atribut pořadí řádku, aby šel výkaz číst. Pokud vím, týká se to přinejmenším

  • rozvah
  • rozpočtových ukazatelů (ústřední MIS-RIS výkaz ze sady FINU_ZU a samosprávný výkaz 51 tabulka 700 nebo 800 ze sady FINM)
  • tabulky 400 výkazu 51 (FINM - samosprávy), tj. rekapitulace

Jednotky analýzy: o kom a čem se vykazuje

  • typ organizace: toto se odráží na úrovni výkazů/datasetů: místně řízené organizace (M) mají jiné výkazy než ústředně řízení (U) a jsou i odděleně zveřejňovány, ovšem sdílí číselníky a rozpočtovou skladbu.

  • účetní jednotka
    • je organizace (ministerstvo, firma, podřízenka, příspěvkovka, ale i obec nebo kraj ve smyslu organizace, která řídí veřejné finance dané jednotky)
    • má IČO, adresu sídla apod.
    • typicky spadá do nějaké funkce státu (členění COFOG) = místo organizace v sektorech ekonomiky
    • má tzv. institucionální sektor = místo organizace v národních účtech
    • má druh a poddruh, typ OSS = místo organizace ve veřejném sektoru
    • může spadat do nějaké kapitoly (neplatí pro kraje, obce aj.)
    • spadá pod nějaký region NUTS3, popř. i jemnější jednotku
  • organizace = účetní jednotka (?)
  • finanční místo: kapitola nebo organizační složka státu
  • kapitola = jednotka, za kterou se rozpočtuje a skládají účty v rámci státního rozpočtu, tj. “centrální” úrovně státu. Každá kapitola zahrnuje jednu nebo víc organizací (snad s výjimkou pokladní správy), popř. za ni je nějaká organizace odpovědná - buď ministerstvo nebo někdo jiný (takže kapitola nerovná se ministerstvo ani sektor/funkce).

Konsolidace: co sčítat a co ne

Oč jde

Pro některé účely je dobré vědět, kde peníze finálně skončily - kdo je utratil a za jakým účelem - i když tyto peníze předtím protekly jinými částmi veřejného sektory. V ten moment se koukám na nějaký celek (kraj se všemi jeho obcemi, stát se všemi samosprávami, stát se všemi svými ministerstvy) jako na jednu organizaci a potřebuju tedy očistit přesuny peněz, které jsou z této perspektivy interní, aby se mi do případných součtů nezapočítaly dvakrát.

K tomu slouží konsolidace a open data státní pokladny ji naštěstí umožňují.

Jak se to odráží v datech

V rozpočtových (a možná i jiných) výkazech V číselníku polozka (“Rozpočtová položka” neboli číselník druhového třídění) jsou sloupce začínající kon_ s hodnotou true nebo false. Pro konsolidaci na úrovni okresu je to kon_okr atd.

Co s tím

Pokud chci zajistit, že se mi nedublují výdaje kraje a obcí (např. dotace kraje obcím), potřebuju si nechat v datasetu pouze řádky, kde kon_okr je true. Pokud chci konsolidovat vše (tj. zajímají mě údaje na úrovni státu), musím takto filtrovat všechny sloupce začínající kon_, a tak dál.

Reportování daňových příjmů

Technicky se netýká konsolidace, ale souvisí to: na příjmové straně je třeba myslet na to, že kvůli zákonu o rozpočtovém určení daní jde část centrálně vybraných daní alokuje rovnou obcím a v rozpočtu se vůbec neobjeví, tj. ve výkazu centrálních institucí je v některých daňových příjmech zaneseno jen cca 70 % toho, co se zkutečně vybere. (Týká se to daní z příjmu a DPH.) K analýze daňových příjmů je lepší použít data Finanční správy.

Známé datové zádrhele a nekonzistence

  • v některých souborech jsou záporná čísla zapsaná tak, že minus je na konci, takže většina parserů sloupec načte jako text a převod na číslo běžným způsobem nefunguje
  • některé CSV soubory jsou oddělované čárkou (a obsahují desetinnou tečku), jiné středníkem (s desetinnou čárkou)
  • u číselníků je třeba myslet na to, že můžou obsahovat duplicitní položky (např. stejný kód, jiný název), z nichž každá platí v jiném časovém období - pokud se to neodfiltruje, můžou při napojení JOINem vznikat duplicity.

Doplněno 28. 11. 2019:

  • v číselnících mohou být dvě stejné položky platné v jeden moment, tj. i po profiltrování přes datum (příklad položka 1381 v číselníku položek) - možná je to metodicky správně, ale rozhodně neintuitivní a je potřeba to ošetřit při napojování číselníků
  • URL prohlížeče číselníku ne vždy odpovídá jeho názvu/URL jeho XML souboru (příklad prohlizec-ciselniku/smeruc x /uctosnova.xml)
  • sloupce označující fáze rozpočtového cyklu (ZU_ROZ*) se liší mezi obcemi (výkaz FINM) a státem (výkaz FINU) - není to chyba, ale je to třeba vědět

Doplněno 13. 12. 2019:

  • čistě rozpočtářský poznatek: jsou v Česku obce - mj. Praha - které své příjmy z vlastní činnosti, prodeje majetku a podobných věcí nerozpočtují, ale považují je za část své hospodářské činnosti; v Praze je to dáno statutem. Tyto příjmy se pak do rozpočtu dostávají jako transfer v položce 4131 “Převody z vlastních fondů hospodářské (podnikatelské) činnosti”. Není tedy rozumné srovnávat příjmy z vlastní činnosti aj. nebo z transferů mezi obcemi, pokud nevíme, jak to která obec rozpočtově a účetně vykazuje; srovnání může jít líp před výkaz zisků a ztrát než přes rozpočet, je to ale v mnohém hrubší.

Doplněno 20. 1. 2019

  • CSV soubory jsou pojmenované jinak v letech 2010-12 (bez datumu v názvu)
  • IČO v souborech 2010-12 je “obohaceno” o dvě nuly na začátku
  • v některých letech jsou stejná data rozdělená do víc souborů (napříklady rozvahy a výkazy zisků a ztrát 2018, kde jsou MČ zvlášť)

Co v datech není nebo jsem to nenašel

  • zdrojové třídění u rozpočtů samospráv - jen incidentálně jako součást reportu účelového financování
  • údaje o regulaci zaměstnanosti ve veřejném sektoru neboli rozpočtované a skutečné počty zaměstnanců a průměrné platy, ač se sledují a částečně zveřejňují ve státním závěrečném účtu, viz petrbouchal/urednici2019
  • informace o tom, na jakém místě se peníze utratily (pokud vím, plošně se nesleduje, něco je v CEDRu a docela se to ví u eurofondů)

Kde by bylo fajn mít lepší dokumentaci

  • v balíku ROZVAHA nejsou zdokumentované jednotlivé soubory: v excelové dokumentaci je jen ROZV.csv, v balíku ale ROZV[MC]?[1-2].csv; u …MC… jde asi o městské části Prahy, ale není to zjevné (toto se týká jen roku 2018).

Známe neznámé:

  • nevím, co je finanční místo : je to kapitola nebo organizační složka státu
  • nevím, kdy můžu sčítat účetní výkazy (např. můžu sečíst výnosy z prodeje několika obcí nebo obce a nadřazeného kraje, aniž by bez konsolidace hrozilo, že některou korunu budu mít v součtu dvakrát?)
  • nevím přesně, co je PVS a “strukturní třídění”
  • ne zcela rozumím položkám ke konsolidaci (fungují v praxi, ale…), navíc jsem je zkoušel jen u příjmů a výdajů rozpočtů
  • některé součty při práci s obecními daty mi vycházely malinko jinak oproti reportům z analytické části monitoru (o desetiny procenta)
  • nerozumím programovému financování (EDS/SMVS)
  • nevím, jaký je rozdíl mezi číselník položek a směrnou účetní osnovou
  • neměl jsem v ruce výkazy stavů na účtech, rozvah a programového financování
  • neměl jsem v ruce pre-2015 reporty
  • nemám moc osahané finanční výkazy (oproti rozpočtovým)
  • netuším co je v přílohách a nezkoušel jsem pracovat s ukazateli účetní jednotky
  • nerozumím všem částem balíku FINSF (rozpočty státních fondů)