Analýza dat České obchodní inspekce

Filova Ivana
8 min readNov 28, 2021

Autorky: Anička Kulhánková, Ivana Filová

Mentorka: Lenka Hankovcová (Billigence)

Naše začátky

Našim cílem bylo zrealizovat projekt, který by byl pro někoho přínosný. Zprvu jsme se zaměřily na témata, se společenským dopadem. Zjistily jsme, že sehnat volně dostupná data vhodná k analýze není jednoduché. Necelý týden před prvním hackathonem se nám jako domek z karet rozsypaly všechny potenciální projekty a my jsme byly na pokraji zoufalství. Tehdy jsme náhodou narazily na stránky České obchodní inspekce (ČOI), která na svém webu zveřejňuje a pravidelně aktualizuje otevřená data. Několik datasetů za období 2014 až 2020 ve formátu csv tam čekalo jenom na nás.

Seznámení s daty

Česká obchodní inspekce je orgán státní správy, který spadá pod Ministerstvo obchodu a průmyslu. Věnuje se kontrole jakosti, bezpečnosti a označení výrobků, vyjma potravin, pokrmů a tabákových výrobků. Pokud shledá nějaký nedostatek ukládá prodejci sankci a/nebo zakáže prodej produktu či zajistí padělky. A právě údaje o jednotlivých kontrolách a jejích výstupech byly dostupné v datasetech. Tabulka Kontroly obsahuje údaje o datu a adrese, případně IČO, pokud se jedná o právnickou osobu. Fyzické osoby jsou anonymizované, kvůli GDPR a obsahují tak pouze údaj o kraji. Přes Id kontroly lze tyto řádky propojit s tabulkami Sankce, Zákazy a Zajištění, kde najdeme informace o výši pokuty, užitém zákonu či druhu sortimentu, jeho ceně a počtu zakázaných/zabavených kusů.

Práce na projektu

Anička Kulhánková

CSV soubory ČOIky jsem nahrála do Storage Kebooly přímo z počítače a nadšeně se vrhla na prvotní exploraci a čištění dat ve Snowflaku. Zjistila jsem, že největší chyby se nacházejí ve sloupcích Ulice, Č. popisné, orientační a PSČ. Tedy sloupce, kam kontrolor ručně vypisuje adresu. Často se také ve sloupci Kraj objevovala hodnota “Neznámý”, byť adresa byla vyplněna správně. Napsala jsem první queries a pak jsme si daly s Ivčou projektové rande, kde jsme si vše ukázaly a dál už pak pracovaly na všem společně. Já se vrhla mj. na opravu řádků s neznámým krajem. Tabulky jsme pak naloadovaly do Tableau pomocí Snowflake Writeru v Keboole a propojily relationshipem. Několikrát jsme se vracely zpět k čištění, protože vizualizace odhalily nečistoty. V této fázi jsem dostala za úkol opravit PSČ, která neseděla s krajem nebo byla uřízlá a měla pouze čtyři číslice.

Tabulka Sankce a Zákazy obsahuje i údaj o zákoně a tak jsem napsala v Pythonu skript, který tento údaj vytahuje a podle něj vytvoří odkaz na stránky www.zakonyprolidi.cz, kde je název a celé znění.

Ke konci jsme si daly nějakou dobu, po kterou každá z nás samostatně vytvářela vlastní vizualizace. Vize byla taková, že je pak nějak pospojujeme a seřadíme. Pravdou ovšem bylo, že aby to mělo takříkajíc hlavu a patu, musely jsme si dát dvoudenní maraton, kde jsme začínaly vlastně od píky.

Ivana Filová

Práci jsme neměly rozdělenou, dělaly jsme, co bylo potřeba. Chtěly jsme si vyzkoušet nabyté znalosti z DA v praxi, proto jsme obě pracovaly jak na čištění dat, tak na vizualizacích.

Na naši tabulku Kontroly jsem nejdřív napojila tabulku Registru ekonomických subjektů, čímž jsme získaly více informací, pak bylo potřeba ještě dočistit názvy ulic, datumy nebo části Prahy, které neseděly s PSČ.

Na první hackathon jsme tak přišly šťastné, že i přesto, že času na čištění bylo málo, zvládly jsme data vyčistit a teď se můžeme pustit do vzualizací. Jenže právě první vizualizace v Tableau nám ukázaly, že se budeme muset vrátit do Kebooly a pokračovat v čištění.

Po prezentaci našich dosavadních výsledků v rámci Demonight jsme se ještě rozhodly data obohatit o tabulku zajištěných padělků. Čištění těchto dat mi zabralo téměř týden, takže když jsme se pak rozhodovaly, jestli je nakonec použijeme, shodly jsme se, že by to mohlo být přinejmenším zajímavé zpestření. Ani na druhém hackathonu jsme se neposunuly tak, jak jsme si představovaly. Zjistily jsme, že mnohem efektivněji pracujeme doma, když máme na to klid. Proto jsme si každá připravily vlastní vizualizace, z kterých jsme později, v rámci dvou společně strávených večerů, vybíraly ty, které nejlépe vyjadřovaly to, co jsme daným dashboardem chtěly říct, případně jsme dodělávaly grafy, které nám k dotvoření celkového obrazu chyběly.

Odkaz na celý náš kód se nachází zde.

K čemu jsme v rámci projektu dospěly

Všechny vizualizace, které zde popisujeme, lze najít na Tableau Public.

Koho ČOI kontroluje?

ČOI neuvádí počty subjektů, které má právo kontrolovat. Domníváme se však, že počet subjektů, který spadá do kompetence ČOI, by se mohl přibližovat údaji o počtu subjektů s převažující činností obchod (dále ESO), jejichž počty uvádí ČSÚ. Počet ESO se meziročně mění jen nepatrně.

Četnost kontrol, které ČOI provedla, od roku 2016 klesají. Lze tedy předpokládat, že tento trend s počtem subjektů příliš nesouvisí. Zcela nejvyšší počet kontrol provedli v Jihočeském kraji, v Praze a v Jihomoravském kraji. V Praze je to dáno vysokým počtem subjektů. Jihočeský kraj patří naopak ke krajům s nižším počtem ESO, a přesto častými kontrolami. Další výjimkou je kraj Středočeský, který má druhý nejvyšší počet ESO, ale kontroloři sem zavítají jen zřídkakdy.

Nutno podotknout, že ČOI má po ČR vícero poboček a, že jedna pobočka ČOI má na starosti dva kraje. Z dat vyplývá, že více kontrol bylo provedených v kraji, v němž má ČOI sídlo. Zajímavostí však je, že na Moravskoslezský a Olomoucký kraj dohlíží dvě pobočky, každá sídlí v jiném kraji a počet provedených kontrol v obou krajích je přibližně stejný.

A jaké jsou výsledky jejich kontrol?

V případě zjištění nedostatků je výsledkem kontroly sankce nebo zákaz prodeje výrobku. Ne při každé kontrole shledá ČOI nějaký nedostatek. Kontroly končící sankcí nepřekročily v žádném ze sledovaných roků 50% hranici. Nejvíce pokut bylo uloženo v Jihočeském kraji. Kontroloři tam však pokutují mírně, neboť co se objemu uložených sankcí týče, nehrají zrovna prim. Lze tedy vyvodit, že v tomto kraji operují velmi aktivní kontroloři, kterým jen tak něco neunikne.

Největší celkovou sumu pokut dostali pražští, jihomoravští a plzeňští prodejci.

V případě zákazů lze říct, že obecně bylo zakázáno méně výrobků než bylo uložených pokut. Nejčastěji vydané zákazy omezují prodej hraček, obuvi a textilu a zamezuj používání špatně seřízených vah. Tyto kategorie se v různém pořadí objevují na prvních příčkách ve většině krajů.

Jaké firmy navštívili kontroloři nejčastěji?

Mezi prvními deseti nejvíce kontrolovanými obchody se objevují především obchodní řetězce jako Penny, Albert, Tesco, …, drogerie Teta, DM a prodejci pohonných hmot, nejčastěji ORLEN (dříve Benzina) a MOL.

Kdo jsou největší hříšníci?

ČOI může uložit pokutu až do výše 50 milionů Kč. Nejčastěji však ukládá nízké pokuty do 10 000 Kč. V počtu pokut jsou na prvních příčkách opět obchodní řetězce. Na tuto skutečnost však musíme nahlížet v kontextu jejich velkého počtu poboček. Mnohem zajímavější jsou však údaje o největší jednorázové pokutě a největším objemu pokut v jednotlivých letech. Do roku 2017 se ČOI soustředí na firmy označované jako “šmejdi”, kam patří společnosti jako BOYDE, BNM-Medical, nebo Exen trade.

Na zakázané výrobky jsme se, kromě počtu jejich zákazů, podívaly i z hlediska celkového součtu peněz, který výrobek stál, a firem, jež jej prodávaly. Vidíme, že v letech 2014 až 2020 byla nejdražším zakázaným sortimentem nafta a benzín 95. Největší zisk ušel MOLu (přes 2 miliony Kč) a ČSAD Turnov (pře 1,3 milionů Kč).

U zajištěných výrobků jsme se podívaly na počet provedených zajištění a množství zajištěných padělků v krajích a zjistily jsme, že situace se v jednotlivých letech velmi nemění. Nejméně zajištěných padělků a v nejmenším množství bývá pravidelně v Pardubickém a Moravskoslezském kraji a zatím co v Plzeňském, Karlovarském a Jihomoravském kraji bývá situace opačná. Výjimkou byl rok 2020, kdy v žádném kraji nedošlo k zajištění padělků, což pravděpodobně souvisí s koronavirovou pandemií a opatřeními spojenými s prodejem.

Z pohledu značek jsou nejčastěji zajišťované padělky značek Adidas, Nike a Louis Vuitton.

Ze zajištění na úrovni firem vyplývá, že počty zajištěných výrobků nesouvisí s počtem ani výškou pokut.

Ještě jsme se v rámci projektu zaměřily na sezónnost, abychom zjistily, ve který den bylo možné očekávat kontrolu a kdy nikoliv. Z dat plyne, že kontroly přes víkend jsou spíše výjimkou v porovnání se středem týdne, kdy probíhalo nejvíce kontrol.

Jaký je přínos našeho projektu

Náš projekt přibližuje veřejnosti práci ČOI jako důležitého článku státní správy, který ochraňuje práva spotřebitelů. Díky interaktivnosti dashboardů na Tableau Public se každý může podívat na situaci ve svém kraji, které pobočky byly nejčastěji kontrolované, případně pokutované. Pomocí vyhledávače pokutovaných prodejen si také lze jednoduše vyfiltrovat sortiment a obec a zjistit tak, v jakých provozovnách byly zakázány hračky nebo třeba benzin, což může ovlivnit rozhodnutí, kde člověk nakoupí dárky pro své dítě nebo natankuje.

A na závěr…

Na závěr bychom chtěly poděkovat Lence Hankovcové, která se s námi pravidelně setkávala a dávala nám zpětnou vazbu a konstruktivní připomínky k našim návrhům, které jsme jí v jednotlivých fázích prezentovaly. Nemalé díky patří i celé komunitě Czechitas, zejména Verči Peškové za pomoc s SQL, Vojtovi Tůmovi za pomoc v Keboole, celé rodině za podporu a trpělivost a ostatním holkám za soudržnost a odlehčení těžších momentů.

Informační zdroje

Otevřená data České obchodní inspekce https://www.coi.cz/pro-spotrebitele/otevrena-data/

https://www.coi.cz/pro-spotrebitele/otevrena-data/licence-otevrenych-dat/

Otevřená data Českého statistického úřadu: https://www.czso.cz/csu/czso/registr-ekonomickych-subjektu-otevrena-data

Statistika ekonomických subjektů:

https://www.czso.cz/csu/xs/ekonomicke-subjekty-ve-stredoceskem-kraji-v-roce-2014 až 2020

--

--