Analýza dostupnosti poboček České pošty

Autorky: Daniela Horáková a Kateřina Matoušková
Mentoři: František Mészároš a Lukáš Pavlík z ČSOB

Výběr tématu

Obě dvě jsme se na začátku shodly na tom, že nemáme přesnou představu tématu, které chceme zpracovávat a že jsme otevřené novým věcem. Postupem času jsme začaly dávat dohromady témata, která by nás bavila. Hlavním problémem ale nakonec bylo sehnání kvalitních dat, takže jsme téma několikrát upravovaly. Po stádiích — analýzy zelený střech, AI a obecné dostupnosti služeb v ČR, nakonec naše téma vykrystalizovalo až před druhým hackathonem.

Hurááá, máme finální téma i data!

Problematika dostupnosti pošt nás napadla v souvislosti s plánovaným rušení některých poboček od 1. července 2023 a chtěly jsme provést analýzu, jak se změní jejich dochozí dostupnost v rámci obce. Pracovaly jsme se seznamem poboček dostupných na stránkách České pošty, se seznamem rušených pošt a pro naše závěrečné doporučení jsme použily i seznam Balíkoven. Dále jsme si dohledaly na Českém statistickém úřadu počet obyvatel k poslednímu sčítání lidí v roce 2021 . S těmito tabulkami jsme po kontrole správnosti dat a čištění následně pracovaly v SQL, Pythonu i Tableau.

Další postup práce a náš druhý Hackhaton

Před druhým hackhatonem jsme měly velkou radost, když se Danče podařilo přes Keboolu převést adresy pošt na zeměpisné souřadnice. Nicméně po zjištění, že některé generované souřadnice jsou mimo ČR nadšení opadlo a Danča se vrhla na kód v Pythonu, který by adresy na geolokace převedl. To jsme chtěly udělat hned na začátku, ale narazily jsme na to, že Python při převedení takového množštví adres nestíhá… Kód (viz níže) jsme tedy nakonec využily k dohledání a opravení menšího množství chybných lokací z Kebooly. Na hackathonu nám také velmi pomohl František, který přišel s návrhem řešení pro kód v Pythonu, který graficky vykresluje v mapě barevné polygony na základně (ne)obslužnosti území. S tímto kódem jsme pak na hackhatonu pracovali a finálně ho s pomocí lektorů Jirky a Kuby aneb mistrů Pythonu dokázali upravit tak, abychom mohli do kódu napsat více měst najednou. Výsledkem kromě mapy je i výpočet plochy města, kterého se dotklo rušení poboček a díky tomu tak reálně vidíme, jak velkého území města se tato změna dotkne. Mezitím Kačka s Lukášem pracovali na přípravě a propojení tabulek pomocí SQL ve SnowFlake. Zde bylo nutné definovat si spojovací ID všech našich tabulek a provést správnou agregaci, abychom měli všude stejnou granualitu dat.

Transformace adres na geolokace v Pythonu

Na následujících mapách a grafech je vidět jaká je situace pošt nyní a jak se má k 1.7.2023 změnit:

Počet rušených pošt dle krajů

Na mapách výše je vidět, že se nejvíce poboček zruší v Moravskoslezském kraji, dále v Praze, Ústeckém kraji a Středočeském kraji. Naopak nejméně zavřených poboček bude na Vysočině a Liberecku. Celkově se bude rušit 300 poboček, což odpovídá 10% z celkového počtu poboček v ČR.

A zde detailnější zaměření na krajská města:

Ruší pošta skutečně pobočky převážně ve velkých městech?

Z dat pozorujeme kumulaci rušených poboček ve velkých městech. Proto jsme se rozhodly ověřit hypotézu, zda Česká pošta ruší nejvíce pobočky ve velkých městech. Nulovou hypotézu jsme si stanovily takto: Neexistuje statisticky žádná významná souvislost mezi počtem obyvatel měst a počtem rušených poboček. Alternativní hypotéza je : Existuje statisticky významná souvislost mezi počtem obyvatel obcí a počtem rušených pošt. Věděly jsme, že chceme určit závislost dvou skupin dat, které nemají normální rozdělení. Na základě těchto parametrů jsme vybraly test pomocí tzv. Kendallova tau. Danča připravila níže uvedený skript a data do Pythonu.

statistický script Python

Výsledné hodnoty vyšly u korelačního koeficientu 0,6040607 a pvalue 6,2608 e–18. Z toho můžeme vyvodit, že při hladině významnosti 5% zamítáme nulovou hypotézu a můžeme tedy potvrdit, že existuje statisticky významná závislost mezi počtem obyvatel obcí a počtem rušených pošt. Graficky jsme tuto závislost potvrdily i v Tableau:

Statistický graf

Tuto problematiku jsme chtěli ještě detailněji rozebrat, a tak jsme pomocí SQL vytvořili agregaci podle počtu obyvatel a sečetli jsme v jednotlivých skupinách počet obcí, kterých se dotkne rušení. Zde pro ukázku část kódu:

Mezi další kroky mimo jiné patřilo vytvoření informace o (ne)rušení poboček v obcích

A zde je finální vizualizace v Tableau:

Z tohoto grafu nám vyplývá, že nejvíce obcí, kterých se dotkne rušení poboček spadá do kategorie středně velkých měst s 10–25 000 obyvateli. Nicméně jelikož v Grafu č. 1 i v Statistickém grafu jsme zjistily, že nejvíce pošt se uzavírá ve velkých městech, rozhodly jsme se detailněji zaměřit na analýzu krajských měst.

Jak se mění situace v krajských městech

Na těchto dvou grafech můžeme vidět porovnání počtu lidí na jednu pobočku pošty v krajských městech před a po rušení poboček. Největším skokanem k horšímu jsou jednoznačně Karlovy Vary, kde zůstávají jen tři pobočky a tak musí jedna pobočka obsloužit o 10066 obyvatel více. Následuje Liberec (8688 obyvatel více na pobočku) a Olomoc (7180 obyvatel více na pobočku). V celkových počtech obyvatel kraluje Praha, kde jedna pobočka vychází na 19073 obyvytel. Následovaná je Libercem a Karlovými Vary, jak je z grafu patrné.

V následujícím grafu srovnáváme rozdíly v obsloužené ploše města před a po zrušením poboček. Mapy jednotlivých měst včetně vysvětlení výpočtu jsou uvedeny níže.

Směrodatným údajem pro naše účely je rozdíl vzniklý z předchozích dvou grafů, který ukazuje plochu města, kterých se dotkne změna kvůli rušení poboček.

Zobrazení map s (ne)rušenými poštami pomocí Pythonu

Detailní analýzu krajských měst jsme zpracovaly v Pythonu. Kód byl složitý (celý kód zde), alespoň tedy zjednodušeně, co jsme udělaly: stáhly mapu města včetně chodníků a ulic, doplnily o pošty a vykreslily polygony na základě dochozí vzdálenosti k pobočce — tu jsme si určily 2000m.(Detailněji — představte si, že od pošty natáhnu pásmo a to má přesně 2000m a to pásmo natahuji znovu a znovu všemi možnými cestami od pošty. Spojením bodů, kde pásmo končí získám polygon dostupnosti.) Území ve městě, které je mimo polygon dostupnosti, jsme označily sytě červeně jako neobsloužené území. Potom jsme určily pobočky, které se ruší a vyznačily území, které bude nově, dle našeho kritéria, neobsloužené světle červenou barvou.

  • Obsloužené území = polygon v dochozí vzdálenosti 2000 m od pobočky pošty.
  • Světle červené území = oblast, která dříve byla obsloužená poštou, ale po zrušení pobočky již bude bez pošty do 2000m.
  • Modré body = jsou pošty, které se neruší a červeně ty, které se ruší.

Porovnání jednotlivých krajských měst

Z výše uvedeného grafu, který porovnává plochu obslouženou poštami, vykazuje Jihlava největší neobslouženou plochu města před i po rušením. Nicméně tento údaj je trochu zavádějící. Je to z důvodu, že se jedná o oblast, která sice katastrálně spadá pod Jihlavu, nicméně není zde zastavěné území a převládá zeleň. Tento stejný fenomén můžeme pozorovat i u Zlína na obrázku níže. Dále např. v Praze můžeme vidět nejmenší zastoupení sytě červeného území — tedy oblasti bez dostupnosti pošt, což značí o rovnoměrnosti rozložení poboček. Také je zde nejméně světle červeného území, což znamená, že se pobočky ruší rovnoměrně. Naopak oblastí, kde dopadla Praha nejhůře je celkový počet rušených poboček (35).

Největší rozdíly ploch

Liberec je město, kterého se změna území dotkne nejvíce. Rozdíl v % obsloužení města před a po rušení je 16 procentních bodů (světle červená oblast). Zároveň Liberec má po Praze nejvyšší podíl obyvatel po zrušení na jednu pobočku pošty. V průměru tam jedna pošta vychází na 17377 obyvatel. Podobně jsou na tom Karlovy Vary, u kterého rozdíl obsloužené plochy před a po uzavření činí 15 procentních bodů a počet obyvatel na pobočku je 16106, čímž si vysložily 3. příčku mezi krajskými městy v tomto ukazateli.

Naopak nejlepšími městy, kde je zastoupeno nejméně světle červeného území hned po Praze, a kde je tedy nejmenší rozdíl před a po rušení je Brno a Ostrava. Ostrava je ale zároveň druhým nejhorším městem co se týká počtu zavíraných pošt (19).

Vlevo Brno, vpravo Ostrava

Další města jsou si již svými výstupy podobná a detailní přehled je k nahlédnutí v přiložené tabulce zde.

Vlevo Zlín, vpravo Plzeň
Vlevo Ústí nad Labem, vpravo Olomouc
Vlevo Pardubice, vpravo Hradec Králové
Vlevo České Budějovice, vpravo Karlovy Vary

Pomůže obyvatelům měst pokrýt výpadek pošt síť Balíkoven?

Liberec je městem, kde jsme si pomocí Python kódu zkusily zahrnout kromě pošt i síť Balíkoven od České pošty. Díky tomu jsme si potvrdily náš předpoklad, že dopad na zrušení poboček pošt se dá eliminovat využitím Balíkoven a dalších podobných služeb. Výhodou Balíkoven je kromě dostupnosti i fakt, že se dá na většině poboček kromě příjmu balíčků a dopisů, zásilky i odesílat díky aplikaci balikovna.cz. Nově je tato možnost odesílání zásilek i v samoobslužných Boxech, které jsou dostupné 24/7.

Balíkovny a pošty v Liberci

Závěrečný výstup a naše doporučení

Naší analýzou jsme zjistily kterých krajů a obcí se nejvíce dotkne uzavírání poboček. Pomocí výstupů z Pythonu jsme dokázaly spočítat reálný rozdíl ploch měst zasaženými zavíráním poboček. Negativní dopad rušení poboček na obyvatele dokáže zmírní síť Balíkoven, jak jsme si ověřily na příkladu Liberce. Také již existují tzv. mobilní pošty, které projíždí vybrané obce s horší dostupností. Závěrem bychom doporučily rovnoměrnější zavírání poboček v rámci měst, aby nově neobsloužená plocha byla co nejmenší. Také je podle nás důležitá edukace obyvatel, aby se předem připravili na rušení poboček a zejména senioři, aby se naučili vybírat si své důchody i jinak než na pobočkách pošt. K další práci na projektu by bylo zajímavé získat data od České pošty a zahrnout do analýzy i vytíženost jednotlivých poboček.

Danča

Slovy mistra — tohle jsem tedy opravdu nečekal. Teda to, že akademie bude až tak veliký fičák. Neskutečné období v akademii, které se chýlí ke svému vrcholu a já jsem každou lekci vděčná, že můžu být součástí. Je opravdu neporovnatelné o akademii slyšet a zažít na vlastní kůži. Jsem velmi ráda, že jsem vystoupila ze své komfortní zóny a zažila a naučila se toho tolik nového. Jen na projektu jsem si vyzkoušela, že data jsou všude, ale není vždycky jednoduché se dostat k těm správným. Při jejich zpracování jsem zjistila, že kapacita počítače je omezená a hodina čekání na zpracování v Keboole vlastně není zas tak dlouhá, když přinese výsledek. Vyzkoušela jsem si psaní skriptu v Pythonu a zjistila, že internet a chat GPT mohou dobře poradit, ale když člověk nezná souvislosti, tak se stejně nad dokumentací zapotí. Na druhou stranu ta radost, když script funguje je opojná a návyková. S tím přichází to nejdůležitější zjištění, že mě to baví! A že jsem neskutečně ráda za tu pozitivní a podpůrnou komunitu a především za svoji parťačku Kačku. Kači, moc díky za pozitivní přístup a spolupráci!

Kačka

Jsem moc ráda co vše jsme se díky tomuto projektu naučily, i když to často bylo dost náročné. Zároveň mám velkou radost, že jsem si mohla vyzkoušet vytvářet něco úplně nového a že jsem objevila, jak mě práce s daty a celý proces okolo tvorby projektu baví. S Dančou jsme se hezky doplňovaly a rozdělení práce vyplynulo nějak samo. Já jsem se zabývala především prací s tabulkami a jejich zpracování pomocí SQL. Zde mi dalo nejvíce práce vůbec naše data nahrát do SnowFlake, jelikož byl problém s datovými typy a formátem jednotlivých tabulek. Dále bylo zajímavou výzvou přijít na to, jak správně sjednotit data a propojit do jedné tabulky, což se nakonec zadařilo ve spolupráci s Lukášem. Dále jsem se věnovala finální analýze výsledků, vizualizaci v Tableau, psaní článku a i jsem si vyzkoušela práci v Pythonu, kdy jsem jako bonus zahrnula do vybraných měst i mapu s Balíkovnami. Moc děkuji Danče za skvělou spolupráci a vzájemnou podporu!

Poděkování

Rády bychom závěrem moc poděkovaly především našim skvělým mentorům Františkovi a Lukášovi za to s jakým nasazením se zapojili do projektu a za jejich podporu po celou dobu práce. Oba dva nám dokázali pomoct uchopit celý projekt, pravidelně nám dávali feedback během našich online schůzek a mimo to byl František expertem přes Python a Lukáš v SQL. Ještě jednou moc díky, vážíme si toho! Dále moc děkujeme všem lektorům a koučům, kteří během hackhatonů byli vždy velmi ochotní a nápomocní. Chtěly bychom zde vyzdvihnout především Jirku Pešíka a Kubu Červinku. Úplně závěrečné díky patří celé Czechitas komunitě v čele s Terezkou za to, co tvoří a že jsme mohly být součástí!❤

--

--