|
Posuzování OSM dat
Tato sekce pokrývá proces kontroly kvality dat, zejména v souvislosti s řízením projektu mapování OSM, jakým je třeba ten, který vede Humanitární tým OpenStreetMap v různých zemích a projekty Open Cities v Bangladéši, Srí Lance a Nepálu. Demonstrované metody mohou být užitečné i v jiném kontextu, tam kde je kontrola kvality dat bežným úkolem. Když se pokoušíme mapovat kompletní skupinu objektů a atributů v určité oblasti, potřebujeme nástroje na kontrolu chyb a posouzení přesnosti práce. V tomto průvodci si ukážeme několik metod kontroly dat, vysvětlíme si jednotlivé kroky této metody a důvody jejího použití. Dobře řízený projekt mapování bude zahrnovat každý z těchto tří procesů, a to jak pro vyhodnocení a opravu dat, tak pro podávání zpráv.
Důlěžitost těchto metod posuzování narůstá s velikostí datového modelu a počtem nasbíraných objektů. Posouzení datového modelu, který zahrnuje pouze zajímavá místa (POI), by například nezabralo mnoho času a úsilí: V našem případě si může položit tyto otázky:
Obvykle je datový model mnohem komplexnější, jako třeba v případě mapování budov. Zvažte datový model, který obsahuje toto: Teď si představte, že mapujete tisíce takových budov a analýza se stane více kritickou. V tomto návodu použijeme budovy jako příklad, ačkoliv stejné metody lze aplikovat i na posuzování jiných typů objektů. Denní kontrolaData by se měly pravidelně kontrolovat a validovat. Mělo by to být denně nebo nanejvýš týdně. Pro vedoucího týmu mapovačů je to důležitý úkol, protože diky včasnému odchycení chyb a špatných úprav, se mohou editoři poučit a dělat věci správně. Teď si ukážeme některé z jednoduchých metod kontroly dat pomocí JOSM. Tady je několik otázek, které si klademe nad našimi daty:
Pojďme si zkusit najít odpovědi na tyto otázky v JOSM. Budeme předpokládat, že zkoumáme práci ostatních, ale stejné procesy budou fungovat (a mělo by to být jednodušší) při analýze vlastní práce. Použijeme ukázkové data z mapovacího projektu Open Cities v Dhaka. Stáhnout si je můžete odsud: dhaka_validation_example.osm NEZKOUŠEJTE ukládat vaše změny v OpenStreetMap. Tato cvičení jsou pouze pro demonstrační účely. Validace datV prvním kroku kontroly dat si spustíme Validační nástroj v JOSM, který automaticky kontroluje načtená data, podezřelá z výskytu chyb.
Podívejme se na některá varování. Vidíme tam čtyři varování “Crossing buildings”. Toto varování znamená, že se budovy v některém místě překrývají. Vyberte první položku v seznamu, klikněte na ni pravým tlačítkem a vyberte “Zoom to problem.” (Přiblížit problém) Taktéž klikněte na tlačítko “Vybrat” v spodní části Validačního okna, čímž vyberete čáry, kterých se to týká. Zjistíte, že u těchto dvou je problém:
Tato metoda automatické kontroly dat je efektivním způsobem opravy topologických chyb, zejména těch, kterých si člověk těžko povšimne. V tomto seznamu vidíte, že dalším varováním může být “Building inside building” (Budova uvnitř budovy), což je obdobná chyba. K dalším varováním patří například “Crossing waterway/highway,” (Křížení vodní cesty / silnice) nejsou nutně chyby. Jen to ukazuje, že validační nástroj je dobrý při hledání možných chyb, ale vyžaduje, aby se někdo podíval, zda jde o chybu důležitou nebo ne. Podívejme se na varování pod “Similarly named ways” (Podobné názvy cest), kde je chyba, která není topologická. Klikněte na “Vybrat” pro zobrazení dvou cest, kterých se to týká. Víte, kde je chyba? Máme tady dva různé segmenty silnice, které ve skutečnosti tvoří jednu silnici, avšak mají mírně odlišné názvy - “road” má různou velikost prvního písmene. Vypadá to, že by měly mít stejný název a v tomto případě je správně “Road”. Využití vyhledávání v JOSMVyhledávání v JOSM je mocný pomocník při kontrole dat. Umožňuje zadat vyhledávací podmínky, známé též jako dotazy a vybrat tak pouze požadované funkce.
Je to skvělé, ale jak nám to pomůže při kontrole dat? Když teď jsou vybrány všechny objekty jednoho typu, můžeme hledat nesprávné tagy.
Můžeme to porovnat s tagy OpenStreetMap, které byly mapovány v našem datovém modelu a hledat v nich chyby. Tento tag například reprezentuje budovu. Dříve v projektu Open Cities Dhaka (z něhož tato data pochází) panovala nejistota ohledně toho, zda má být označena budova se smíšeným využitím building:use=multipurpose nebo building:use=mixed. Protože bývalá značka byla dříve používána v jiných zemích, tak byla zvolena. Vidíme však, že jedna z budov byla označena jako mixed (smíšená). Musíme to opravit. (Další zjevnou chybou jsou tři různé výrazy pro garage, ale to tady teď řešit nebudeme.)
Pamatujte, pokud procházíte tento návod, NEZKOUŠEJTE uložit vaše úpravy do OpenStreetMap. Tyto příklady jsou pouze pro demonstrační účely. Opětovný průzkumPři řízení projektu, jakým je podrobný průzkum budov, by měla existovat další metoda kontroly kvality a to jak pro zlepšení práce, tak pro podávání zpráv o přesnosti na konci projektu. Pokud při průzkumu oblasti spolupracuje více týmů, pak je běžné, že jeden nebo více týmů nepodá naprosto uspokojivý výkon. Dokonce i týmy, které jinak vykonávají efektivní a přesnou práci, mohou někdy udělat chyby. Představte si týmy, které zmapují 100 budov denně - je pravděpodobné, že malé procento atributů, které nasbírají, nemusí být správné. Dobrý projekt tedy bude zahrnovat proces opětovné kontroly některé provedené práce, opravu chyb, určení mapovacích týmů, které podávají uspokojivý výkon a výpočet přibližného procenta chyb pro závěrečnou zprávu. Opětovný průzkum každé budovy v cílové oblasti samozřejmě nemá smysl, ale 5-10% budov by mělo být přezkoumáno. Oblasti k přezkoumání by měly být vybrány z různých míst, aby byly porovnány i průzkumné týmy. Průzkumné týmy mohou zkontrolovat práci jiných týmů, nebo pokud je to možné, mohou provádět hodnocení zkušenější manažeři. Je běžnou praxí, že manažeři jeden den v týdnu věnují kontrole cílové oblasti. Oprava chybCo udělat, když najdete nějaké chyby? Pokud se vyskytne malé množství chyb (méně než 5% budov), měly by být problémy předloženy původnímu mapovacímu týmu, aby si jich byl vědom a nemusel je znovu opakovat. Data by měla být opravena v OpenStreetMap a výsledek opakovaného průzkumu by měl být zaznamenán. Pokud existuje mnoho chyb, možná bude třeba podniknout datší kroky. Průzkumný tým je potřeba vhodným způsobem oslovit a jím mapované oblasti bude nejspíš potřeba znovu prozkoumat, podle toho, jak nepřesná data byla. Nepřesnost větší než 10% je považována za nepřijatelné množství. Dodání zprávy o přesnosti mapováníDruhým cílem opětovné kontroly je předání zpravy o přesnosti dat po uzavření projektu. Uživatelé dat budou chtít znát vaše metriky a metodiky hodnocení kvality dat. Zahrnutím tohoto procesu do své metodiky kontroly budete moci jasně vysvětlit, jak jste hodnotili kvalitu dat a poskytnout ověřená čísla, která představují přibližné procento chyb obsažených v datech z průzkumu. Představme si například, že řídíme projekt, který mapuje 1000 budov. Rozhodli jsme se tedy namapovat 10% z nich, nebo 100 budov, náhodně vybraných z cílové oblasti. Jdeme ven a zjistíme, že ze 100 budov, které jsme znovu prozkoumali, šest z nich má vysokou míru nepřesnosti. Řekněme, že definujeme nepřesnost tím, že máme více než jeden atribut nesprávný. Šest procent průzkumu je tedy špatně - můžeme tyto chyby opravit, ale je potřeba myslet na to, že šest procent nepřesnosti je pravděpodobně ve všech 1000 budovách. To by mělo být hlášeno jako pravděpodobná chyba na konci projektu. Kontrola by měla být prováděna v průběhu celého projektu. Představte si, že jsme v tomto příkladu čekali až do konce a 40 ze 100 budov bylo špatných! Mohlo by to zničit celý projekt. Je lepší zachytit chyby včas a opravit je dřív, než se projevý ve velkém měřítku. SQL dotazyPravděpodobně nejlepším analytickým nástrojem bude spuštění SQL dotazů v systému GIS, jako je Quantum GIS. Je to podobné vyhledávání dat v JOSM, ale nabízí výkonnější analýzu, i když nastavení může trvat trochu déle. Použití JOSM je rychlý a pravidelný způsob, jak zkontrolovat základní chyby, zatímco dotazování v QGIS je vhodnější pro nalezení chybějících dat nebo nesprávných atributů. Budeme předpokládat, že o GIS něco málo víte a zaměříme se na vytváření dotazů, které vám pomohou zkontrolovat data OpenStreetMap. Pro níže uvedená cvičení znovu použijeme data z projektu Open Cities Dhaka, které můžete stáhnout v balíku dhaka_sql.zip. OpenStreetMap data byla exportována pomocí HOT Export Tool (export.hotosm.org) a hranice cílové oblasti byly definovány na počátku projektu. Příprava datRozbalte balík souborů a načtěte dva shapefile do QGIS. Začneme tím, že si v oblasti projektu vyčleníme pouze budovy, abychom později naše dotazy zjednodušili.
“building” != NULL AND “source” = ‘Open Cities Dhaka Survey’
SQL dotazySpustíme dotazy nad vrstvou budov a zkusíme nalézt chyby. Podívejme se na některé věci, na které bychom se mohli dotázat. Z datového modelu u tohoto projektu lze vyčíst atributy, které by měly být shromážděny pro každou budovu - jsou to:
Všimněte si, že v shapefile jsou tyto názvy atributů zkráceny, protože názvy sloupců jsou omezeny na 10 znaků. Jaké otázky tedy chceme položit? Jaké chyby jsou pravděpodobné? Jednou z běžných chyb je, že budova byla zmapována, ale ne všechny atributy byly shromážděny. Chceme tedy spustit dotaz, který ukáže všechny budovy, které nemají kompletní sadu atributů. U některých atributů, jako je name a start_date (rok výstavby), samozřejmě nevadí, pokud jsou prázdné, protože ne každá budova má jméno a někdy je rok výstavby neznámý. Ale ostatní atributy by měly být vždy shromážděny. Pojďme si takový dotaz vytvořit:
“building_c” = NULL OR “building_s” = NULL OR “building_l” = NULL OR “building_m” = NULL OR “vertical_i” = NULL OR “soft_store” = NULL OR “building_u” = NULL
Jaké další dotazy by mohly být užitečné? Můžete také chtít zkontrolovat atributy, které nejsou obsaženy ve vašem datovém schématu. Udělali jsme to v sekci vyhledávání v JOSM. Pomocí dotazu můžete najít všechny budovy, jejichž atributy nejsou zahrnuty ve vašem datovém modelu. Lze to také využít při hledání anomálií, které jsou pravděpodobné, ale nemusí znamenat chybu. Pokud například spustíme tvůrce dotazů, vybereme building_l a klikneme na „All“, načtete všechny možné hodnoty atributů, vidíme, že většina budov má číslo mezi 1 a 20 (Tento atribut je building:levels, počet podlaží v budově). Ale je tam také číslo 51. Ale nevypadá to, že se v této oblasti bude tyčit 51patrová budova, tak si ji můžeme zobrazit a přidat si k ní poznámku, abychom to zkontrolovali s mapovači. Dotazování může být účinným způsobem, jak hledat možné chyby v sadě dat. V kombinaci s dalšími funkcemi QGIS může být využito k vytváření map, které lze použít při kontrole dat v oblasti. ShrnutíV tomto tutoriálu jsme prošli několik účinných metod pro udržování kvality dat během plnění projektu a provedli několik praktických cvičení, při kterých jsme si procvičili kontrolu OSM dat. Při organizaci mapovacího projektu nebo dokonce při posuzování dat v oblasti pro osobní potřebu se tyto metody mohou hodit.
Byla tato kapitola užitečná?
Napište nám a pomozte vylepšit naše návody!
|