|
بازبینی داده OSM
این بخش روندهای بررسی کیفیت داده، بویژه در زمینه یک پروژه نقشهکشی مستقیم OSM، مانند مواردی که توسط [گروه بشردوستانه OpenStreetMap] (http://hotosm.org) در کشورهای مختلف و پروژه [شهرهای باز] (http://opencitiesproject.com) در بنگلادش، سریلانکا و نپال اجرا میشود را پوشش میدهد. روشهای گفته شده ممکن است در زمینه های دیگر نیز مفید باشد، زمانی که بررسی کیفیت داده کار اصلی است. ما زمانی که در تلاشیم تا نقشه مجموعه کاملی از ویژگیها و عوارض یک منطقه مشخص را بکشیم، باید راههایی نیز برای بررسی اشتباهات و روشهای ارزیابی صحت کار داشته باشیم. در این آموزش ما از طریق چندین روش بررسی داده، مراحل کار و دلیل پشت سر آنها را توضیح خواهیم داد. پروژه نقشهکشی به خوبی مدیریت خواهد شد که هر یک از این سه فرآیند را هم برای ارزیابی و اصلاح دادهها و هم برای گزارشدهی داشته باشد.
این روشهای بررسی با گسترش و رشد مدل داده و افزایش تعداد ویژگیهای جمعآوری شده اهمیت بیشتری پیدا میکنند. به عنوان مثال، برای ارزیابی مدل دادهای که فقط شامل نقاط مورد علاقه (POIs) باشد، زمان و تلاش زیادی صرف نمیشود: در این مورد سوالاتی که باید بپرسید عبارتند از:
معمولاً یک مدل داده بسیار پیچیدهتر است، مانند مورد نقشهکشی ساختمانها. یک مدل دادهای که شامل این موارد است را در نظر بگیرید: اکنون شما ممکن است نقشه هزاران ساختمان را که دارای ویژگیهای فراوانی هستند و تجزیه و تحلیل آنها بسیار حیاتی میشود را بکشید. در این آموزش ما از ساختمان به عنوان مثال استفاده خواهیم کرد، اگر چه از همین روشها برای بررسی انواع دیگر عوارض نیز میتوان استفاده کرد. بررسیهای روزانهسریعترین روش برای بررسی دادهها، مرور و تأیید آنها به طور منظم است. این کار را میتوان بصورت روزانه یا حداکثر هفتگی انجام داد. برای سرپرست یک تیم نقشهکشی، این یک کار مهم است زیرا پیدا کردن اشتباهات و ویرایشهای بد در همان ابتدا بدان معنی است که میتوان آنها را تصحیح کرد و ویرایشگرهای اولیه یاد میگیرند که درست کار کنند. در اینجا ما به برخی از روشهای بررسی داده به سادگی با استفاده از JOSM نگاه خواهیم کرد. برخی از سوالاتی که ما در مورد داده می پرسیم:
بیایید ببینیم چگونه میتوانیم پاسخ این سوالات را در JOSM پیدا کنیم. فرض میکنیم که ما کار دیگران را بررسی میکنیم، اما روندهای مشابه هنگام تجزیه و تحلیل کار خودمان نیز به خوبی انجام میشود (و باید آسانتر باشد). ما از یک پرونده نمونه از پروژه نقشههای باز شهری داکا استفاده خواهیم کرد. برای اینکه با ما همراه باشید، فایل زیر را دانلود کنید: dhaka_validation_example.osm سعی نکنید تغییرات خود را در OpenStreetMap ذخیره کنید. این تمرینها فقط با هدف نشان دادن است. صحتسنجی دادههاگام اول برای چک کردن دادهها این است که ابزار صحتسنجی در JOSM را اجرا کنید، که به طور خودکار دادههای باز شده را برای اشتباهات احتمالی بررسی میکند. این ابزار مخصوصاً برای یافتن خطاهای توپولوژی مناسب است اما ممکن است برای پیدا کردن برچسبهای نادرست خیلی مفید نباشد.
بیایید به چند هشدار نگاه کنیم. میببینید که چهار هشدار در مورد “ساختمانهای متقاطع” (Crossing buildings) وجود دارد. این هشدار به این معنی است که ساختمانها در جایی همپوشانی دارند. اولین مورد در این لیست را انتخاب کنید، روی آن کلیک راست کنید و روی “زوم به مشکل” کلیک کنید. همچنین، بر روی دکمه “انتخاب” در پایین پنجره صحتسنجی کلیک کنید تا خطوط دارای مشکل را انتخاب کنید. این نشان میدهد که این دو خط مشکلی دارند:
این روش خودکار بررسی دادهها، یک راه موثر برای اصلاح خطاهای توپولوژی، به ویژه در مواردی است که فرد ممکن است متوجه نشود. در لیست هشدارهای صحتسنجی، میتوانید ببینید که هشدار دیگری مانند “ساختمان درون ساختمان” (Building inside building) نتیجه یک اشتباه مشابه است. هشدارهای دیگر، مانند “آبراه/جاده متقاطع” (Crossing waterway/highway)، لزوماً اشتباه نیستند. این نشان میدهد که ابزار صحتسنجی برای پیدا کردن اشتباهات احتمالی خوب است، اما نیاز به کسی دارد که ببیند آیا خطا مهم است یا خیر. بیایید به هشدار تحت عنوان “راههای دارای نام مشابه” (Similarly named ways) نگاه کنیم که خطای توپولوژیک نیست. روی گزینه “انتخاب” کلیک کنید تا دو جاده مورد مناقشه را انتخاب کنید. می توانید بگویید که اشتباه چیست؟ در اینجا دو بخش مختلف جادهای را داریم که در واقع یک جاده هستند، با این حال آنها کمی با هم متفاوت به نظر میرسند - در یکی از راهها لغت “جاده” استفاده شده اما در دیگری خیر. عاقلانه است که هر دو آنها یک نام داشته باشند، و در این مورد کلمه “جاده” باید به هر دو داده شود. استفاده از جستجوی JOSMجستجو در JOSM یک روش قدرتمند برای بررسی دادههاست. جستجو شما را قادر میسازد تا کلمات جستجو که پرسوجو هم خوانده میشوند را بکار ببرید تا تنها ویژگیهای مورد نطرتان انتخاب شوند.
این عالی است، اما چه کمکی به ما در بررسی اطلاعات میکند؟ خب، حالا که ما همه انواع منفرد یک ویژگی را انتخاب کردهایم، میتوانیم برچسبهای نادرست را جستجو کنیم.
میتوانیم این را با برچسبهای OpenStreetMap مقایسه کنیم که در مدل داده ما نقشهکشی شدهاند و به دنبال اشتباه بگردیم. به عنوان مثال، این برچسب نشان دهنده کاربری ساختمان است. در ابتدا در پروژههای شهر باز داکا (که این دادهها از آنجا آمده است) در مورد اینکه آیا هر ساختمان چندمنظوره باید به صورت building:use=multipurpose یا building:use=mixed برچسبگذاری شود اختلاف نظر وجود داشت. از آنجا که برچسب اول در کشورهای دیگر مورد استفاده قرار گرفته بود، انتخاب شد. با این حال، ما در اینجا میبینیم که یکی از ساختمانها به عنوان mixed برچسبگذاری شده است. که باید این را اصلاح کنیم. (یک اشتباه مسلم دیگر سه اصطلاح متفاوت گاراژ است، اما ما اینجا آنرا اصلاح نمیکنیم).
به یاد داشته باشید که شما این آموزش را همراهی میکنید، سعی نکنید تغییرات خود را در OpenStreetMap ذخیره کنید. این تمرینها فقط با هدف نشان دادن است. بازرسی مجددهنگام مدیریت یک پروژه مانند بررسی کامل و دقیق ساختمانها، باید یک الگوی اضافه برای کنترل کیفیت، به جهت بهبود کار و نیز گزارش دقت در پایان پروژه وجود داشته باشد. اگر تیمهای نقشهکشی زیادی برای بررسی یک منطقه با هم همکاری میکنند، امکان این هست که یک یا چند تیم کار رضایتبخش و قابل قبولی انجام ندهند. حتی کسانی که کارهای کارآمد و دقیق انجام میدهند نیز اشتباه میکنند. تصور کنید تیمهایی که در هر روز ۱۰۰ ساختمان را رسم میکنند - بعید است که درصد کمی از مشخصههایی که جمع آوری میکنند نادرست نباشد. بنابراين، پروژه خوب شامل فرآيند بازبینی مجدد بعضی از کارهای انجام شده، حل کردن اشتباهات، تعیین گروه نقشهکشی که کار رضایتبخش انجام داده و در آخر تخمین درصد اشتباهات جهت گزارش نهایی میباشد. البته، بازبینی کلیه ساختمانهای منطقه هدف عقلانی به نظر نمیرسد، اما ۵ تا ۱۰ درصد از ساختمانها باید بررسی مجدد بشوند. مناطق مورد بررسی باید از بین مناطق مختلف انتخاب شود تا مقایسه بین تیمها انجام شود. تیمهای بازرسی میتوانند بررسی مجدد کار یکدیگر را انجام دهند و یا در صورت امکان مدیران با تجربه تر میتوانند بررسیها را به عهده گیرند. امری طبیعی است که مدیران یک روز در هفته را جهت بررسی مجدد قسمتهایی از منطقه مورد نظر صرف کنند. تصحیح اشتباهاتزمانی که اشتباهات پیدا شود چه باید کرد؟ اگر تعداد کمی اشتباه (کمتر از ۵٪ ساختمانها) وجود داشته باشد، مسئله باید به تیم اصلی نقشهکشی منتقل شود تا در جریان قرار گرفته و مجدداً اشتباهات مشابهی را تکرار نکنند. دادهها باید در OpenStreetMap تصحیح شود و نتایج بررسی مجدد باید ثبت شود. اگر اشتباهات زیادی وجود داشته باشد، باید اقدامات بیشتری انجام شود. تیم بررسی باید به شیوهای مناسب آگاه شود و بسته به میزان داده نامناسب، حوزهایی که آنها نقشهکشی کردهاند، ممکن است به طور کامل نیاز به بررسی مجدد داشته باشد. میزان اشتباه بیشتر از ۱۰٪ اصلاً پذیرفتنی نیست. گزارش دقتهدف دوم از بازبینی این است که بتوانید پس از بسته شدن پروژه گزارشی از صحت دادهها تهیه کنید. استتفادهکنندگان از دادهها میخواهند معیارها و روشهای شما را برای ارزیابی کیفیت داده بدانند. با گنجاندن این فرایند به عنوان بخشی از روش بررسیتان، شما میتوانید به طور شفاف توضیح دهید که چگونه کیفیت دادهها را ارزیابی کردهاید و اعداد واقعی که درصد احتمال خطا در دادهها را نشان میدهند، ارائه کنید. به عنوان مثال، بیایید تصور کنیم که ما پروژهای را مدیریت میکنیم که قرار است نقشه ۱۰۰۰ ساختمان را بکشد. بنابراین تصمیم به کشیدن نقشه ۱۰٪ آنها یا حدود ۱۰۰ ساختمان که بطور تصادفی از منطقه هدف انتخاب میشوند، میگیریم. ما به بیرون میرویم و از ۱۰۰ ساختمانی که بررسی مجدد میکنیم، میفهمیم که شش تا از آنها دارای میزان بالایی از اشتباه هستند. بیایید موارد عدم دقت را اینگونه تعریف کنیم که هر ساختمانی که بیش از یک خصوصیت اشتباه داشته باشد. بنابراین شش درصد از بازبینی خطا داشته است - میتوانیم این اشتباهات را برطرف کنیم، اما هنوز هم باید استنتاج کنیم که حدود شش درصد از ۱۰۰۰ ساختمان احتمالا نادرست است. این رقم باید به عنوان خطای احتمالی در پایان پروژه گزارش شود. بررسیهای مجدد باید در طول پروژه انجام شود. تصور کنید که تا پایان این مثال صبر کردیم و ۴۰ ساختمان از ۱۰۰ ساختمان اشتباه بودند! این ممکن است کل پروژه را خراب کند. بهتر است اشتباهات بزرگ را از همان ابتدا بگیریم تا بتوانیم آنها را تصحیح کنیم. پرسوجوهای SQLاحتمالاً بهترین ابزار تجزیه و تحلیل، اجرای پرسوجوهای SQL در یک سیستم GIS مانند کوانتوم GIS است. این شبیه به جستجوی دادهها در JOSM است، اما تجزیه و تحلیل قویتری ارائه میدهد، هرچند راه اندازی آن کمی زمانبر است. استفاده از JOSM یک روش سریع و معمول برای بررسی خطاهای اساسی است، در حالی که پرسوجو در QGIS برای پیدا کردن اطلاعات فراموش شده و یا ویژگیهای نادرست مناسبتر است. ما در اینجا فرض میکنیم که شما تا حدودی با GIS آشنا هستید و تمرکز خود را روی ساختن پرسوجوهایی میگذاریم که میتواند به شما در بازبینی اطلاعات OpenStreetMap کمک کند. برای تمرینات زیر دوباره از دادههای پروژه شهرهای باز داکا استفاده میکنیم که میتوانید از dhaka_sql.zip دانلود کنید. از داده OpenStreetMap با استفاده از ابزار خروجیگیر HOT (export.hotosm.org) خروجی گرفته میشود و مرز منطقه هدف در ابتدای پروژه تعریف شد. آمادهسازی دادههافایلها را از حالت فشرده خارج کنید و دو فایل شیپ را در QGIS بارگذاری کنید. ما با محدود کردن تنها ساختمانهای داخل منطقه پروژه شروع میکنیم تا پرسوجوهای بعدی آسانتر باشد.
“building” != NULL AND “source” = ‘Open Cities Dhaka Survey’
پرسوجوهای SQLحالا میتوانیم پرسوجوهایی در لایه ساختمانها برای یافتن اشتباهات احتمالی انجام دهیم. بگذارید درباره بعضی چیزهایی که ممکن است بخواهیم پرسوجو کنیم، فکر کنیم. مدل داده این پروژه به خصوصیتهایی که باید برای هر ساختمان جمع آوری شوند اشاره میکند- آنها عبارتند از:
توجه داشته باشید که در فایل شیپ این نامهای مشخصه کوتاه شدهاند، زیرا نام ستون تنها به ۱۰ کاراکتر محدود میشود. پس چه نوع سوالاتی میخواهیم بپرسیم؟ اشتباهات احتمالی چیست؟ یک اشتباه رایج این است که یک ساختمان نقشهکشی شده، اما تمام ویژگیهای آن جمع آوری نشده است. بنابراین میخواهیم یک پرسوجو را اجرا کنیم که تمام ساختمانهایی که مجموعه کاملی از صفات را ندارند، نشان دهد. البته، بعضی صفات، مانند نام و تاریخ_شروع (سال ساخت) کاملاً قابل قبول است که خالی باشند، زیرا همه ساختمانها اسم ندارند و گاهی اوقات سال ساختوساز نامشخص است. اما ویژگیهای دیگر همیشه باید جمعآوری شوند. بیایید سعی کنیم برای این یک پرسوجو ایجاد کنیم:
“building_c” = NULL OR “building_s” = NULL OR “building_l” = NULL OR “building_m” = NULL OR “vertical_i” = NULL OR “soft_store” = NULL OR “building_u” = NULL
برخی از پرسوجوهای دیگری که ممکن است از آنها استفاده شود چیست؟ خب، شما همچنین شاید بخواهید خصوصیتهایی که در طرح دادههای شما وجود ندارد را بررسی کنید. این کار را در بخش جستجو JOSM انجام دادیم. با استفاده از پرسوجو میتوانید تمام ساختمانهایی که ویژگیهای آنها متناسب با مدل داده شما نیست را پیدا کنید. همچنین ممکن است از آن برای جستجوی ناهنجاریهایی که لزوماً اشتباه نیستند استفاده کنید. برای مثال، اگر سازنده پرسوجو را باز کنیم، building_l را انتخاب کنیم و برای بارگذاری تمام مقادیر ممکن، روی “همه” کلیک کنیم، میبینیم که اکثر ساختمانها دارای عدد بین ۱ تا ۲۰ هستند (این خصیصه building:levels، تعداد طبقه ساختمان است). اما یک ۵۱ نیز وجود دارد. به نظر بعید میرسد که یک ساختمان با ۵۱ طبقه بالاتر از همه در این منطقه وجود داشته باشد، بنابراین میتوانیم آن را پیدا کرده و برای بررسی آن توسط نقشهکش یک یادداشت میگذاریم. پرسوجو میتواند یک راه موثر برای بررسی اشتباهات احتمالی در مجموعه داده باشد. همراه با سایر کاربردهای QGIS از آن میتوان برای تولید نقشههایی استفاده کرد که برای بررسی دادهها در یک منطقه میتوانند مورد استفاده قرار گیرند. خلاصهدر این آموزش ما از طریق چند روش موثر برای حفظ کیفیت دادهها در طول یک پروژه و چند تمرین برای کار با بررسی دادههای OSM انجام دادیم. در هنگام سازماندهی پروژه نقشهکشی و یا حتی هنگام ارزیابی دادهها در یک منطقه برای استفاده شخصی، این روشها به کار میآیند.
این فصل مفید بود؟
به ما بگویید و کمک کنید راهنماها را بهتر کنیم!
|