|
Rà soát dữ liệu OSM
Phần này bao gồm các quy trình kiểm tra chất lượng dữ liệu, đặc biệt là trong khuôn khổ của một dự án lập bản đồ OSM trực tiếp, chẳng hạn như các dự án của Nhóm Tổ chức Nhân đạo OpenStreetMap ở các quốc gia khác nhau và các dự án Thành phố mở - Open Cities tại Bangladesh, Sri Lanka, and Nepal. Các phương pháp được chứng minh có thể hữu ích trong các ngữ cảnh khác, khi rà soát dữ liệu là một công việc thường xuyên. Khi chúng tôi cố gắng lập bản đồ các tính năng và thuộc tính hoàn chỉnh trong một khu vực cụ thể, chúng tôi cần các cách để kiểm tra những sai sót và cách để đánh giá tính chính xác của tác phẩm. Trong hướng dẫn này chúng tôi sẽ làm việc thông qua một số phương pháp kiểm tra dữ liệu, giải thích các bước của phương pháp và lý do đằng sau mỗi. Một dự án lập bản đồ được quản lý tốt sẽ bao gồm cả ba quy trình này, để đánh giá và chỉnh sửa dữ liệu và báo cáo.
Những phương pháp đánh giá này trở nên quan trọng hơn khi mô hình dữ liệu phát triển và số lượng các tính năng thu thập trở nên khá lớn. Ví dụ: sẽ không mất nhiều thời gian và nỗ lực để đánh giá mô hình dữ liệu chỉ bao gồm các điểm ưa thích (POI): Trong trường hợp này, các câu hỏi đặt ra sẽ là:
Thông thường một mô hình dữ liệu phức tạp hơn nhiều, tuy nhiên, như trong trường hợp xây dựng bản đồ. Xem xét một mô hình dữ liệu bao gồm: Bây giờ bạn có thể lập bản đồ hàng ngàn tòa nhà có nhiều thuộc tính, và phân tích trở nên quan trọng hơn. Trong hướng dẫn này chúng ta sẽ sử dụng tòa nhà làm ví dụ, mặc dù các phương pháp tương tự cũng có thể được áp dụng để xem xét các loại tính năng khác. Kiểm tra hàng ngàyCách nhanh nhất để kiểm tra dữ liệu là để xem xét và xác nhận nó một cách thường xuyên. Đây có thể là hàng ngày hoặc hàng tuần. Đối với người giám sát của một nhóm người lập bản đồ, đây là một nhiệm vụ quan trọng vì việc bắt lỗi và thực hành chỉnh sửa không tốt có nghĩa là họ có thể sửa chữa và biên tập viên có thể học cách làm đúng cách. Ở đây chúng tôi sẽ xem xét một số phương pháp để kiểm tra dữ liệu chỉ đơn giản bằng cách sử dụng JOSM. Một số câu hỏi chúng tôi hỏi về dữ liệu của chúng tôi là:
Hãy xem xét cách chúng tôi có thể tìm câu trả lời cho những câu hỏi này trong JOSM. Chúng tôi sẽ giả định rằng chúng tôi đang kiểm tra công việc của những người khác nhưng những quy trình tương tự sẽ hoạt động tốt (và sẽ dễ dàng hơn) khi phân tích công việc của bạn. Chúng tôi sẽ sử dụng một tệp dữ liệu ví dụ từ dự án lập bản đồ Open Cities ở Dhaka. Để làm theo, tải về các tập tin sau đây: dhaka_validation_example.osm KHÔNG cố gắng để lưu các thay đổi của bạn trên OpenStreetMap. Những bài tập này chỉ dành cho mục đích trình diễn. Xác nhận dữ liệuBước đầu tiên để kiểm tra dữ liệu là chạy công cụ Xác Nhận trong JOSM, sẽ tự động kiểm tra dữ liệu bạn đã mở cho những sai lầm đáng ngờ. Công cụ này đặc biệt hữu ích cho việc tìm kiếm lỗi topology nhưng có thể không hữu ích cho việc tìm kiếm các thẻ không chính xác.
Hãy nhìn vào một vài cảnh báo. Bạn có thể thấy rằng có bốn cảnh báo “Crossing build-ings”. Cảnh báo này có nghĩa là các tòa nhà đang chồng chéo ở đâu đó. Chọn mục đầu tiên trong danh sách này, nhấp chuột phải và nhấp vào “Phóng to vấn đề.” Ngoài ra, hãy nhấp vào nút “Chọn” ở cuối cửa sổ Xác thực để chọn các cách được đề cập. Điều này cho thấy hai cách này có vấn đề:
Các lời cảnh báo khác, chẳng hạn như “Crossing waterway / highway”, không nhất thiết là những sai lầm. Điều này cho thấy công cụ xác nhận là tốt ở việc tìm kiếm những sai lầm có thể, nhưng nó đòi hỏi một ai đó để đi và xem liệu lỗi là quan trọng hay không. Chúng ta hãy nhìn vào cảnh báo dưới “Các cách được đặt tên tương tự” để thấy một lỗi không phải là topology. Nhấp vào “Chọn” để chọn hai cách trong câu hỏi. Bạn có thể cho biết lỗi là gì? Ở đây, chúng tôi có hai phân đoạn đường khác nhau, thực sự là cùng một con đường, tuy nhiên chúng được đặt tên khác một chút - “con đường” được viết hoa bằng một trong những cách đó chứ không phải ở bên kia. Nó có ý nghĩa rằng họ nên có cùng một tên, và trong trường hợp này, từ “đường” nên được viết hoa. Sử dụng JOSM SearchTìm kiếm trong JOSM là một cách xem dữ liệu mạnh mẽ. Nó cho phép bạn cung cấp các cụm từ tìm kiếm, còn được gọi là truy vấn, để chỉ chọn các tính năng mà bạn muốn.
Điều này thật tuyệt vời, nhưng làm cách nào để chúng tôi xem lại dữ liệu? Vâng, bây giờ mà tất cả các loại một tính năng đã được chọn, chúng ta có thể tìm kiếm các thẻ không chính xác.
Chúng ta có thể so sánh điều này với các thẻ OpenStreetMap đã được thiết lập trong mô hình dữ liệu của chúng tôi và tìm kiếm những sai lầm. Ví dụ: thẻ này đại diện cho việc sử dụng tòa nhà. Đầu trong dự án Thành phố mở Dhaka (nơi dữ liệu này đến từ) có sự không chắc chắn về việc liệu một tòa nhà sử dụng hỗn hợp phải được gắn thẻ building:use=đa mục đích hoặc building:use=hỗn hợp. Bởi vì thẻ cũ đã được sử dụng trước đây ở các quốc gia khác, nó đã được chọn. Tuy nhiên, chúng ta thấy ở đây một trong những tòa nhà đã được gắn thẻ là hỗn hợp. Chúng ta cần sửa lại điều này. (Một sai lầm rõ ràng là ba điều khoản khác nhau dành cho nhà để xe, nhưng chúng tôi sẽ không sửa điều này ở đây.)
Điiều tra lại Nếu có nhiều nhóm lập bản đồ hợp tác để khảo sát một khu vực, phổ biến là một hoặc nhiều đội không thể làm một công việc thỏa đáng. Ngay cả những đội làm việc hiệu quả và chính xác cũng sẽ mắc lỗi. Hãy tưởng tượng rằng các đội mỗi bản đồ 100 tòa nhà mỗi ngày - không chắc là một tỷ lệ phần trăm nhỏ các thuộc tính mà họ thu thập có thể không chính xác. Do đó, một dự án tốt sẽ bao gồm một quá trình kiểm tra lại một số công việc đã được thực hiện, sửa lỗi, xác định nhóm lập bản đồ nào đang hoạt động tốt và xấp xỉ tỷ lệ lỗi cho báo cáo cuối cùng. Tất nhiên, không có ý nghĩa nào trong việc khảo sát lại tất cả các tòa nhà trong một khu vực mục tiêu, nhưng 5-10% các tòa nhà nên được xem xét lại. Các khu vực rà soát cần được lựa chọn từ các khu vực khác nhau để so sánh giữa các nhóm khảo sát. Các nhóm khảo sát có thể khảo sát lại công việc của nhau hoặc nếu có thể, các nhà quản lý giàu kinh nghiệm có thể thực hiện các bài đánh giá. Thông thường, một ngày một tuần các nhà quản lý sẽ dành thời gian thăm dò lại các phần của khu vực mục tiêu. Sửa lỗiPhải làm gì khi những sai lầm được tìm thấy? Nếu có một số sai lầm nhỏ (ít hơn 5% tòa nhà), các vấn đề nên được đưa đến nhóm lập bản đồ ban đầu để họ biết và có thể không lặp lại những sai lầm tương tự. Dữ liệu cần được sửa trong OpenStreetMap và phải ghi lại kết quả của cuộc điều tra lại. Nếu có nhiều sai lầm, cần phải thực hiện các hành động lớn hơn. Nhóm khảo sát sẽ cần phải được giải quyết theo cách thích hợp, và các khu vực mà họ đã lập bản đồ thậm chí có thể cần phải được khảo sát lại hoàn toàn, tùy thuộc vào mức độ dữ liệu không chính xác. Độ không chính xác lớn hơn 10% rất có thể là một tỷ lệ không thể chấp nhận. Báo cáo về Độ chính xácMục tiêu thứ hai của việc khảo sát lại là bạn có thể báo cáo về tính chính xác của dữ liệu khi dự án kết thúc. Người sử dụng dữ liệu sẽ muốn biết số liệu và phương pháp đánh giá chất lượng dữ liệu của bạn. Bằng cách đưa quy trình này như là một phần của phương pháp đánh giá của bạn, bạn sẽ có thể giải thích rõ ràng cách bạn đánh giá chất lượng dữ liệu và cung cấp số liệu cứng hiển thị phần trăm lỗi có chứa trong dữ liệu khảo sát của bạn. Ví dụ: hãy tưởng tượng rằng chúng tôi đang quản lý một dự án có bản đồ 1000 tòa nhà. Vì vậy, chúng tôi quyết định bản đồ 10% trong số đó, hoặc 100 tòa nhà, ngẫu nhiên được lựa chọn từ khu vực mục tiêu. Chúng tôi đi ra ngoài và thấy rằng trong số 100 tòa nhà mà chúng tôi đã khảo sát, sáu trong số đó có mức độ không chính xác cao. Giả sử chúng ta xác định không chính xác bằng cách có nhiều thuộc tính sai. Vì vậy, sáu phần trăm của cuộc điều tra lại là sai - chúng ta có thể khắc phục những sai lầm này, nhưng chúng ta vẫn phải suy luận rằng khoảng 6% trong tổng số 1000 tòa nhà có lẽ là không chính xác. Điều này nên được báo cáo là lỗi có thể xảy ra khi đóng dự án. Việc khảo sát lại phải được thực hiện trong suốt dự án. Hãy tưởng tượng rằng chúng tôi đợi cho đến khi kết thúc ví dụ này và 40 trên 100 tòa nhà đã sai! Nó có thể làm hỏng toàn bộ dự án. Tốt hơn là nên bắt lỗi sớm ở phạm vi rộng để chúng có thể được sửa chữa. Truy vấn SQL Có lẽ công cụ phân tích tốt nhất sẽ chạy truy vấn SQL trong một hệ thống GIS, chẳng hạn như Quantum GIS. Điều này tương tự như tìm kiếm dữ liệu trong JOSM, nhưng nó cung cấp phân tích mạnh mẽ hơn, mặc dù có thể mất nhiều thời gian hơn để thiết lập. Sử dụng JOSM là một cách nhanh chóng, thường xuyên để kiểm tra các lỗi cơ bản, trong khi truy vấn trong QGIS là phù hợp hơn cho việc tìm kiếm dữ liệu bị thiếu hoặc các thuộc tính không chính xác. Giải nén các tập tin và nạp hai shapefile vào QGIS. Chúng tôi sẽ bắt đầu bằng cách chỉ cắt các tòa nhà trong khu vực dự án, để làm cho các truy vấn của chúng tôi đơn giản hơn sau này. Chúng tôi sẽ giả định ở đây rằng bạn đã quen thuộc với GIS và tập trung vào việc xây dựng các truy vấn có thể giúp bạn xem lại dữ liệu OpenStreetMap. Đối với các bài tập dưới đây, chúng tôi sẽ lại sử dụng dữ liệu từ dự án Open Cities Dhaka, bạn có thể tải xuống tại dhaka_sql.zip. Dữ liệu OpenStreetMap đã được xuất khẩu bằng cách sử dụng Công cụ xuất (export.hotosm.org) và ranh giới khu vực mục tiêu đã được xác định khi bắt đầu dự án. Chuẩn bị dữ liệuGiải nén các tập tin và nạp hai shapefile vào QGIS. Chúng tôi sẽ bắt đầu bằng cách chỉ cắt các tòa nhà trong khu vực dự án, để làm cho các truy vấn của chúng tôi đơn giản hơn sau này.
“building” != NULL AND “source” = ‘Open Cities Dhaka Survey’
Truy vấn SQLBây giờ chúng ta có thể chạy các truy vấn trên lớp tòa nhà để tìm ra những lỗi có thể xảy ra. Hãy suy nghĩ về một số điều mà chúng ta có thể muốn truy vấn. Mô hình dữ liệu từ dự án này cho biết các thuộc tính cần được thu thập cho mỗi tòa nhà - đó là:
Lưu ý rằng trong shapefile những tên thuộc tính này được cắt ngắn, vì cột có tên là giới hạn trong 10 ký tự. Vậy chúng ta muốn hỏi những câu hỏi nào? Những sai lầm có thể xảy ra? Một sai lầm phổ biến là tòa nhà đã được ánh xạ, nhưng không phải tất cả các thuộc tính đều được thu thập. Vì vậy, chúng tôi sẽ muốn chạy một truy vấn cho thấy tất cả các tòa nhà không có một bộ đầy đủ các thuộc tính. Tất nhiên, đối với một số thuộc tính, chẳng hạn như tên và ngày bắt đầu (năm xây dựng), hoàn toàn không có lý do để chúng trống rỗng, bởi vì không phải mọi tòa nhà đều có tên và đôi khi năm xây dựng không được biết. Nhưng các thuộc tính khác nên luôn được thu thập. Chúng ta hãy thử phát triển một truy vấn cho điều này:
“building_c” = NULL OR “building_s” = NULL OR “building_l” = NULL OR “building_m” = NULL OR “vertical_i” = NULL OR “soft_store” = NULL OR “building_u” = NULL
Một số truy vấn khác có thể được sử dụng là gì? Vâng, bạn cũng có thể muốn kiểm tra các thuộc tính không được chứa trong giản đồ dữ liệu của bạn. Chúng tôi đã làm điều này trong phần tìm kiếm JOSM. Bạn có thể sử dụng truy vấn để tìm tất cả các tòa nhà có thuộc tính không phù hợp với mô hình dữ liệu của bạn. Bạn cũng có thể sử dụng điều này để tìm các dị thường, có thể nhưng không nhất thiết là những sai lầm. Ví dụ: nếu chúng ta mở trình tạo truy vấn, chọn building_l, và nhấp vào “All” để tải tất cả các giá trị thuộc tính có thể, chúng ta thấy rằng hầu hết các tòa nhà đều có một số từ một đến 20 (thuộc tính này là tầng: trong tòa nhà). Nhưng cũng có 51 người trong đó. Dường như không chắc rằng sẽ có toà nhà cao 51 tầng nằm trên mọi thứ trong khu vực này, vì vậy chúng tôi có thể xác định vị trí và ghi chú để kiểm tra điều này với người lập bản đồ. Truy vấn có thể là một cách hiệu quả để tìm kiếm các lỗi có thể có trong tập dữ liệu. Kết hợp với các tính năng khác của QGIS, nó có thể được sử dụng để xuất bản đồ có thể được sử dụng để xem lại các dữ liệu trong một khu vực. Tóm lượcTrong hướng dẫn này chúng ta đã trải qua một số phương pháp hiệu quả để duy trì chất lượng dữ liệu trong một dự án và thực hiện một số bài thực hành để thực hành xem xét dữ liệu OSM. Khi tổ chức một dự án lập bản đồ, hoặc thậm chí khi đánh giá dữ liệu trong một khu vực để sử dụng cá nhân, các phương pháp này có thể có ích.
Chương này có bổ ích hay không?
Hãy cho chúng tôi biết và giúp chúng tôi cỉa thiện những hướng dẫn này!
|