Post

Hellas DB - μία δημογραφική βάση δεδομένων για όλη την Ελλάδα

Hellas DB: μία δημογραφική βάση δεδομένων για όλη την Ελλάδα

Κατά τη διάρκεια του Data Analytics bootcamp στο Ironhack Μαδρίτη, προέκυψε η ιδέα να οργανώσω ιστορικές πληροφορίες για τον πληθυσμό της Ελλάδας σε μια ενοποιημένη, έτοιμη για ανάλυση βάση δεδομένων. Μετά από διάφορες γλωσσικές και διοικητικές δυσκολίες και σε συνδυασμό με τη δύναμη της οπτικοποίησης, αυτή η βάση δεδομένων σας επιτρέπει να εξερευνήσετε άνετα την ελληνική δημογραφία.

Εξερευνείτε την ελληνική γεωγραφία με τα δεδομένα αυτού του έργου σε αυτόν τον σύνδεσμο.

Γιατί χρειαζόμαστε τέτοια βάση δεδομένων;

Η Ελλάδα απογράφει τον πληθυσμό της κάθε 10 χρόνια. Αν και η πιο πρόσφατη απογραφή πραγματοποιήθηκε το 2021, εκτιμάται ότι τα αποτελέσματα δεν θα είναι διαθέσιμα μέχρι το 2024. Όμως, η ΕΛΣΤΑΤ, προσφέρει τα στοιχεία του 1991, του 2001 και του 2011 του μόνιμου και πραγματικού πληθυσμού. Ωστόσο, η μορφή δεν είναι η πιο κατάλληλη για δύο βασικούς λόγους: τα στοιχεία παρουσιάζονται σε μορφή Excel με πολλές κεφαλίδες και μια σειρά μπορεί να περιέχει πληροφορίες για μία πόλη, εναν δήμο ή ολόκληρες περιοχές. Επομένως, είναι επιθυμητό να υπάρχει ένας πίνακας με μόνο έναν μόνο τύπο δεδομένων ανά σειρά - χωριά ή πόλεις σε αυτή την περίπτωση - και με καθαρές κεφαλίδες.

Επιπλέον, η ΕΛΣΤΑΤ προσφέρει περισσότερες πληροφορίες, αλλά είναι διάσπαρτες σε διάφορα έγγραφα. Μπορούμε να εμπλουτίσουμε την απογραφή με δεδομένα όπως το υψόμετρο, η αστικότητα και η γεωγραφική θέση, που θα μας επιτρέψει να οπτικοποιήσουμε όλη την Ελληνική γεωγραφία.

Τι περιέχει η βάση δεδομένων;

  • Ονόματα 13.500 τοποθεσιών, συμπεριλαμβανομένων των νησίδων.
  • Περιφέρεια, αποκεντρωμένη διοίκηση, νομός, δήμος και δημοτική ενότητα κάθε τοποθεσίας.
  • Νόμιμος και πραγματικός πληθυσμός για τα έτη 1991, 2001 και 2011, καθώς και οι απόλυτες και σχετικές αλλαγές.
  • Συντεταγμένες και υψόμετρο για πάνω από 13.000 μονάδες.
  • Πληροφορίες για την αστικότητα και ορεινότητα
  • Περιφέρεια, νομός, δήμος και δημοτική ενότητα στην οποία ανήκε η τοποθεσία κατά την ισχύ του σχεδίου Καποδίστριας. Αυτο το σχέδιο ρύθμησε την διοικητική οργάνωση της χώρας μεταξύ το 1998 και 2010.
  • Άλλες πληροφορίες: πρωτεύουσες, νησιωτικότητα κ.λπ.

Πώς κατασκευάστηκε η βάση δεδομένων;

Όλα τα έγγραφα ελήφθησαν από την ιστοσελίδα της ΕΛΣΤΑΤ. Πρώτα, το έγγραφο με την απογραφή καθαρίστηκε για να απκτήσω έναω πίνακα με κάθε τοποθεσία με τον ιστορικό πληθυσμό και τα διοικητικά της δεδομένα. Στη συνέχεια, υπολογίστηκαν οι μεταβολές πληθυσμού. Αυτός ο πίνακας θα χρησιμεύσει ως βάση για επέκταση με πληροφορίες από άλλα έγγραφα.

Αργότερα, προστέθηκαν οι συντεταγμένες και το υψόμετρο κάθε τοποθεσίας. Ωστόσο, δεν υπάρχει μοναδικό αναγνωριστικό που επιτρέψει να κάνω join (αντιστοιχία πληροφορίων) μεταξύ των δύο πηγών. Επιπλέον, τα ονόματα των τοποθεσιών στην Ελλάδα επαναλαμβάνονται συχνά: από τις 13.550 εγγραφές, περισσότερες από 1.300 χρησιμοποιούνται δύο ή περισσότερες φορές. Το όνομα Άγιος Γεώργιος, το πιο συνηθισμένο, χρησιμοποιείται 71 φορές.

Η λύση ήταν να ψάξω κάθε όνομα σε διάφορους συνδυασμούς διοικητικών ενοτήτων (όπως ο δήμος ή η επαρχία) ώστε να ληφθεί μόνο ένας πληθυσμός με αυτό το όνομα στην περιοχή αναζήτησης. Για παράδειγμα, “Νεοχώρι” εμφανίζεται 49 φορές, αλλά μόνο υπάρχει ένα Νεοχώρι στον δήμο Πρέβεζας , οπότε μπορούμε να του αναθέσουμε τις κατάλληλες συντεταγμένες.

Δυστυχώς, επειδή τα ονόματα δεν είναι ακριβώς τα ίδια στις δύο πηγές, σε ορισμένες περιπτώσεις χρειάστηκε να γίνει ειδηκή αποσαφήνιση και σε άλλες ήταν αδύνατο να εντοπιστούν οι πληθυσμοί χωρίς εξωτερικά δεδομένα. Συνολικά, προστέθηκαν συντεταγμένες για 13.200 μονάδες, 97,4%.

Τέλος, συμπεριλήφθηκαν πληροφορίες για την ορεινότητα και αστικόητητα, τις πρωτέυουσσες και εάν η τοποθεσία βρίσκεται σε νησί. Ο τελικός πίνακας αποθηκεύτηκε σε μορφή CSV και Excel και είναι διαθέσιμος στο GitHub.

Πού μπορεί να βελτιωθεί;

Λόγω χρονικών περιορισμών, δεν μπόρεσα να αναπτυσσω ορισμένες πτυχές . Ως εκ τούτου, παραμένουν σε εκκρεμότητα ως γραμμές βελτίωσης:

  • Μετατροπή ονομάτων των τοποθεσιών από Καθαρεύουσα σε Δημοτική.
  • Πρόσθεση συντεταγμένων για τις τελευταίες 300 μη εντοπισμένες εγγραφές.
  • Μετατροπή πληροφορίων για πρωτέυουσσες σε ξεχωριστό πίνακα.
  • Μετάφραση εγγραφών με ελληνικούς χαρακτήρες σε λατινικούς για μη ελληνόφονους χρήστες.

Συμπεράσματα

Αυτό το έργο δείχνει πώς ο προγραμματισμός χρειάζεται ειδικές γνώσεις για ένα θέμα: θα ήταν αδύνατο να αποκτώ και να δουλέυω με τα δεδομένα αν δεν μηλούσα Ελληνικά ή δεν κατανοούσα τις ιδιαιτερότητες περιοχών όπως το Άγιο Όρος ή η νησιωτική Ελλάδα. Επιπλέον, η σαφής γνώση της γεωγραφίας της Ελληνικής χώρας ήταν το κλειδί για τον εντοπισμό ανωμαλιών και επιτάχυνση πολλαπλών διαδικασιών.

Γενικά, παρά τις δυσκολίες που συνεπάγονται η εργασία με πραγματικά δεδομένα και οι διοικητικές αλλαγές, εκτιμώ πολύ θετικά την εμπειρία, όχι μόνο για ό,τι συνεισφέρει σε επαγγελματικό επίπεδο, αλλά και σε προσωπικό επίπεδο: αυτή η βάση δεδομένων παρέχει απαντήσεις σε ερωτήματα που ο φιλέλληνας μέσα μου πάντα ήθελε να συναντηθώ.

Σύνδεσμοι

This post is licensed under CC BY 4.0 by the author.