Wikipedia:WikiProjekt Georeferenzierung/Hauptseite/Wikipedia-World
This page in English: Wikipedia:WikiProjekt Georeferenzierung/Wikipedia-World/en
Dieses ist eine internationale Koordinierungsseite für die mehrsprachige Nutzung und Auswertung der im deutschsprachigen WikiProjekt Georeferenzierung, im englischsprachigen WikiProject Geographical coordinates und anderen WikiProjekten verschiedender Sprachen und Schwesterprojekte (Wikimedia-Projekte) gesammelten Koordinaten.
NEWS: At the moment (2015-11-30) we have (Source): 4,15 million entries as input:
- en 1145421
- de 772004
- sv 372494
- fr 293196
- nl 232555
- ru 226063
- pl 149819
- ja 106954
- ca 94353
- es 91030
- it 86936
- sr 65041
- cs 53493
- zh 52971
- uk 50251
- da 48126
- no 40229
- fa 39004
- eu 25054
- lt 24879
With interwikilinks we get an output for 273 languages.
Database-Dumps (2015-11)
- toollabs:wp-world/dumps/new_red0.gz Wikipedia-World as PostGIS-dumps
- Database structure (PostGIS)
All people with WMFLAbs-account can read and use the database u_kolossos on osmdb database server. (Helppage Connecting to OSM)
Einträge
Momentan werden 42 Sprachversionen über die Links auf den GeoHack ausgewertet. Über die Interwiki-Links werden alle Sprachversionen ausgewertet (welche Sprachversionen ausgewertet werden, lässt sich aus den in der Datenbankstruktur aufgeführten Sprachcodes ableiten) und in einer gemeinsamen Datenbank zusammengeführt, die etwa alle drei Monate aktualisiert wird. Damit stehen Koordinatendatensätze zu Artikeln in 273 Sprachen zur Verfügung. Viele der Anwendungen basieren auf dieser zentralen Datenbank, die von den Wikimedia Tool Labs gehostet wird.
- OpenSeaMap und Wikipedia
- Koordinaten der deutschsprachigen Wikipedia erstellt mit PostGIS und QGIS (Stand 2010)
Extraktion
Die Koordinaten werden täglich von Benutzer:Dispenser aus der Datenbank ausgelesen, dafür werden die Externallinks auf das Cloud-Helferlein GeoHack genutzt. Daraus folgt, dass nur die Daten aus der Link-URL zur Verfügung stehen. Zugleich ist man jedoch unabhängig von den diversen verwendeten Vorlagen – von denen die vorhandenen Daten verarbeitet werden, um (direkt oder indirekt über die Einbindung einer anderen Vorlage) die Link-URL zu erzeugen –, die bei der früher angewendeten Extraktionsmethode ausgelesen wurden. Die so gewonnenen Daten werden von Benutzer:Kolossos weiterverarbeitet und die verschiedenen Sprachen zu einer einzigen PostGIS-Tabelle in der Hosting-Umgebung toolforge vereinigt, dabei werden Interwiki-Links genutzt und von jedem Artikel ein zufälliges Bild und die Artikellänge in Bytes extrahiert. Die Artikelänge entscheidet darüber, welche Sprachversion eines Artikels in die endgültige Datenbank übernommen wird.
Diese Updates erfolgen ca. alle 2 Monate. Auf diese Datenbasis wird dann von verschiedenen Anwendungen zugegriffen, bzw. die Daten zum Download angeboten, siehe Unterprojekt Wikipedia-World.
Webservices
- Das Unterprojekt Wikipedia-World bietet einen schnellen Zugriff als KML und JSON für einen bestimmten Bereich.
- Mit dem Tool kmlexport vom Benutzer:Para (Erläuterung hier) kann man bequem für einen Artikel oder eine Kategorie samt Unterkategorien alle Geokoordinaten in eine KML exportieren oder als Webservice nutzen. Beispielanzeige in GoogleMaps einer Kategorie oder als Download der KML-Datei
- Über die GeoNames-Datenbank können Anfragen per Webservice gestellt werden, um Daten in einem maschinenlesbaren Format (XML, JSON, RSS) auszulesen, z. B. Daten zu Wikipedia-Artikeln in der Umgebung eines angegebenen Ortes. Details siehe http://www.geonames.org/export/wikipedia-webservice.html.
Downloads
- Für die Weiternutzung der Geodaten kann bei dem Unterprojekt Wikipedia-World der komplette Datensatz mit über einer Million georeferenzierten Artikel in nahezu allen Sprachen als CSV-Datei heruntergeladen werden.
- Für die 12 Sprachen ca, cs, de, en, eo, es, fi, fr, nds, nl, pt, ru stehen Daten im KML-Format als ZIP-Archiv zum Download zu Verfügung (in der privaten WWW-Präsenz webkuehn.de von Benutzer:Stefan Kühn). Die Daten sind Stand März 2008.
- Wikipedia-World als PostGIS-Datenbank-Dumps mit Stand aus dem November 2015 ist unter toollabs:wp-world/dumps/new_red0.gz herunterladbar.
Die Datenbankstruktur (PostGIS).
Wer ein WMFLAbs-Benutzerkonto hat, kann die Datenbank u_kolossos auf dem osmdb-Datenbankserver lesen und nutzen (Hilfe-Seite mit Informationen zum Connecting to OSM (englisch)) (die Datenbank u_kolossos war früher auf dem ptolemy-Server (erreichbar über Toolserver-Zugriff), siehe auch: mw:Toolserver:OpenStreetMap).
To-Do-Liste
- Stylegenerierung über Kategorien wieder einbauen
- Sortierung nach Benutzerzugriffszahlen
- Übersetzen der Type-Special-Liste (Werden zur Datenveredelung mit Hilfe der Kategorien benötigt)
- Transfer zwischen Wikipedia (WP) und OpenStreetMap (OSM)
- OSM könnte dann z. B. die Interwiki-Links der WP nutzen
- Wikipedia hätte z. B. Zugriff auf die eindeutigen Typen in OSM
- weiterer Ausbau von WIWOSM
- letzter Schritt: Geo-Tag-Generierung
Ansprechpartner
- Benutzer:Kolossos: Einspielen der Daten in die Datenbank, Anwendungsprogrammierung
- Benutzer:Stefan Kühn: ehemalige Datenextraktion aus den Dumps, Basisarbeit
- User:Dschwen: tägliche Datenextraktion anhand der Links auf den GeoHack