This content is only partially available in English.

VERORTUNG VON POLIZEITWEETS

Ergebnisse einer Bachelorarbeit – präsentiert auf der FOSSGIS 2020

Kurz bevor in Deutschland im März 2020 die meisten öffentlichen Veranstaltungen abgesagt oder ins Internet verlegt wurden, fand in Freiburg noch eine nur leicht verkürzte FOSSGIS 2020 statt.  Die jährlich stattfindende FOSSGIS ist die führende Konferenz für Freie und Open Source- Software, Geo-Software und OpenStreetMap. Anwender und Entwickler treffen sich zum Austausch über neueste Entwicklungen in Bereichen wie Webmapping, Geodateninfrastrukturen, Geodatenmanagement, GeoProcessing oder OpenStreetMap. Svenja Ruthmann, Studentin in der Fachrichtung Geoinformatik und Vermessung, und Alexander Rolwes, Mitarbeiter und Doktorand am i3mainz, stellten auf der diesjährigen Konferenz die Resultate aus Ruthmanns Bachelorarbeit zur geografischen Verortung von Polizeitweets vor. 
Die Studentin war im Rahmen des Projekts „Big-Data-Analytics in Environmental and Structural Monitoring“ (BAM) des i3mainz der Frage nachgegangen, ob es möglich ist, Tweets geografisch zu verorten, das heißt, die Koordinaten des Geschehens aus einem Tweet zu ermitteln und auf einer Karte darzustellen. Da die Polizei auf Twitter häufig auf Gefahrenstellen oder erhöhtes Personen- und Verkehrsaufkommen hinweist, erzeugt eine raumbezogene Darstellung einen erheblichen Mehrwert für den Anwender. Die Schwierigkeit dabei: Aus der Twitter-API gehen Koordinaten und Standort des Tweets nur hervor, wenn die Standortfreigabe aktiviert ist. Wird der Tweet später – etwa im Büro mit einem stationären PC – verfasst, ist die Standortangabe i.d.R. nicht aktiv und darüber hinaus passt sie nicht zu dem im Tweet beschriebenen Geschehen. Außerdem: Verlinkungen, Bilder oder Videos und verkürzte Sätze erschweren die Textanalyse.

Analyse von 100 Tweets

In die Untersuchung flossen exemplarisch in Deutsch verfasste Tweets von Polizeibehörden ein. Zur Auswertung wurden ausschließlich bereits existierende Werkzeuge verwendet. Bestehende Anwendungen arbeiten jedoch nur mit englischen Tweets, z.B.„Mordecai“ (https://joss.theoj.org/papers/10.21105/joss.00091) oder der „Location Name Extractor“ (https://arxiv.org/abs/1708.03105 ). Svenja Ruthmann entwickelte daher den folgenden algorithmischen Ablauf: Der Text aus der Twitter-API wird weiterverarbeitet, indem Umlaute ersetzt sowie Links und Sonderzeichen, wie Hashtags oder Emoticons, entfernt werden. Für die Ermittlung der Ortsnamen unterteilt der Natural Language Prozessor „spaCy“ (https://spacy.io/) die Tweets in Entitäten, wie Nomen oder Verben. Um zu überprüfen, ob ein Tweet die Abkürzung eines KFZ-Kennzeichens enthält, werden alle Eigennamen mit einer selbst generierten Datenbank abgeglichen und gegebenenfalls im Tweet durch den vollständigen Namen ersetzt. Anschließend wird der Geocoder von „HERE“ (https://developer.here.com/ ) eingesetzt, um die Koordinaten zu generieren. 

Frankfurt am Main oder an der Oder? Der aus dem Ablauf resultierende Prototyp generiert die Ergebnisse im JSON-Format, welches ideal weiterverarbeitet werden kann, z.B. zur Darstellung auf einer HTML-Seite. Zur Evaluation des Verfahrens wurden 100 Tweets analysiert. Das Programm ermittelte 68 Ortsnamen korrekt, fünf falsch und 29 ohne Raumbezug. Die verfügbaren Bibliotheken und Dienste liefern offensichtlich eine solide Basis für die Verortung von Tweets, auch wenn eine weitere Entwicklung notwendig ist, um die positive Erkennungsrate zu erhöhen. Fehlzuordnungen werden vor allem durch mehrfach existierende Ortsnamen (Frankfurt am Main vs. Frankfurt an der Oder) erzeugt. Der entwickelte Prozess lässt sich zunächst optimieren, indem „spaCy“ mit einem signifikanten Datensatz von Tweets und deutschen Ortsnamen trainiert wird. Die Optimierung ist Gegenstand von zukünftigen Vorhaben. 
Autoren:  Nicole Bruhn, Kommunikation, Interdisziplinäre Projekte i3mainz Alexander Rolwes, Mitarbeiter und Doktorand am i3mainz     Links: Projekt Svenja Ruthmann i3mainz.hs-mainz.de/de/projekte/bam-big-data-analytics-environmental-and-structural-monitoring ) Alexander Rolwes und Svenja Ruthmann auf der FOSSGIS 2020 in Freiburg www.youtube.com/watch www.fossgis-konferenz.de/2020/