Datensammeln und Aufbereitung

Um ein erstes Modell erstellen zu können, braucht es entsprechende Rohdaten von Bikesharing-Diensten. In Wien kommen hierfür die Citybike Wien und die SeestadtFLOTTE in Frage. Da wir bereits gute Kontakte zu den Betreibern der SeestadtFLOTTE hatten und deren aktuelle Flotte auch gut überschaubar ist, nehmen wir diese als erste Datenquelle. Da unter https://www.citybik.es auch die Gewista-basierte Flotte von Citybike Wien verfügbar ist, können wir in Zukunft unser Modell aber auch mit anderen Flotten testen.

Wir haben als Ausgangsbasis nun minütliche Snapshots seit 14. Juli 2018 erstellt. In Summe sind so bisher 1.793.056 Snapshots in der Datenbank gelandet. Eine kurze Analyse zeigte, dass für die Erstellung eines ersten Vorhersagemodells entweder der Juli oder August sehr gut geeignet wären. Darum haben wir uns für die Kalenderwochen 30 und 31 für den ersten Schritt entschieden. In diesen beiden Wochen waren die meisten Räder gleichzeit in der Flotte aktiv und auch die Ausleihfrequenz akzeptabel. Natürlich wäre es besser, hätten wir Daten nicht nur aus der Ferienzeit im Frühling, allerdings war da unsere Projektidee noch nicht geboren und folglich fehlen uns hier einfach die Rohdaten.

Eine nicht unwesentliche Herausforderung war die Transformation der Rohdaten in ein abstraktes, auch für andere stationsbasierte Systeme geeignetes Datenmodell. Im Wesentlichen erfassen wir nun für jede Station für einen Zeitpunkt folgende Daten:

ID und allgemeine Metadaten
Status der Station (Verfügbar oder Ausfall)
Verfügbare Fahrzeuge
Defekte Fahrzeuge
Freie Rückgabeboxen
Defekte Rückgabeboxen

Pro Woche fallen allein für die doch überschaubare Stationsanzahl der SeestadtFLOTTE so ca. 7 MB an Daten in knapp 81.000 Snapshots an. Mit dieser Basis starten wir nun in das nächste Arbeitspaket.

Wer den Code vom Collector-Modul einsehen möchte, der kann dies bereits in unserem öffentlichen Github-Repository tun. Dort findet man auch das Datenmodell für unsere relationale Datenbank und kleinere Datenvalidierungsskripte.

Schreibe einen Kommentar Antwort abbrechen