Im Zuge der Entwicklung auf Basis von TensorFlow.js wurden auch zahlreiche Datasets erstellt. Ein solches Dataset ist vereinfacht gesagt eine CSV-Datei, welches den Kriterien der Dataset-API von TensorFlow / Keras entspricht. So kann man die von uns erhobenen Daten direkt und ohne Umwege selbst in TensorFlow-basierten Projekten verwenden und eigene Vorhersagemodelle erstellen. Dafür muss man nur die tf.data.Dataset API bzw. die fitDataset()
-Funktion in TensorFlow.js verwenden.
Die Datasets sind unter CC-BY-SA veröffentlicht. Sie können daher frei verwendet werden, solange eine Namensnennung erfolgt. Diese muss „CC-BY-SA – SharedMobility.ai / ZAMG / AT-Wetter / CityBik.es“ lauten.
Struktur eines Datasets
Ein Dataset entspricht im Prinzip der denormalisierten Form der SMAI-Datenbank. Jede Zeile ist ein Snapshot einer Station zu einem bestimmten Zeitpunkt, inkl. aller relevanten Werte im Kontext einer Verleihstation.
timestamp
– Zeitstempel im ISO-FormatYYYY-MM-DDThh:mm:ss.000Z
und in UTC.service_id
– Service-ID der Zeile, z.B. 2 für Citybike Wien.station_id
– eindeutige Stations-ID der Zeile.station_longitude
– Längengrad der Stationstation_latitude
– Breitengrad der Stationvehicles_available
– vorhandene Räder, bereit für den Verleihboxes_available
– freie Rückgabeboxensunshine
– Sonnenscheindauer der letzten vollen Stunde in Prozent von 0 bis 100rain
– Niederschlagssumme der letzten vollen Stundetemperature
– Temperatur zur letzen vollen Stundeholiday
–1
wenn der Tag ein gesetzlicher Feiertag am Ort der Station war,0
an normalen Tagen
Die Wetterwerte beruhen auf den Meteorologische Messdaten der ZAMG via AT-Wetter. Feiertage wurden selbst erhoben und sind in den Konfigurationsdateien sichtbar.
Liste aller publizierten Datasets
Alle Datasets sind im öffentlichen Bucket mit dem Namen smai-public-datasets
auf Google Cloud Storage Bucket abrufbar. Die volle URL lautet https://storage.googleapis.com/smai-public-datasets/ – eine bessere Alternative ist aber das gsutil
-Kommando: gsutil ls gs://smai-public-datasets/citybikewien/
Hinweis: Für das Jahr 2019 finden sich alle Datasets unter gs://smai-public-datasets/citybikewien/2019/
Insgesamt sind mehrere hundert Datasets publiziert, wobei es sich hierbei um unterschiedliche Versionen der bisher gesammelten Daten handelt: Die Stationsdaten sind einerseits nach Datum bzw. Monat gruppiert, andererseits gibt es je ein Dataset für die gesammte Citybike-Flotte bzw. jede Station individuell. Letzteres erleichtert die Verwendung der Daten erheblich, da kleinere Datenmengen anfallen. Für jedes Monat der Citybike Wien-Rohdaten werden weitere 121 Datasets generiert, nämlich 120 für die Stationen und eine gesammelte Version.