TensorFlow Datasets

Im Zuge der Entwicklung auf Basis von TensorFlow.js wurden auch zahlreiche Datasets erstellt. Ein solches Dataset ist vereinfacht gesagt eine CSV-Datei, welches den Kriterien der Dataset-API von TensorFlow / Keras entspricht. So kann man die von uns erhobenen Daten direkt und ohne Umwege selbst in TensorFlow-basierten Projekten verwenden und eigene Vorhersagemodelle erstellen. Dafür muss man nur die tf.data.Dataset API bzw. die fitDataset()-Funktion in TensorFlow.js verwenden.

Die Datasets sind unter CC-BY-SA veröffentlicht. Sie können daher frei verwendet werden, solange eine Namensnennung erfolgt. Diese muss „CC-BY-SASharedMobility.ai / ZAMG / AT-Wetter / CityBik.es“ lauten.

Struktur eines Datasets

Ein Dataset entspricht im Prinzip der denormalisierten Form der SMAI-Datenbank. Jede Zeile ist ein Snapshot einer Station zu einem bestimmten Zeitpunkt, inkl. aller relevanten Werte im Kontext einer Verleihstation.

  • timestamp – Zeitstempel im ISO-Format YYYY-MM-DDThh:mm:ss.000Z und in UTC.
  • service_id – Service-ID der Zeile, z.B. 2 für Citybike Wien.
  • station_id – eindeutige Stations-ID der Zeile.
  • station_longitude – Längengrad der Station
  • station_latitude – Breitengrad der Station
  • vehicles_available – vorhandene Räder, bereit für den Verleih
  • boxes_available – freie Rückgabeboxen
  • sunshine – Sonnenscheindauer der letzten vollen Stunde in Prozent von 0 bis 100
  • rain – Niederschlagssumme der letzten vollen Stunde
  • temperature – Temperatur zur letzen vollen Stunde
  • holiday1 wenn der Tag ein gesetzlicher Feiertag am Ort der Station war, 0 an normalen Tagen

Die Wetterwerte beruhen auf den Meteorologische Messdaten der ZAMG via AT-Wetter. Feiertage wurden selbst erhoben und sind in den Konfigurationsdateien sichtbar.

Liste aller publizierten Datasets

Alle Datasets sind im öffentlichen Bucket mit dem Namen smai-public-datasets auf Google Cloud Storage Bucket abrufbar. Die volle URL lautet https://storage.googleapis.com/smai-public-datasets/ – eine bessere Alternative ist aber das gsutil-Kommando: gsutil ls gs://smai-public-datasets/citybikewien/

Insgesamt sind mehrere hundert Datasets publiziert, wobei es sich hierbei um unterschiedliche Versionen der bisher gesammelten Daten handelt: Die Stationsdaten sind einerseits nach Datum bzw. Monat gruppiert, andererseits gibt es je ein Dataset für die gesammte Citybike-Flotte bzw. jede Station individuell. Letzteres erleichtert die Verwendung der Daten erheblich, da kleinere Datenmengen anfallen. Für jedes Monat der Citybike Wien-Rohdaten werden weitere 121 Datasets generiert, nämlich 120 für die Stationen und eine gesammelte Version.