Wie werden große Logfiles/Internetauftritte verwaltet

exorbitant

Hallo liebe Leute,

mich würde mal ein ganz spezieller Sachverhalt interessieren. Wie verwalten größere Firmen ihre Logfiles, bzw. welche Datenmengen fallen da an?

Zur Info, ich bin Nichtinformatiker. Mich würde interessieren, welche Datenmengen da täglich ungefähr anfallen würden, bzw. wie man Speicherung und auch Löschung (was ja wegen DSVGO nötig ist) handelt?

Gegeben ist eine Webseite mit 1800000 Usern täglich, diese generieren am Tag 25 Mio Seitenaufrufe. Es wird folgendes protokolliert:

Datum, Uhrzeit, IP, Name der Seite, ob die Übermittlung erfolgreich war, Useragent. Und das für jede Seite die aufgerufen wird.

Ich frage deswegen, weil ich früher mal selber einen - eher mäßig besuchten - Internetauftritt hatte. Und dort trotzdem riesige Logfiles zusammen gebracht habe, die ich nur sehr schwer auswerten konnte.

Also zusammenfassen meine Fragen:
Wie groß ist so ein Backup ca. wenn das dokumentiert wird wie oben beschrieben?
Wie wertet man so riesige Datenmengen überhaupt aus, also mit was für Tools?
Und wie organisiert man eine Löschung der Daten? Also sprich, nach 30 Tagen müssen die Daten gelöscht werden?

Ich weiß für viele ist die Frage simpel, aber ich bin in der Industrie tätig, und habe mit Programmierung/Webzeugs gar nichts zu tun. Danke für die Antworten. Mir geht es grundlegend darum zu verstehen wie so was geht, auch wenn ich keinen praktischen Nutzen davon habe.

SeppJ

Bei uns haben wir ein paar zig Gigabyte pro Tag. Das ist noch nicht riesig aber auch nicht mehr klein. Das kommt von einer relativ logfreudigen Applikation. Anwendungsfall ist hier nur Debugging; wenn du irgendwelche tollen Big Data Analysen über dein Kundenverhalten machen möchtest, ist das dafür nicht ausreichend.

Solche Mengen kann man noch mit "normalen" Methoden analysieren, also das was man so auch mit kleinen Logdateien machen würde. Also grep & Co für klassische Logdateien, SQL wenn du es auf einer Datenbank hast, oder halt die Filtermethoden deines Werkzeugs wenn du ein spezielles Loggingframework benutzt (ich werfe mal Sentry in den Raum, weil wir das nutzen). Alle diese Dinge werden bei uns parallel genutzt und man nimmt dann je nach Problem (oder eigenem Geschmack), das was passt. Jedenfalls ist der Punkt, dass ein paar zig Gigabyte einen zeitgenössischen Computer nicht wirklich zum Schwitzen bringen (ab vielen zig Gigabytes würde es aber so langsam heikel).

Für die Organisation der Daten reichen auch die Standardwerkzeuge: Logrotate zum Komprimieren und Löschen klassischer Dateien; Jobs auf der Datenbank zum Löschen alter Partitionen; und jedes spezielle Loggingwerkzeug wird auch etwas entsprechendes mitbringen (das dann intern wahrscheinlich auf einer Datenbank aufsetzt). Da hunderte Gigabytes kein Problem für eine zeitgenössischen Datenträger sind, braucht es auch hier keine besonderen Vorkehrungen, um ein paar Wochen oder Monate Daten vorzuhalten. Selbst wenn man sie in 3facher Ausführung als Logdatei, Datenbankeinträge, und noch mal extra im Spezialwerkzeug hat. Jahrelanges Vorhalten würde langsam schwierig, aber wer braucht schon Debuglogs von vor so langer Zeit?

SideWinder

Gibt verschiedene Wege, aber ein paar Buzzwords:

Der "Elastic Logstash Kibana" Stack
Cloud-Dienste wie Azure Application Insights (setze ich gerade sehr stark ein) oder bei AWS heißts glaube ich CloudWatch
Prometheus / Grafana Stack

MfG SideWinder