|
Sunday, 28. May 2006
Das Problem mit dem Referrer-Spam ist auf antville.org ausser Rand und Band und zwingt den Server fast in die Knie. Ich bin dabei, mir eine Lösung auszudenken.
Die Fakten:
- Die Requests kommen von einer Handvoll Client-IPs
- Die Referrer-URLs bestehen aus einer Handvoll Hostnames
- Die Pfadnamen der Referrer-URL sind hingegen sehr unterschiedlich/fluktuierend
- Ebenso die Zielseiten auf antville.org, an denen der Spam deponiert wird
Knackpunkt sind eindeutig die wenigen Referrer-Hosts und Client-IPs, daher mein Ansatz:
- Man nimmt einen LRU-Hashtable, um die jeweils sagen wir mal 64 meistgesehenen Referrer-Hosts zu verfolgen
- Für jeden Host beobachtet man die Anzahl unterschiedlicher Referrer URL Request Paths paths
- Für jeden Host beobachtet man die Anzahl unterschiedlicher Antville-URLs urls
- Für jeden Host beobachtet man die Anzahl unterschiedlicher Client IPs ips
- Wenn ips ab einer gewissen Anzahl von Requests konstant bzw niedrig bleibt, paths und urls hingegen eifrig mitwachsen, werden alle folgenden Requests mit diesem Referrer-Host an eine statische "we think you're spam"-Seite weitergeleitet.
Dasselbe könnte man auch von den Client-IPs her aufspannen. Mein Gefühl sagt mir, dass die primäre LRU-Table dann etwas saturierter wäre, kann aber gut sein, dass mir dieses Gefühl hier täuscht.
was machen, wenn es false positives gibt? captcha auf der we think you're spam site?
das konzept der "we-think-you're spam" site verstehe ich sowieso nicht ganz - warum nicht gleich einen 404-header zurückschicken, das würde den spambot noch eher umstimmen. die wtys-page beeindruckt den bot ja überhaupt nicht, er liest die site eh nicht ...
Die Spambots verfolgen keine Redirects.
Die we-think-you're-spam-Seite sollte einfach einen Link auf die ursprüngliche Zielseite enthalten, über die man bei Bedarf weiterklicken kann - aber eben ohne Referrer.
Ich hab das System wegen akutem DOS schon aktiviert, ich glaube es gibt bislang keine false positives. Und die Systemload ist von > 20 auf etwas über 1 zurückgegangen.
hey, danke! gerade erst bemerkt, mal sehen wie es wirkt ;)
naja, die neue version hat die oben beschiebene heuristik plus eine permanente blacklist und bietet sangwermal 99.9 prozent schutz. das wird sich aber erst ab morgen nachmittag in den referrer-seiten niederschlagen.
Log in to add your comment!
|