Sonstiges

spamhamspam

1. nachdem ich direkt via MySQL die Kommentare und Postings für Artikel älter als ein halbes Jahr gesperrt habe, ist das Spamaufkommen erwartungsgemäß dramatisch zurückgegangen. Nicht die Versuche, aber es kommt halt nix mehr durch, was Akismet und andere Tools beackern müssten. Hätte ich das nicht gemacht, hätte Akismet wohl schon längst den Spam No. 1 Mio begrüßen dürfen, so schwirrt der Counter zäh um die +800.000 Einträge herum. Klar, die Maßnahme muss ich wieder erneut angehen, denn die Aktion ist jetzt rund 2 Monate her. Auch am Rande interessant: biete ja im gesperrten Kommentarbereich jedem an, via Mail einen Kommentar zu platzieren, den ich dann händisch übernehme. Resonanz = null. Klar, die Hürde ist etwas höher, aber wider Erwarten haben sich doch keine Leser gemeldet. War ja damals ein Punkt in der Diskussion, dass man alte Artikel abwürgen würde, obwohl doch immer wieder Leser kommentieren möchten. Solche langfristigen Threads habe ich nicht bzw. nur ganz wenige, also verschmerzbar.

Tipp von ad: Man schnappe sich das WP-Plugin Comment Timeout, das sogar unterschiedliche Regeln für die Behandlung von eingehenden Trackbacks und Comments beherrscht.

2. dafür macht mir GMails Spamfilter Sorgen. Ich schätze mal ganz grob, dass von 100 Spameinträgen rund 1-3 false positives dabei sind. Das ist ziemlich blöd, denn angesichts des Spamaufkommens von rund 200-400 Spammails macht das ganz schön Arbeit, nach false positives zu suchen. Ich glaube, Volker Weber hat vor einigen Wochen ähnliches berichtet.

Über den Autor

Robert Basic

Robert Basic ist Namensgeber und Gründer von BASIC thinking und hat die Seite 2009 abgegeben. Von 2004 bis 2009 hat er über 12.000 Artikel hier veröffentlicht.

13 Kommentare

  • Zu 1. für Blogbesucher ist die Hürde _zu_ hoch. Da will man nur ein Feld haben und auf Speichern klicken – fertisch.

    Wenn deine False-Positive alle deutsch sind, dann kannste sie leicht herausholen … suchste nach is:spam und dann typische deutsche Wörter wie der, die, das, und …

  • ich habe gegen den wordpress spam ein plugin das ältere beiträge schließt … zum anderen nutze ich zur spamabwehr js antispam was bei mir sehr viel erfoglreicher ist als mathe …

    was dein problem mit google mail angeht ist das eigentlich recht einfach erklärt. google ist ein amerikanisches unternehmen und gerade diese konzerne bauen ihre filter für englische sprache. deutsch ist für sie eine fremdsprache und wird entsprechend bewertet und es wird potentieller spam.

    egal wie nett die angebote sind, welche mir int. konzerne geben, ich würde immer auf einen dienst im eigenen land setzen.

    bedingt durch meine arbeit kann ich aber sagen das die auswahl an providern /dienstanbietern mit guten filtern nicht sehr gross ist. also unternehmen die das ganze auch pflegen.

    die gute oberfläche fehlt leider. zwar schaffe ich es eine rate von 1:1000 hinzulegen, aber wenn das ganze dann nicht beim benutzer ankommt ist das halt ein problem.

    für eine einzelnen domain geht das schnell auch mit einem rating von 1:10000 … aber das will ja keiner zahlen 😉

  • Bei meinen Blogs (privat wie geschäftlich hat insbesondere der Trackback-Spam) überhand genommen. Ich habe Trackbacks deshalb zunächst komplett gesperrt. Stattdessen arbeite ich an einem Tool zur Auswertung der Referrer: Jeder Referrer von einer fremden zu einer eigenen Seite ist eine Kante in einem Graphen. Ob ein Referrer echt oder Spam ist, prüfe ich, indem ich die verlinkende Seite aufrufe. Lässt sich der Domainname ergreppen, gibts grünes Licht und Wiedervorlage in vier Wochen. Je mehr Besucher über eine bestimmte Kante reingekommen sind, desto relevanter. Erstaunlich, wieviele Links aus Foren etc. so zusammenkommen (teils interessante Threads teils Blödelthreads), die mangels Trackback bislang unbeachtet blieben. Ich habe so aus 8 Millionen Zeilen Logfiles etwa 800 relevante eingehende Links extrahieren können (Suchmaschinen erstmal uninteressant).

    Die bisherige sehr rohe Version des Tools funktioniert bereits recht gut und fasst anhand der URLs Seiten zusammen, die bspw. mal mit, mal ohne www aufgerufen waren. Jetzt möchte ich noch etwas mehr Logik einbauen, bspw. um Links von einer WP-Startseite gegenüber Links von einer einzelnen WP-Seite zu unterscheiden. Wenn das soweit ist, werde ich dieses Tool wohl freigeben und mittelfristig ein WP-Plugin als Ergänzung anbieten.

  • Die false positives aus dem Google spamfilter fische ich so raus:
    – These: ‚false positoves sind oft auf deutsch‘
    — Konsequenz: ich basle einen filter der die häufiugsten deutschen worde definiert und weise ihm spam.d als tag zu
    — ich filtere auf is:spam label:spam.d und voilà,sind sie alle spams auf deutsch, die ‚legitimnen‘ finden sich recht schnell. (wenn man nicht amhr als 2000 spams auf einmal bearbeitet 😉 )

    Ich hab noch ein paar andere Tricks in der Richtung. Barcampsession?

    (z.B. ein spam.f der mir bisherige fals positives rauszieht ein spam.dd der ‚ein ‚engerer deutscher‘ filter ist, ein spam.maybe und ein spam.probably, die schon mal die meisten spams rausziehen -> löschen -> rest übersichtlicher

  • Die Idee mit dem Gmail-Spamfilter für False Positives ist super. Ich habe die Stichwörter noch etwas verfeinert und rund 2000 Spammails auf 27 kritische Kandidaten runtergerechnet. Funktioniert super.

    in:spam (der | die | das | hallo | es | um) -{schwanz | penis | viagra | EUR | euro | the | of }

    Lieben Gruß
    David