[Postfixbuch-users] Reject SPAM Score für ausgehende Mails

Fr Okt 23 12:21:32 CEST 2009

Peer Heinlein schrieb:
> Am Donnerstag 22 Oktober 2009 schrieb Uwe Driessen:
> 
>>> Inwiefern ist das Mathematik, das würde mich jetzt mal ein wenig
>>> genauer interessieren?
> 
> Weil die Socring-Werte genau auf eine erreichte false positive / false 
> negative-Rate weisen, die in einer Referenzmessung ermittelt wird. 
> Insofern ist das Ergebnis kein "Zufall" und insofern muß man nicht wild 
> an Werten schrauben, sondern kann eigentlich anhand der für sich selbst 
> definierten zu erreichenden Grenzwerte den jeweiligen 
> SpamAssassin-Score ablesen, den man dafür nutzen muß.
> 
>>> Dachte bis dato eigentlich das müsste man quasi so fein abstimmen
>>> bis man irgendwann mal einen Wert hat der auf die eigenen
>>> Bedürfnisse recht gut passt.
> 
> Ich halte von dieser ganzen Theorie der "eigenen Bedürfnisse" nichts. 
> Bis auf wenige Sonderfälle kriegen über kurz oder lang in der Masse 
> dann Alle doch den gleichen Spam und alle die gleichen Mails. Insofern 
> hat da eigentlich niemand "eigene" Bedürfnisse, sondern alle haben
> 
> a) Optimal wenig Spam durch bei gleichzeitig
> b) Optimal wenig false positives.
> 
> Ganz einfach. Was daran individuell sein soll -- ich weiß es nicht.
> 
> Und die Meßwerte der Referenzmessung zum SpamAssassin-Scoring zeigen 
> eben ganz deutlich: Bei rund 6.3 Punkten hat man eine ausreichend hohe 
> Erkennung bei sehr wenig false positives.
> 
>> Alle punkte zusammengezählt ergeben den score(Mathematik +-*/).
> 
> Das ist Mathematik für Grundschüler. :-)
> 
> Ich meine aber die Wahrscheinlichkeitsrechnung hinter dem Score, also 
> Stochastik. Also die Frage, warum ein Spam-Merkmal nun 1.262 und nicht 
> etwa 1.333 oder einfach nur 1.5 Punkte bekommt. Das ist ja nicht 
> willkürlich, daß es hier Werte bis auf einen Tausenstel Punkt gibt. Das 
> kommt ja woher -- aus der Referenzmessung in der diese Scoring-Werte 
> exakt auf die hinter diesem Merkmal steckende Spam-Wahrscheinlichkeit 
> gerechnet werden und wo alle Werte so normiert werden, daß ein Scoring 
> von 6.0 Punkten eben 6.0 Punkte ist.
> 
> http://wiki.apache.org/spamassassin/HowScoresAreAssigned
> 
>> Durch langjährige Beobachtungen hat sich dann herausgestellt das bis
> 
> Nein, durch Messen, bzw. durch die Ergebnisse der Scoring-Normierung.
> 
>> Listenmails, erwünschte Werbemails). Mehr Geheimnisse gibt es dabei
>> nicht 
> 
> Mist. Jetzt fehlt mir so ein pseudoschlaues Jedi-Ritter-Zitat von 
> wegen "die Dunkel Seite der Macht nicht erkennen Du tust". Oder so.
> 
> 
> Man findet die Ergebnisse der Referenzmessungen im 
> SpamAssassing-Quellcode-TGZ 
> 
> http://apache.mirror.iphh.net/spamassassin/source/Mail-SpamAssassin-3.2.5.tar.gz
> 
> in der Datei STATISTIC-set0.txt (bis -set3.txt). Hier ein Beispiel:
> 
> # SUMMARY for threshold 6.0:
> # Correctly non-spam:  67531  99.97%
> # Correctly spam:     115906  97.33%
> # False positives:        19  0.03%
> # False negatives:      3177  2.67%
> # TCR(l=50): 28.854616  SpamRecall: 97.332%  SpamPrec: 99.984%
> 
> # SUMMARY for threshold 6.5:
> # Correctly non-spam:  67543  99.99%
> # Correctly spam:     115120  96.67%
> # False positives:         7  0.01%
> # False negatives:      3963  3.33%
> # TCR(l=50): 27.610248  SpamRecall: 96.672%  SpamPrec: 99.994%
> 
> 
> Mit freundlichen Grüßen
> 
> Peer Heinlein
> 
> 
> 

Ok, unter dem Gesichtspunkt habe ich das noch nicht betrachtet. Aber wie immer ist es schön 
das es diese Liste gibt und man ja mal nen paar alte Hasen fragen kann.
Wenn man das so betrachtet dann macht das recht wenig Sinn pro Domain/User eigene TAG/REJECT 
Level anzubieten. Da kann man das dann gleich statisch für alle im System konfigurieren.

... man lernt ja immer wieder dazu.

Gruß Oliver