Training des BAYES Filters

Carsten Rosenberg cr at ncxs.de
Sa Feb 26 16:07:59 CET 2022


Hi,

On 26.02.22 06:42, Achim Lammerts via Postfixbuch-users wrote:
> Guten Morgen,
>>
>> Vermutlich die ganze Mail: https://github.com/rspamd/rspamd/issues/340
>>
> Ja, so cool der rspamd ist, das „vermutlich“ zieht sich leider durch die 
> ganze Dokumentation. Ich habe noch andere Fragen offen, aber in der 
> offiziellen Mailingliste ist recht wenig los.

Rspamd ist so umfangreich und flexibel, dass die Doku da natürlich etwas 
nachsteht. Im Endeffekt ist Rspamd derzeit eine One-Man-Show. Die Doku 
ist aber auch auf Github gehostet ;)


> Ich habe schon überlegt, selbst eine rein deutschsprachige Liste zu 
> starten, so wie diese hier zum Postfix, aber ich kann den 
> administrativen Aufwand dafür nicht einschätzen. Und es wäre wohl 
> besser, wenn sich die Verantwortung dafür auf 2-3 Leute verteilt.
> 

Ich erstelle Montag gern eine Anti-Spam bzw eine Rspamd Liste hier auf 
dem Server. Bisher gab es zu dem Thema immer recht wenige Topics und der 
MTA war das zentrale Thema. In unserer Arbeit wird der Rspamd immer 
zentraler und der MTA damit weniger komplex.

>> Die meisten Benutzer wollen nichts mit dem Spamfilter zu tun haben, es 
>> soll nur funktionieren.
>> Deswegen lass ich global lernen und ausgewählte Personen erhalten 
>> einen IMAP-Ordner, in den sie nicht erkannte Spammails legen können.
>> Ein Programm holt diese periodisch ab und legt sie zur Prüfung vor. So 
>> verhindere ich, dass ungewollte Newsletter als Spam gelernt werden und 
>> bei Bedarf kann man gleich noch ein paar Regeln anpassen.
> 
> Das Konzept finde ich auch besser, zumal es bei mir nur noch um wenige 
> Mailboxen geht.

Vom Per-User Bayes bin ich nicht mehr so überzeugt. Man vervielfacht 
seine Datenhaltung und im Endeffekt liegen die Statistiken sehr nah am 
globalen Bayes. Dadurch dass man eine Mindestzahl an gelernten Mails 
(200+) und das für HAM als auch SPAM braucht, ist der Einfluss 
angelernter Mail für den User außerdem recht klein. Außer der User lernt 
schon zu Beginn eine gewisse Zahl an HAM und SPAM.

> Zum Training von BAYES:
> Es ist wohl besser, man bereitet das Trainingsmaterial insoweit vor, daß 
> es dem rspamc so erscheint, als stünde die E-Mail vor der Einlieferung. 
> Also am besten die Spam-Reports und internen Hops bis zum Mailstore aus 
> den Headern entfernen, so wie den Betreff ggfls. wieder zurücksetzen.
> Aus früheren Versuchen habe ich in Erinnerung, daß eine interne IP im 
> Header zu False Positives geführt hatte.

Rspamd verwendet nur ganz wenige Header, wobei Received und From/To 
nicht dabei sind. Ihr könnt also einfach die Mails direkt aus dem 
Postfach anlernen.

https://rspamd.com/doc/usage_policy.html

classify_headers = [
	"User-Agent",
	"X-Mailer",
	"Content-Type",
	"X-MimeOLE",
];

> 
> Noch ein Tipp:
> In dieser Anleitung wird die Verwaltung des rspamd auf verschiedene 
> Instanzen von Redis aufgeteilt. Das finde ich sehr nützlich, falls doch 
> mal etwas vergiftet ist.
> https://kb.linuxlove.xyz/mail-server-rspamd.html
> 
> LG/A
> 

Viele Grüße

Carsten


Mehr Informationen über die Mailingliste Postfixbuch-users