Kion Vi Devas Scianta Pri Bayesia Spama Filtrilo

by Heinz Tschabitscher

Eksciu, kiel statistiko helpas vian enirkeston pura

Bayesiaj spam-filtriloj kalkulas la probablon de mesaĝo esti spamado bazita sur ĝiaj enhavoj. Kontraste kun simplaj enhavo-filtriloj, Bayesian spam-filtrilo lernas pri spamado kaj de bona poŝto, rezultigante tre fortikan, adaptan kaj efikan kontraŭ-spaman enfokuson, kiu plejparte revenas malfacile iujn falsajn pozitivojn.

Kiel Vi Rekonas Junk-Retpoŝto?

Pensu pri kiel vi detektas spamon . Rapida rigardo ofte estas sufiĉe. Vi scias, kion aspektas la spamo, kaj vi scias, kia bona poŝto similas.

La probablo de spamo aspektanta kiel bona poŝto estas ĉirkaŭ ... nulo.

Skotado pri Enhavo-Bazitaj Filtriloj Ne Adaptas

Ĉu ĝi ne estus bonega se aŭtomataj spamaj filtriloj funkciis tiel same?

Gajni enhavajn bazajn spam-filtrilojn provu nur tion. Ili serĉas vortojn kaj aliajn tipajn karakterizaĵojn de spamado. Ĉiu karakteriza elemento estas atribuita poentaro, kaj spam-poentaro por la tuta mesaĝo estas komputita de la individuaj poentaroj. Kelkaj notaj filtriloj ankaŭ serĉas trajtojn de leĝa poŝto, malpliigante la fina poentaron de mesaĝo.

La interpunkcio de la filtriloj estas funkciado, sed ĝi ankaŭ havas multajn malfacilaĵojn:

La listo de karakterizaĵoj estas konstruita de la spam (kaj la bona poŝto) havebla al la inĝenieroj de la filtrilo. Por akiri bonan komprenon pri la tipa spamo, kiun iu povas ricevi, poŝto devas esti kolektita ĉe centoj da retpoŝtaj adresoj. Ĉi tio malfortigas la efikecon de la filtriloj, precipe ĉar la karakterizaĵoj de bona poŝto estos malsamaj por ĉiu persono , sed ĉi tio ne konsideras.
La trajtoj serĉataj estas pli aŭ malpli en ŝtono . Se la spammistoj penas adapti (kaj fari spamon similas bonan poŝton al la filtriloj), la filtrilaĵoj devas esti tweakitaj permane - eĉ pli granda penado.
La poentaro atribuita al ĉiu vorto estas probable bazita sur bona takso, sed ĝi estas ankoraŭ arbitra. Kaj kiel la listo de karakterizaĵoj, ĝi ne adaptas nek al la ŝanĝiĝema mondo de spamo ĝenerale nek al bezonoj de individuaj uzantoj.

Bayesian Spam-Filtriloj Tweak Ims, Getting Better and Better

Bayesiaj spam-filtriloj ankaŭ estas speco de poentantaj enhavo-bazitaj filtriloj. Ilia aliro malproksimigas la problemojn de simplaj spamaj filtriloj, tamen, kaj ĝi faras tiel radikale. Pro tio ke la malforteco de poentaj filtriloj estas en la manie konstruita listo de karakterizaĵoj kaj iliaj interpunkcioj, ĉi tiu listo estas forigita.

Anstataŭe, Bayesian spam-filtriloj konstruas la liston mem. Ideale, vi komencas kun (granda) amaso da retpoŝtoj, kiujn vi klasifikis kiel spamo, kaj alia aro da bona poŝto. La filtriloj rigardas kaj analizas la legitiman retpoŝton kaj la spamon por kalkuli la probablon de diversaj trajtoj aperintaj en spamado kaj poŝto.

Kiel Bayesian Spam-Filtrilo Ekzamenas retpoŝton

La karakterizaĵoj de Bayesia spam-filtrilo povas rigardi povas esti:

la vortoj en la korpo de la mesaĝo, kompreneble, kaj
ĝiaj kaplinioj (sendistoj kaj mesaĝaj vojoj , ekzemple!), sed ankaŭ
aliaj aspektoj kiel HTML / CSS-kodo (kiel koloroj kaj aliaj formatoj), aŭ eĉ
vortaj paroj, frazoj kaj
Meta informo (kie aparta frazo aperas, ekzemple).

Se vorto, "kartezia" ekzemple, neniam aperas en spamado, sed ofte en la leĝa retpoŝto, kiun vi ricevas, la probablo, ke "kartezia" indikas, ke la spamo estas proksima nulo. "Tondro", aliflanke, aperas ekskluzive kaj ofte en spam. "Tondro" havas tre altan probablon esti trovita en spamo, ne multe malpli ol 1 (100%).

Kiam nova mesaĝo alvenas, ĝi analizas la filtrilon de spamso Bayesiano, kaj la probablo de la kompleta mesaĝo, estante spam, estas kalkulita per la individuaj trajtoj.

Supozi mesaĝon enhavas ambaŭ "kartezian" kaj "toner". De ĉi tiuj vortoj nur ankoraŭ ne estas klara, ĉu ni havas spamon aŭ legitan poŝton. Aliaj karakterizaĵoj (espereble kaj plej verŝajne) indikas probablon, kiu permesas al la filtrilo klasifiki la mesaĝon kiel spamon aŭ bonan poŝton.

Bayesiaj spamaj filtriloj povas lerni aŭtomate

Nun, ke ni havas klasifikon, la mesaĝo povas esti uzata por trejni la filtrilon. En ĉi tiu kazo, ĉu la probablo de "kartezia" indikanta bonan poŝton malaltiĝos (se la mesaĝo enhavanta kaj "Kartezian" kaj "toner" estas spamata), aŭ la probablo de "tondro" indikanta spamon devas esti reconsidektita.

Uzante ĉi tiun aŭton-adaptaĵan teknikon, Bayesiaj filtriloj povas lerni de siaj propraj kaj la decidoj de la uzanto (se ŝi korektos maljustecon per la filtriloj). La adaptabileco de Bayesia filtrilo ankaŭ certigas, ke ili estas plej efikaj por la individua retpoŝta uzanto. Dum la plejparto de la spamo povas havi similajn karakterizaĵojn, la leĝa poŝto karakterizas por ĉiuj.

Kiel Povas Spammers Preterpasi Bayesiajn Filtrilojn?

La karakterizaĵoj de leĝa poŝto estas same gravaj por la Bayesian spam-filtradprocezo, kiel la spamo. Se la filtriloj estas trejnitaj specife por ĉiu uzanto, spammers havos eĉ pli malfacilan tempon laborante ĉirkaŭ ĉiuj (aŭ eĉ plej multaj homoj) spam-filtriloj, kaj la filtriloj povas adapti al preskaŭ ĉiuj spammersprovizoj.

Spammers nur pasigos tre bone trejnitajn Bayesiajn filtrilojn, se ili faros siajn spam-mesaĝojn aspekte perfekte kiel la ordinara retpoŝto, kiun ĉiuj povas ricevi.

Spamistoj ne kutime sendas tiajn ordinarajn retpoŝtojn. Ni supozu, ke ĉi tiuj retpoŝtoj ne funkcias kiel malŝparita retpoŝto. Do, ŝancoj estas, ke ili ne faros ĝin, kiam ordinaraj enuaj retpoŝtoj estas la sola maniero por igi ĝin pasintajn spam-filtrilojn.

Se spammers ŝanĝiĝas al plejparte ordinaraj retpoŝtoj, tamen ni multe vidos multajn spamojn en niajn Inboxes, kaj retpoŝton fariĝos tiel frustra kiel ĝi estis antaŭ antaŭ-Bayesiaj tagoj (aŭ eĉ pli malbona). Tamen, ĝi ankaŭ ruinigis la merkaton por multaj specoj de spamo, kaj tiel daŭros longe.

Fortaj Indikiloj Povas esti Bayesian Spam Filtrilo de Achilles & # 39; Kalkano

Oni povas percepti unu escepton por spammistoj labori tra Bayesiaj filtriloj eĉ kun sia kutima enhavo. Ĝi estas en la naturo de Bayesiaj statistikoj, ke unu vorto aŭ karaktero, kiu ofte ofte aperas en retpoŝto, povas esti tiel signifa kiel por igi ajnan mesaĝon de aspekto kiel spamo, por esti kvalifikita kiel ŝinko per la filtrilo.

Se spammers trovas vojon por determini viajn certajn fajrajn retpoŝtajn vortojn-per uzado de retpostaj retribuoj de HTML por vidi, kiujn mesaĝoj vi malfermis, ekzemple, ili povas inkluzivi unu el ili en malŝparo kaj atingi vin eĉ per puto- trejnis Bayesian filtrilon.

John Graham-Cumming provis ĉi tion per lasi du Bayesiajn filtrilojn alfronti unu la alian, la "malbona" unu adaptilo al kiu troviĝas mesaĝoj troveblas tra la "bona" filtrilo. Li diras, ke ĝi funkcias, kvankam la procezo estas konsumanta kaj kompleksa. Ni ne pensas, ke ni vidos multajn ĉi okazojn, almenaŭ ne grandskale, kaj ne adaptitajn al retpoŝtaj trajtoj de individuoj. Spammers povas (provu) eltrovi iujn ŝlosilvortojn por organizoj (eble kiel "Almaden" por iuj homoj ĉe IBM eble).

Kutime, spamo ĉiam estos (signife) malsama de regula poŝto aŭ ĝi ne estos spamo, tamen.

La Fundo-Linio: la Forto de Bayesia Filtrilo povas esti ĝia malforteco

Bayesiaj spam-filtriloj estas kontentaj bazaj filtriloj, kiuj:

estas specife trejnitaj por rekoni la spamon kaj bonan poŝton de individuaj retpoŝtaj uzantoj , farante ilin tre efikaj kaj malfacilaj por adapti al spamistoj.
povas senĉese kaj sen multe da penado aŭ manlibro analizi la lastajn lertaĵojn de la spammers.
Konsideru bonan poŝton de individuaj uzantoj kaj havas tre malaltan indicon de falsaj pozitivoj .
Bedaŭrinde, se ĉi tio kaŭzas blindan konfidon en Bayesiaj kontraŭ-spamaj filtriloj, ĝi igas la fojan eraron eĉ pli seriozan . La kontraŭa efiko de falsaj negativoj (spamo, kiu aspektas ĝuste kiel regula poŝto) havas la eblecon turmenti kaj frustri uzantojn.