Klasifiko en Datuma Minado

Klasifiko estas datuma minado-tekniko kiu atribuas kategoriojn al kolekto de datumoj por helpi en pli precizaj antaŭdiroj kaj analizo. Ankaŭ nomata iam nomata Decido Arbo , klasifiko estas unu el pluraj metodoj por efektivigi la analizon de tre grandaj datformoj.

Kial Klasifiko?

Tre grandaj datumbazoj fariĝas la normo en la hodiaŭa mondo de "grandaj datumoj". Imagu datumbazon kun multoblaj terabytoj de datumoj -a terabyte estas unu biliono de bajtoj de datumoj.

Nur Facebook ĵetas 600 terabytoj de novaj datumoj ĉiun tagon (de 2014, la lastan fojon raportis ĉi tiujn specojn). La ĉefa defio de grandaj datumoj estas kiel senti ĝin.

Kaj granda volumo ne estas la sola problemo: grandaj datumoj ankaŭ inklinas esti diversaj, nestrukturitaj kaj rapide ŝanĝiĝantaj. Konsideru audio kaj video-datumojn, sociajn amaskomunikilarojn, datumojn 3D aŭ geospatiajn datumojn. Ĉi tiu speco de datumoj ne estas facile kategoriita aŭ organizita.

Por renkonti ĉi tiun defion, disvolvis gamo de aŭtomataj metodoj por ĉerpi utilajn informojn, inter ili klasifikadon .

Kiel Klasifiko Funkcias

Ĉe la danĝero movi tro multe en teknologion, ni diskutas, kiel funkcias la klasifiko. La celo estas krei aron de klasifikaj reguloj, kiuj respondos demandon, decidos aŭ antaŭdiros konduton. Por komenci, aro de trejnaj datumoj estas evoluigita, kiu enhavas certan aron de atributoj same kiel la verŝajna rezulto.

La laboro de la klasifiko algoritmo estas malkovri kiel tiu aro de atributoj atingas ĝian konkludon.

Scenario : Eble kompanio de kreditkarto provas determini, kies perspektivoj devus ricevi kreditkarton.

Ĉi tio povus esti ĝia aro de trejnaj datumoj:

Trejnado Datumoj
Nomo Aĝo Sekso Ĉiujara enspezo Kredita Karto Karto
John Doe 25 M $ 39,500 Ne
Jane Doe 56 F $ 125,000 Jes

La kolumnoj "antaŭdiristinoj" Aĝo , Sekso kaj Jaraj Enspezoj determinas la valoron de la "antaŭdira atributo" Kredita Karto-Karto . En trejnada aro, la antaŭdira atributo estas konata. La klasifika algoritmo tiam provas determini kiel la valoro de la antaŭdira atributo estis atingita: kiaj interrilatoj ekzistas inter la antaŭdiroj kaj la decido? Ĝi evoluigos aron de antaŭdortaj reguloj, kutime IF / THEN-deklaro, ekzemple:

SE (Aĝo> 18 Aŭ Aĝo <75) AND Jara Enspezo> 40,000 THEN Kredita Karto-Oferto = Jes

Evidente, ĉi tio estas simpla ekzemplo, kaj la algoritmo bezonus multe pli grandajn datumojn ol la du rekordoj montritaj ĉi tie. Plie, la reguloj de prognozo verŝajne estos multe pli kompleksaj, inkluzive de subreguloj por kapti atributajn detalojn.

Poste, la algoritmo estas donita "antaŭdiro aro" de datumoj por analizi, sed ĉi tiu aro malhavas de la antaŭdiro (aŭ decido):

Predictor-datumoj
Nomo Aĝo Sekso Ĉiujara enspezo Kredita Karto Karto
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Ĉi tiu antaŭdiro de datumoj helpas taksi la precizecon de la antaŭdiroj, kaj la reguloj tiam estas uzataj ĝis la programisto konsideras la antaŭdirojn efika kaj utila.

Ekzemploj de Tago al Tago de Klasifiko

Klasifiko, kaj aliaj datumaj minindustriaj teknikoj, estas malantaŭ multaj el niaj ĉiutagaj spertoj kiel konsumantoj.

Vetaj antaŭdiroj povus uzi la klasifikon por raporti ĉu la tago pluvos, sunplena aŭ nebula. La medicina profesio povus analizi sanktajn kondiĉojn por antaŭdiri medicinajn rezultojn. Tipo de klasika metodo, Naive Bayesian, uzas kondiĉan probablon por klasifiki retmesaĝojn. De fraŭdo detekto al produkto ofertoj, klasifiko estas malantaŭ la scenoj ĉiutage analizante datumojn kaj produktante antaŭdirojn.