Glanhau data

Oddi ar Wicipedia
Jump to navigation Jump to search
Disodli gwallau gyda'r teclyn AWB ar y Wicipedia Cymraeg.

Proses o lanhau neu "olchi" gwybodaeth yw glanhau data, a hynny o fewn y maes a elwir yn rheoli data. Gall y wybodaeth hon fod ar ffurf set o gofnodion testun neu rif, cronfa ddata, taenlen neu dabl. Gall y broses gynnwys nodi rhannau anghyflawn o ddata, anghywir, lled-anghywir neu amherthnasol; yr ail gam, wedi hyn yw addasu neu ddisodli gwallau o fewn y "data budr" gyda'r wybodaeth gywir. Yn aml, defnyddir botiau i gywiro'r gwaith gyda sgriptiau a chod pwrpasol.[1]

Ar ôl glanhau'r data, dylai'r daenlen neu'r set ddata fod yn gyson â setiau data tebyg o fewn y cwmni neu'r sefydliad. Gall yr anghysondebau a ganfuwyd neu a gafodd eu tynnu gael eu hachosi yn wreiddiol gan ddefnyddwyr, trwy lygredd mewn trosglwyddiad neu drwy storio, neu gan ddiffiniadau geiriaduron gwahanol. Mae glanhau data yn wahanol i ddilysu data; mae dilysu data'n digwydd wrth i'r defnyddiwr fewnbynnu gwybodaeth i fewn i'r system. Er enghraifft gall y dilysu wrthod ymgais gan ddefnyddiwr i fewnbynnu cod post neu e-bost anghywir.

Bydd rhai datrysiadau glanhau data yn glanhau data trwy groeswirio gyda set ddata sydd wedi ei ddilysu. Un o'r arferion glanhau data mwyaf cyffredin o wella data, yw'r arfer o wella'r data, ei wneud yn fwy cyflawn trwy ychwanegu gwybodaeth gysylltiedig. Er enghraifft, atodi cyfeiriadau gydag unrhyw rifau ffôn sy'n gysylltiedig â'r cyfeiriad hwnnw. Gall glanhau data hefyd gynnwys gweithgareddau fel cysoni data a safoni data. Er enghraifft, cysoni codau byr (st, ff, ac ati) i eiriau cyflawn (stryd, ffordd, ac ati). Mae safoni data yn fodd o newid data cyfeirio a osodir i safon newydd.

Teclynnau[golygu | golygu cod y dudalen]

Ceir nifer o declynnau pwrpasol ar gyfer y gwaith o olchi data e.e. Trifacta, OpenRefine, Paxata, Alteryx. Ceir hefyd llyfrgelloedd yn sylfaen i'r glanhau e.e. Pandas ar gyfer Python (iaith codio) a Dplyr ar gyfer R. O fewn Apache Spark, ceir Optimus, sy'n god-agored.

Ar y Wicipedia Cymraeg, defnyddir y porwr AWB (Auto Wiki Browser) gan ddefnyddwyr i gywiro iaith a chod.

Cyfeiriadau[golygu | golygu cod y dudalen]