Deddf Zipf
Enghraifft o: | theorem, dosbarthiad tebygolrwydd ![]() |
---|---|
![]() |
Mae Deddf Zipf yn arsylwad empirig sy'n ymwneud â phatrwm neilltuol sydd i'w gael mewn rhai mathau o ddata ystadegol. Ceir yr enghraifft fwyaf adnabyddus o'r ddeddf ym maes ieithyddiaeth, ond fe'i defnyddiwyd hefyd mewn amrywiol wyddorau cymdeithasol a gwyddorau naturiol eraill. Mae'r ddeddf wedi'i henwi ar ôl George Kingsley Zipf (1902-1950), a'i lluniodd yn y 1930au, er bod rhywrai wedi sylwi ar y ffenomen cyn hynny.[1]
Mae'r enghraifft fwyaf adnabyddus o Ddeddf Zipf yn ymwneud ag amlder geiriau mewn testun neu gorpws o iaith naturiol. Os cymerir sampl o destun mewn iaith naturiol, ar yr amod nad yw'n rhy fyr, yna mae'r canlynol yn debygol o fod yn wir. Os bydd y gwahanol eiriau yn y testun yn cael eu graddio yn ôl pa mor aml y digwyddant ynddo, ac yn cael eu gosod mewn trefn yn ôl pa mor aml y maent yn digwydd, bydd y patrwm canlynol yn dod i'r amlwg yn gyffredinol:
- Ceir y gair a ymddengys yn yr ail safle yn y rhestr tua hanner mor aml â'r gair yn y safle cyntaf.
- Ceir y gair a ymddengys yn y trydydd safle yn y rhestr tua thraean mor aml â'r gair yn y safle cyntaf.
- Ac yn y blaen. Sef, ymddengys y gair yn safle n yn y rhestr tua 1/n gwaith mor aml â'r gair yn y safle cyntaf.
Mewn termau mwy ffurfiol:
Dywedir bod dosraniad o'r math hwn yn cydymffurfio â Deddf Zipf. Ymddengys fod y patrwm hwn yn wir ni waeth beth fo hyd neu deithi'r testun, boed yn baragraff mewn llyfr hanes, yn bennod mewn nofel, yn erthygl mewn papur newydd, neu'n wyddoniadur cyfan.
Mynegiant mwy manwl gywir o'r egwyddor yw Deddf Zipf–Mandelbrot:
lle mae a yn baramedrau cymwys: ;
Y Ddeddf a'r Gymraeg
[golygu | golygu cod]Am gymhwysiad Deddf Zipf i'r Gymraeg gweler yr erthygl "O sero i dri chant" (2024) gan Fitzpatrick a Morris,[2] sef astudiaeth o'r 300 o eiriau Cymraeg a ddefnyddir amlaf. Dywed yr awduron:
canfyddwn fod y 500 gair a ddefnyddir amlaf yn y Gymraeg yn cwmpasu 71% o gynnwys y Corpws Cenedlaethol Cymraeg Cyfoes (CorCenCC).[3] Fel y nodwyd uchod yng nghyd-destun deddf Zipf, daw’r budd mwyaf o ran cwmpas o’r geiriau a ddefnyddir amlaf; yn wir, canfyddwn fod y 300 gair a ddefnyddir amlaf yn y Gymraeg yn cwmpasu 65% o CorCenCC.
Gweler hefyd
[golygu | golygu cod]Cyfeiriadau
[golygu | golygu cod]- ↑ "Zipf law", Encyclopedia of Mathematics; adalwyd 18 Mawrth 2025
- ↑ Tess Fitzpatrick a Steve Morris, "'O sero i dri chant': technegau caffael dwys ar gyfer y 300 gair cynnwys a ddefnyddir amlaf yn y Gymraeg" Gwerddon 38 (2024)
- ↑ Corpws Cenedlaethol Cymraeg Cyfoes, adalwyd 15 Mawrth 2025