Analisis ng pangunahing bahagi

Ang analisis ng pangunahing bahagi (Ingles: principal component analysis o PCA) ay isang pamamaraang matematikal na gumagamit ng ortogonal na transpormasyon upang ikonberte ang isang hanay ng mga obserbasyon ng posibleng magkakaugnay(correlated) na mga bariabulo sa isang hanay ng mga halaga ng linyar na hindi magkakakaugnay na mga bariabulong tinatawag na mga pangunahing bahagi(principal components). Ang bilang ng mga pangunahing bahagi ay mas maliit o katumbas ng bilang mga mga orihinal na bariabulo. Ang transpormasyon(pagbabagong) ito ay inilalarawan sa paraang ang unang pangunahing bahagi ay may pinakamalaking posibleng bariansa(na nagsasaalang-alang sa posibleng halos ng bariabilidad sa datos) at ang bawat sumusunod na bagi ang may pinakamataas namang posibleng bariansa sa ilalim ng pagtatakda(constraint) na ito ay ortogonal(i.e. walang kaugnayan) sa mga naunang bahagi. Ang mga pangunahing bahagi ay ginagarantiyang independeiyente(hindi nakabatay) lamang kung ang hanay ng datos ay magkasanib na normal na ipinamahagi. Ang PCA ay sensitibo sa relatibong pag-iiskala ng mga orihinal na bariabulo. Depende sa larangan ng aplikasyon, ito ay pinangalanan ring discrete Karhunen–Loève transform (KLT), Hotelling transform o proper orthogonal decomposition (POD).

Ang PCA ng isang multibariatong Gaussian na distribusyon na nakasentro sa (1,3) na may pamantayang paglihis na 3 sa tinatantiyang direksiyong (0.878, 0.478) at 1 sa direksiyong ortogonal. Ang mga bektor na ipanakita ang mga eigenbektor ng kobariansang matrix na iniskala ng ugat ng kwadrado ng tumutugong eigenhalaga at inilipat upang mga buntot nito ay nasa mean.

Ang PCA ay inimbento noong 1901 ni Karl Pearson.[1] Sa kasalukuyan, ito ay halos ginagamit bilang kasangkapan sa pagagalugad na analis ng datos(exploratory data analysis) at sa paggawa ng mga prediktibong mga modelo. Ang PCA ay maaaring gawin sa pamamagitan ng dekomposisyong eigenhalaga(eigenvalue decomposition) ng isang kobariansa ng datos(o korelasyong) matrix o singular na dekomposisyong halaga ng isang data matrix na karaniwang ay pagkatapos ng pagsesentro/paggigitna ng mean (at pagnonormalisa o paggamit ng mga iskor-na-Z) ng data matrix sa bawat katangian(attribute).[2]. Ang mga resulta ng isang PCA ay karaniwang tinatalakay sa termino ng mga iskor ng bahagi na minsang tinatawag na mga iskor na paktor(na tinranspormang mga halaga ng bariabulo na tumutugon sa isang partikular na punot ng datos) at mga pagkakarga(ang timbang kung saan ang bawat ginawang pamantayang orihinal na bariabulo ay dapat paramihin upang makuha ang iskor ng bahagi).[3]

Ang PCA ang pinakasimple sa totoong nakabatay sa eigenbektor na multibariatong mga analisis. Kalimitan, ang operasyon nito ay maaaring isipin na naghahayag ng panloob na istraktura ng datos sa paraang pinaka-mahusay na nagpapaliwanag ng bariansa sa mga datos(data). Kung ang isang hanay ng datos na multibariato ay titingnan bilang isang hanay ng mga koordinado sa isang mataas na dimensiyonal na espasyo ng data(1 aksis kada bariabulo), ang PCA ay maaaring magsuplay sa tagagamit ng isang mas mababang dimensiyonal na larawan na anino ng obhektong ito kapag titingnan mula(sa isang kahulugan) pinaka impormatibong pananaw nito. Ito ay ginagawa sa paggamit lamang ng unang ilang mga pangunahing bahagi upang ang dimensiyonalidad ng binagong datos ay napaliit.

Ang PCA ay malapit na kaugnay ng analisis ng paktor. Ang katunayan, ang ilang mga programang estadistikal ay sadyang pinagsasama ang mga paraang ito. Ang totoong analisis ng paktor ay gumagawa ng ibang mga pagpapalagay sa saligang istraktura at lumulutas sa mga eigenbektor ng medyo ibang matrix.

Mga sanggunian baguhin

  1. Pearson, K. (1901). "On Lines and Planes of Closest Fit to Systems of Points in Space" (PDF). Philosophical Magazine. 2 (6): 559–572. Inarkibo mula sa ang orihinal (PDF) noong 2018-06-22. Nakuha noong 2012-02-22.
  2. Abdi. H., & Williams, L.J. (2010). "Principal component analysis". Wiley Interdisciplinary Reviews: Computational Statistics,. 2: 433–459.{{cite journal}}: CS1 maint: extra punctuation (link) CS1 maint: multiple names: mga may-akda (link)
  3. Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-3408-0763-6.