Tagagamit:Keith arano/burador
Ang Maramihang Modalidad na Pagsusuri ng Damdamin ay isang bagong sangay ng tradisyunal na Pagsusuri ng Damdamin (Ingles: sentiment analysis), na hindi lamang limitado sa pagsusuri ng mga teksto, kung hindi sangkop din ang iba pang modalidad gaya ng audio at visual na datos.[1] Ito ay maaaring maging bimodal, kung saan ang kumbinasyon ng dalawang modalidad ang kasama sa pagsusuri, o di kaya trimodal, kung saan naman tatlong uri ng modalidad ang kalakip.[2] Sa malawak na sukat ng mga datos mula sa mga iba't ibang plataporma ng social media, sa sari saring modalidad gaya na lamang ng mga larawan o di kaya mga videos, ang tradisyunal na Pagsusuri ng Damdamin ay nagpatuloy sa mas kumplikadong modelo ng Maramihang Modalidad na Pagsusuri ng Damdamin[3], kung saan ito ay maaaring gamitin sa pag-unlad ng virtual assistants[4], pagsusuri ng mga reaksyon sa pelikula mula sa YouTube videos[5], pagsusuri ng mga videos tungkol sa balita[6], at sa paksa ng emotion recognition kagaya na lamang ng pagsubaybay sa depresyon [7], bukod sa iba pa.
Halintulad sa tradisyunal na Pagsusuri ng Damdamin, isa sa mga pinakasimpleng gawain sa Maramihang Modalidad na Pagsusuri ng Damdamin ay ang pag-uuri ng damdamin, kung saan ang iba't ibang klase ng damdamin ay inuuri kung ito ba ay positibo, negatibo, o walang pinapanigan.[8]. Ang mataas na lebel ng kumplikasyon ng pagsusuri ng mga tampok ng teksto, audio, at video, ay kinakailangan ng iba't ibang klase ng pagsasanib gaya ng feature-level, decision-level, at hybrid na pagsasanib.[3]. Ang katumpakan ng mga nabanggit na taktika ng pagsasanib, at maging ang tagumpay ng isang algoritmo sa klasipikasyon ng mga damdamin, ay naaapektuhan ng tamang pagpili ng tampok ng teksto, audio, at video na gagamitin sa pagsusuri.[9]
Tampok
baguhinAng feature engineering, kung saan ang wastong pagpili ng mga tampok na gagamitin sa mga algoritmo ng pagkatuto ng makina (Ingles: machine learning), ay importante sa pagkamit ng isang matagumpay na pagsusuri.[9]. Sa Maramihang Modalidad na Pagsusuri ng Damdamin, iba't ibang kumbinasyon ng tampok mula sa teksto, audio, at video, ang kadalasang ginagamit.[3]
Tampok na Teksto
baguhinGaya ng tradisyunal na Pagsusuri ng Damdamin, ang ilan sa mga pinaka-karaniwang ginagamit na tampok na teksto sa Maramihang Modalidad na Pagsusuri ng Damdamin ay ang unigrams at n-grams, na ang ibig sabihin ay ang pagkakasunod-sunod ng mga salita sa isang tekstuwal na dokumento.[10]. Ang mga tampok na ito ay inilalapat gamit ang bag-of-words o di kaya ang bag-of-concepts, kung saan ang mga salita o konsepto ay kinakatawan bilang mga espasyong bektor.[11][12]
Tampok na Audio
baguhinAng mga katangian ng damdamin at emosyon ay kitang kita sa iba't ibang phonetic at prosodic na katangian na kinakatawan ng tampok na audio.[13]. Ang ilan sa mga pinakamahahalagang tampok sa audio na ginagamit sa Maramihang Modalidad na Pagsusuri ng Damdamin ay ang mel-frequency cepstrum (MFCC), spectral centroid, spectral flux, beat histogram, kabuuan ng beat, pinakamalakas na beat, tagal ng paghinto, at tono (Ingles: pitch).[3] Ang OpenSMILE[14] at Praat ay ilan sa mga sikat na kagamitan para sa pagkuha ng mga nabanggit na mga tampok ng audio.[15]
Tampok na Video
baguhinIsa sa mga pangunahing bentahe ng pag-aaral ng mga video kumpara sa mga teksto lamang, ay ang pagkakaroon ng mga makabuluhang damdamin na mga pahiwatig sa visual na datos.[16] Kabilang sa mga visual na tampok ay ang facial expression, na nagbabahagi ng mga pangunahing mga palatandaan ng pag-unawa ng damdamin at emosyon, dahil ang mga ito ay matuturing na pangunahing daluyan ng pagbabalangkas ng kasalukuyang kalagayan ng isip ng isang tao.[3] Sa partikular, ang ngiti, ay itinuturing na isa sa mga pinakamahusay na visual na pahiwatig sa Maramihang Modalidad na Pagsusuri ng Damdamin.[11] Ang OpenFace ay isang libre na instrumento sa pagtatasa na magagamit para sa pagkuha at pag-unawa ng gayong mga visual na tampok.[17]
Taktika ng Pagsasanib
baguhinHindi tulad ng tradisyunal na Pagsusuri ng Damdamin, ang Maramihang Modalidad na Pagsusuri ng Damdamin, ay sumasailalim sa isang proseso ng pagsasanib na kung saan ang datos mula sa iba't ibang modalidad (teksto, audio, o visual) ay pinagsasama at sinusuri ng sama-sama.[3] Ang umiiral na mga pamamaraan sa pagsasanib ng mga tampok hango sa iba't ibang modalidad, ay maaaring maangkop sa tatlong pangunahing mga kategorya: feature-level, decision-level, at hybrid na pagsasanib, at ang pinal na resulta ng pag-uuri ng damdamin ay nakasalalay sa kung anong uri ng pamamaraan ng pagsasanib ang ginagamit.[3]
Feature-level na Pagsasanib
baguhinAng feature-level na pagsasanib (minsan ay kilala bilang maagang pagsasanib), ay nangangalap ng lahat ng mga tampok mula sa lahat ng modalidad (teksto, audio, o visual) at isinasama ang lahat ng mga ito sa isang espasyong bektor, na sa huli ay ginagamit ng sabay sabay sa isang algoritmo ng pagkatuto ng makina .[18] Isa sa mga kahirapan sa pagpapatupad ng pamamaraan na ito ay ang pagsasama ng magkakaiba na mga tampok mula sa modalidad ng teksto, audio, at visual.[3]
Decision-level na Pagsasanib
baguhinAng decision-level na pagsasanib (minsan na kilala bilang huling pagsasanib), ay indibidual na ginagamit ang mga datos mula sa bawat modalidad (teksto, audio, o visual) sa sarili nitong angkop na algoritmo ng pagkatuto ng makina, at ang pinal na resulta ng pag-uuri ng damdamin ay nakakamit sa pamamagitan ng pagsasanib ng bawat resulta sa isang espasyong bektor.[18] Ang isa sa mga bentahe ng pamamaraan ng pagsasanib na ito ay inaalis nito ang pangangailangan sa pagsasama ng magkakaibang datos, at ang bawat modalidad ay maaaring magamit ang pinaka angkop na algoritmo ng pag-uuri.[3]
Hybrid na Pagsasanib
baguhinAng hybrid na pagsasanib ay isang kumbinasyon ng feature-level at decision-level na pagsasanib, na nagsasamantala ng mga komplimentaryong impormasyon mula sa parehong pamamaraan.[5] Kadalasan ito ay nagsasangkot ng dalawang hakbang na pamamaraan kung saan ang fusion-level ay unang isinagawa sa pagitan ng dalawang modalidad, at pagkatapos ay inilalapat ang decision-level bilang pangalawang hakbang, upang pagsamahin ang mga unang resulta mula sa fusion-level at ang mga natitirang tampok mula sa iba pang modalidad.[19][20]
Mga Paggamit
baguhinKatulad ng tradisyunal na Pagsusuri ng Damdamin na nakabatay sa teksto, maaaring ipataw ang Maramihang Modalidad na Pagsusuri ng Damdamin sa pagpapaunlad ng iba't ibang anyo ng recommender system tulad ng sa pagtatasa ng mga video patungkol sa pagsusuri ng mga pelikula[5] at sa mga pagsusuri ng iba't ibang uri ng produkto[21], upang wastong mahulaan ang damdamin ng mga mamimili, at pagkatapos ay makalikha ng mga rekomendasyon ng produkto o serbisyo.[22] Ang Maramihang Modalidad na Pagsusuri ng Damdamin ay may mahalagang papel sa pagsulong ng virtual assistant sa pamamagitan ng aplikasyon ng mga taktika ng natural language processing (NLP) at pagkatuto ng makina.[4] Sa saklaw ng pangangalagang pangkalusugan, ang Maramihang Modalidad na Pagsusuri ng Damdamin ay maaaring magamit upang matuklasan ang ilang mga kondisyong medikal katulad na lamang ng sikolohikal na pagod, pagkabalisa, o depresyon.[7] Ang Maramihang Modalidad na Pagsusuri ng Damdamin ay maaari ring magamit sa pag-unawa sa damdamin na nakapaloob sa mga programa ng balita sa telebisyon, na kung saan ay itinuturing na isang komplikado at mapaghamong saklaw, dahil ang mga pagpapahayag ng mga tagapag-ulat ay kadalasang walang ipinapahiwatig na emosyon o damdamin.[23]
Mga Sanggunian
baguhin- ↑ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (Setyembre 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (Setyembre 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ 4.0 4.1 "Google AI to make phone calls for you". BBC News. 8 Mayo 2018. Nakuha noong 12 Hunyo 2018.
{{cite web}}
: CS1 maint: date auto-translated (link) - ↑ 5.0 5.1 5.2 Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (Mayo 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Pereira, Moisés H. R.; Pádua, Flávio L. C.; Pereira, Adriano C. M.; Benevenuto, Fabrício; Dalip, Daniel H. (9 Abril 2016). "Fusing Audio, Textual and Visual Features for Sentiment Analysis of News Videos". arXiv:1604.02612 [cs].
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ 7.0 7.1 Zucco, Chiara; Calabrese, Barbara; Cannataro, Mario (Nobyembre 2017). "Sentiment analysis and affective computing for depression monitoring". 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM) (sa wikang Ingles). IEEE: 1988–1995. doi:10.1109/bibm.2017.8217966.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Pang, Bo; Lee, Lillian (2008). Opinion mining and sentiment analysis. Hanover, MA: Now Publishers. ISBN 1601981503.
{{cite book}}
: CS1 maint: date auto-translated (link) - ↑ 9.0 9.1 Sun, Shiliang; Luo, Chen; Chen, Junyu (Hulyo 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 Mayo 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ 11.0 11.1 Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (Mayo 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (Marso 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Chung-Hsien Wu; Wei-Bin Liang (Enero 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Eyben, Florian; Wöllmer, Martin; Schuller, Björn (2009). "OpenEAR — Introducing the munich open-source emotion and affect recognition toolkit - IEEE Conference Publication". ieeexplore.ieee.org. doi:10.1109/ACII.2009.5349350.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Morency, Louis-Philippe; Mihalcea, Rada; Doshi, Payal (14 Nobyembre 2011). "Towards multimodal sentiment analysis: harvesting opinions from the web". ACM: 169–176. doi:10.1145/2070481.2070509.
{{cite journal}}
: Cite journal requires|journal=
(tulong)CS1 maint: date auto-translated (link) - ↑ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics. doi:10.18653/v1/p17-1081.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". ieeexplore.ieee.org.
- ↑ 18.0 18.1 Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (Enero 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". ieeexplore.ieee.org.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (Oktubre 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 Enero 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
{{cite journal}}
: CS1 maint: date auto-translated (link) - ↑ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (sa wikang Ingles). McKinsey & Company. Nakuha noong 13 Hunyo 2018.
{{cite web}}
: CS1 maint: date auto-translated (link) - ↑ Ellis, Joseph G.; Jou, Brendan; Chang, Shih-Fu (12 Nobyembre 2014). "Why We Watch the News: A Dataset for Exploring Sentiment in Broadcast Video News". ACM: 104–111. doi:10.1145/2663204.2663237.
{{cite journal}}
: Cite journal requires|journal=
(tulong)CS1 maint: date auto-translated (link)