Přejít k obsahu


Sentiment Analysis in Czech Social Media Using Supervised Machine Learning

Citace:
HABERNAL, I., PTÁČEK, T., STEINBERGER, J. Sentiment Analysis in Czech Social Media Using Supervised Machine Learning. In Proceedings of the 4th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis. Atlanta: Association for Computational Linguistics, 2013. s. 65-74. ISBN: 978-1-937284-47-3
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Sentiment Analysis in Czech Social Media Using Supervised Machine Learning
Rok vydání: 2013
Místo konání: Atlanta
Název zdroje: Association for Computational Linguistics
Autoři: Ing. Ivan Habernal Ph.D. , Ing. Tomáš Ptáček , Doc. Ing. Josef Steinberger Ph.D.
Abstrakt CZ: Tento článek zkoumá metody strojového učení pro analýzu sentimentu českých sociálních médií. Zatímco v angličtině, čínštině, nebo španělštině má tento výzkum dlouhou historii a dostupná data, v případě českého jazyka dosud systematicky prováděný výzkum neexistuje. V článku zkoumáme různé předzpracování techniky a různé příznaky a klasifikátory. Kromě naší nově vzniklé sady dat pro sociální média také měříme výsledky na jiných široce populárních oblastech, jako je hodnocení filmů a produktů.
Abstrakt EN: This article provides an in-depth research of machine learning methods for sentiment analysis of Czech social media. Whereas in English, Chinese, or Spanish this field has a long history and evaluation datasets for various domains are widely available, in case of Czech language there has not yet been any systematical research conducted. We tackle this issue and establish a common ground for further research by providing a large human-annotated Czech social media corpus. Furthermore, we evaluate state-of-the-art supervised machine learning methods for sentiment analysis. We explore different pre-processing techniques and employ various features and classifiers. Moreover, in addition to our newly created social media dataset, we also report results on other widely popular domains, such as movie and product reviews. We believe that this article will not only extend the current sentiment analysis research to another family of languages, but will also encourage competition which potentially leads to the production of high-end commercial solutions.
Klíčová slova

Zpět

Patička