Přejít k obsahu


Unsupervised Methods to Improve Aspect-Based Sentiment Analysis in Czech

Citace:
HERCIG, T., BRYCHCÍN, T., SVOBODA, L., KONKOL, M., STEINBERGER, J. Unsupervised Methods to Improve Aspect-Based Sentiment Analysis in Czech. Computación y Sistemas, 2016, roč. 20, č. 3, s. 365-375. ISSN: 1405-5546
Druh: ČLÁNEK
Jazyk publikace: eng
Anglický název: Unsupervised Methods to Improve Aspect-Based Sentiment Analysis in Czech
Rok vydání: 2016
Autoři: Ing. Tomáš Hercig , Ing. Tomáš Brychcín Ph.D. , Ing. Lukáš Svoboda , Ing. Michal Konkol Ph.D. , Doc. Ing. Josef Steinberger Ph.D. ,
Abstrakt CZ: Článek zkoumá efektivitu vybraných metod pro nalezení distribuční sémantiky trénovaných bez učitele při jejich použití jako příznaky pro aspektově-orientovanou analýzu sentimentu. Používáme definici úlohy z workshopu SemEval 2014. V experimentech používáme označené a neoznačené korpusy z domény restaurací ve dvou jazycích: češtině a angličtině. Článek ukazuje, že použité modely zlepšují výsledky této úlohy a proto je tento přístup hoden dalšího zkoumání. Dále článek posouvá stav poznání v této úloze pro český jazyk. Dalším významným přínosem této práce je vytvoření dvou nových českých korpusů v doméně restaurací pro daný úkol ABSA: jeden označený pro trénování s učitelem, a druhý (podstatně větší) neznačený pro trénování bez učitele. Tyto korpusy jsou dostupné pro výzkumnou komunitu
Abstrakt EN: We examine the effectiveness of several unsupervised methods for latent semantics discovery as features for aspect-based sentiment analysis (ABSA). We use the shared task definition from SemEval 2014. In our experiments we use labeled and unlabeled corpora within the restaurants domain for two languages: Czech and English. We show that our models improve the ABSA performance and prove that our approach is worth exploring. Moreover, we achieve new state-of-the-art results for Czech. Another important contribution of our work is that we created two new Czech corpora within the restaurant domain for the ABSA task: one labeled for supervised training, and the other (considerably larger) unlabeled for unsupervised training. The corpora are available to the research community
Klíčová slova

Zpět

Patička