Přejít k obsahu


Sarcasm Detection on Czech and English Twitter

Citace:
HERCIG, T., HABERNAL, I., HONG, J. Sarcasm Detection on Czech and English Twitter. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers. neuveden: neuveden, 2014. s. 213-223. ISBN: 978-1-941643-26-6
Druh: STAŤ VE SBORNÍKU
Jazyk publikace: eng
Anglický název: Sarcasm Detection on Czech and English Twitter
Rok vydání: 2014
Místo konání: neuveden
Název zdroje: neuveden
Autoři: Ing. Tomáš Hercig , Ing. Ivan Habernal Ph.D. , Jun Hong
Abstrakt CZ: Tato práce představuje přístup pomocí strojového učení k detekci sarkasmu na Twitteru ve dvou jazycích – češtině a angličtině. Toto je první pokus o detekci sarkasmu v češtině. Vytvořený český Twitter korpus se skládá ze 7000 ručně označených tweetů a je poskytován komunitě. Jsou vyhodnoceny dva klasifikátory s různými kombinacemi příznaků na českém i anglickém korpusu. Problémy spojené s bohatou českou morfologií řešíme použitím různých metod předzpracování dat. Experimenty ukazují, že jazykově nezávislý přístup významně překonává přizpůsobené tzv. state-of-the-art metody v angličtině (F-measure 0.947) a představuje silný základ pro další výzkum v češtině (F-measure 0.582).
Abstrakt EN: This paper presents a machine learning approach to sarcasm detection on Twitter in two languages -- English and Czech. This is the first attempt at sarcasm detection in the Czech language. We created a large Czech Twitter corpus consisting of 7,000 manually-labelled tweets and provide it to the community. We evaluate two classifiers with various combinations of features on both the Czech and English datasets. Furthermore, we tackle the issues of rich Czech morphology by examining different pre-processing techniques. Experiments show that our language-independent approach significantly outperforms adapted state-of-the-art methods in English (F-measure 0.947) and also represents a strong baseline for further research in Czech (F-measure 0.582).
Klíčová slova

Zpět

Patička