Вообще там довольно интересная ситуация с распознанием тональности.
Мы проделали такой опыт: выбирали термины из эталонных текстов, не запрещая стоп-слова (союзы, междометия, предлоги и прочее). Подсунули алгоритму самообучения, условно говоря, 100 положительных отзывов о телефонах и 100 негативных.
Оказалось, что если стоп-слова не выбрасывать из извлекаемого множества терминов при самообучении, то система засасывает в семантические ядра для определения негатива и позитива какие-то совершенно дикие конструкции, на вид совершенно нелепые. Но при этом точность распознавания отношения близка к 100%.
При этом распознающие термины часто вообще не содержат оценочных слов, а иногда - и ни одного значащего слова, только служебные слова, связки и т.п.
И тем не менее (или тем более) - отлично распознаёт негатив/позитив.
Например, при оценке мобильных телефонов конструкция "у меня уже месяц как" - однозначно позитивная, а "ну вот и" - однозначно негативная.
Понятно, почему: человек, сообщающий о своих негативном отношении, и форму выражения отношения (связки синтаксис, вводные конструкции) выбирает соответствующую, особую.
И в позитивных высказываниях - то же самое.
Так что, возможно, сарказм тоже можно распознать по форме, синтаксису, языковым инструментам - во многих случаях. Мы пока этого предположения не проверяли, потому что набрать эталонное множество обучения по сарказму не так просто - редок он на просторах.
А у нас других дел полно.
Щас - не щас, не имеет значения. Мало ли что вы нафантазируете в уме.
Вопрос в том, что там в блогах-форумах обычно пишут в реальной действительности, и как взвесить эти конструкции так, чтобы полнота и точность были максимальны.
Самообучение по эталонным текстам даёт вот такие конструкции. Будет больше текстов, термины и веса могут быть другие.
Технологию можно применить в любом случае, особенно если она работает и клиенты платят.
Работа с полными предложениями требует не ресурсов, а теории.