НОВОСТИ Анализ тональности фраз с помощью нейронных сетей

BDFINFO2.0
Оффлайн
Регистрация
14.05.16
Сообщения
11.398
Реакции
501
Репутация
0
Всем привет!

Все люди, получающие высшее образование, не отчислившись, все-таки доходят до стадии написания диплома. Не стал исключением и я. Хотелось реализовать что-то интересное и освоить доселе неизученное, поэтому обратил внимание на тему нейронных сетей и искусственного интеллекта в целом. А задачей, которую я решал с помощью нее, является анализ тональности текста, что и так широко применятся в различных системах мониторинга. Процесс ее решения я и попытаюсь описать в данной статье.
Короче говоря, цель — понять присутствует ли у фразы положительный оттенок или отрицательный. Сразу хочу сказать, что эту задачу можно решать несколькими способами, и не только нейросетями. Можем составлять словари в которых отмечены позиции слов и т.д. (все методы есть на хабре в избытке), но на каждый способов может уйти еще по статье, поэтому оставим их обзор на потом.

Данные


Первой задачей на моем пути оказался сбор и предобработка данных для обучения. Хорошим датасетом для такого дела является корпус Рубцовой Ю., предварительно разделенный на негативные и позитивные предложения, собранные на просторах Твиттера. Что особенно удобно — все это существует в формате CSV.

Подготовка к обучению


Обратите внимание, в каком виде представлены данные — куча смайликов, ссылок, ненужных символов, обращений. Все это не является важной информацией и только мешает обучению, к тому же надо убрать все на латинице. Поэтому текст хорошо бы предобработать.

 
Сверху Снизу