Имеется список статей про разных людей из википедии - про ученых, художников, полководцев, их жен и пр. Есть желание каким-либо образом определить деятельность, которой эти люди занимаются. И на текущий момент я плохо представляю как это делать.

Можно было бы попробовать KNN, поклассифицировать и посмотреть, что будет. Можно посчитать tf/idf для слов в статьях, отфильтровать неважные и классифицировать их. Можно было бы взять полный список деятельностей (наук, например) и использовать примитивную фильтрацию.

Вопрос в том, с чего начать и куда двигаться? В принципе, есть интерес к machine learning'у, время никуда не торопит (это мое хобби, что-ли - не курсовая или диплом), но отсутствует понимание, как задачу из предметной области привести к какой-либо известной теоретически решенной проблеме.

Заранее благодарю за помощь.

Имеется список статей про разных людей из википедии - про ученых, художников, полководцев, их жен и пр. Есть желание каким-либо образом определить деятельность, которой эти люди занимаются. И на текущий момент я плохо представляю как это делать. Можно было бы попробовать KNN, поклассифицировать и посмотреть, что будет. Можно посчитать tf/idf для слов в статьях, отфильтровать неважные и классифицировать их. Можно было бы взять полный список деятельностей (наук, например) и использовать примитивную фильтрацию. Вопрос в том, с чего начать и куда двигаться? В принципе, есть интерес к machine learning'у, время никуда не торопит (это мое хобби, что-ли - не курсовая или диплом), но отсутствует понимание, как задачу из предметной области привести к какой-либо известной теоретически решенной проблеме. Заранее благодарю за помощь.

Можно было бы попробовать KNN, поклассифицировать и посмотреть, что будет. Можно посчитать tf/idf для слов в статьях, отфильтровать неважные и классифицировать их. Можно было бы взять полный список деятельностей (наук, например) и использовать примитивную фильтрацию.

Я думаю, что это правильный подход. В статьях википедии достаточно большое количество мета-информации, в том числе категории. Например, у статьи про А. Эйнштейна категории "Математики" и "Физики" - можно использовать их. В теме по соседству я писал, как можно извлечь информацию о категориях с помощью MediaWiki API, но так же можно извлечь эту информацию напрямую из вики текста.

Первым делом я бы смотрел, как среди кучи категорий выбрать нужную, потому что для большинство алгоритмов классификации нужно, чтобы статья была только в одной категории.

Затем, когда все интересующие статьи категоризованы, можно использовать, например, Bag of Word для представления документов (и, например, используя TF-IDF, фильтрацию стоп-слов и т.п.), а потом натренировать классификатор, KNN, Naive Bayes или SVM.

Я думаю, что это может дать достаточно большую точность.

> Можно было бы попробовать KNN, поклассифицировать и посмотреть, что будет. Можно посчитать tf/idf для слов в статьях, отфильтровать неважные и классифицировать их. Можно было бы взять полный список деятельностей (наук, например) и использовать примитивную фильтрацию. Я думаю, что это правильный подход. В статьях википедии достаточно большое количество мета-информации, в том числе категории. Например, у статьи про [А. Эйнштейна](https://ru.wikipedia.org/wiki/%D0%AD%D0%B9%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD,_%D0%90%D0%BB%D1%8C%D0%B1%D0%B5%D1%80%D1%82) категории "Математики" и "Физики" - можно использовать их. В [теме по соседству](http://datatalks.ru/topic/50/) я писал, как можно извлечь информацию о категориях с помощью MediaWiki API, но так же можно извлечь эту информацию напрямую из вики текста. Первым делом я бы смотрел, как среди кучи категорий выбрать нужную, потому что для большинство алгоритмов классификации нужно, чтобы статья была только в одной категории. Затем, когда все интересующие статьи категоризованы, можно использовать, например, Bag of Word для представления документов (и, например, используя TF-IDF, фильтрацию стоп-слов и т.п.), а потом натренировать классификатор, KNN, Naive Bayes или SVM. Я думаю, что это может дать достаточно большую точность.

Еще, в этой статье про Naive Bayes на Apache Flink вы можете найти полезную инофрмацию про классификацию текста

Еще, в этой статье про [Naive Bayes на Apache Flink](http://www.itshared.org/2015/03/naive-bayes-on-apache-flink.html) вы можете найти полезную инофрмацию про классификацию текста

За категории спасибо, не замечал их. Создается впечатление, что если применить tf / idf к словам из списка категорий и оставить самые важные, то классификация будет уже не нужна.

К сожалению, не могу выбрать только одну категорию: интересуют как раз несколько. Но поскольку сама по себе классификация мне может не понадобиться, то способ может подойти.

За советы спасибо!

За категории спасибо, не замечал их. Создается впечатление, что если применить tf / idf к словам из списка категорий и оставить самые важные, то классификация будет уже не нужна. К сожалению, не могу выбрать только одну категорию: интересуют как раз несколько. Но поскольку сама по себе классификация мне может не понадобиться, то способ может подойти. За советы спасибо!

Всегда пожалуйста!

приходите еще smile

Всегда пожалуйста! приходите еще :)
204
просмотров
4
ответов
2
подписчики
Предпросмотр
введите как минимим 10 characters
WARNING: You mentioned %MENTIONS%, but they cannot see this message and will not be notified
Сохраняю...
Сохранено
Все темы будут удалено ?
Сохранены неопубликованные черновики. Нажмите для продолжения редактирования
Discard draft