Каким образом можно найти темы и категории в текстовой базе данных?

Каким образом можно найти темы и категории в текстовой базе данных?

Самый простой способ - это применение Latent Semantic Analysis, а потом K-Means. Реализацию на sklearn можно посмотреть тут

вот пример извлеченных топиков с помощью LSA на 20 newsgroups:

  1. space shuttle alaska edu nasa moon launch orbit henry sci
  2. edu game team games year ca university players hockey baseball
  3. sale 00 edu 10 offer new distribution subject lines shipping
  4. israel israeli jews arab jewish arabs edu jake peace israelis
  5. cmu andrew org com stratus edu mellon carnegie pittsburgh pa
  6. god jesus christian bible church christ christians people edu believe
  7. drive scsi card edu mac disk ide bus pc apple
  8. com ca hp subject edu lines organization writes article like
  9. car cars com edu engine ford new dealer just oil
  10. sun monitor com video edu vga east card monitors microsystems
  11. nasa gov jpl larc gsfc jsc center fnal article writes
  12. windows dos file edu ms files program os com use
  13. netcom com edu cramer fbi sandvik 408 writes article people
  14. armenian turkish armenians armenia serdar argic turks turkey genocide soviet
  15. uiuc cso edu illinois urbana uxa university writes news cobb
  16. edu cs university posting host nntp state subject organization lines
  17. uk ac window mit server lines subject university com edu
  18. caltech edu keith gatech technology institute prism morality sgi livesey
  19. key clipper chip encryption com keys escrow government algorithm des
  20. people edu gun com government don like think just access

 

Так же неплохие результаты показывает Non-Negative Matrix Factorization, пример на sklearn тут. NMF отличается от LSA тем, что не нужно дополнительно запускать k-means, т.к. результаты NMF можно напрямую интерпретировать, как кластеризацию.

Самый простой способ - это применение [Latent Semantic Analysis](https://en.wikipedia.org/wiki/Latent_semantic_analysis), а потом [K-Means](https://en.wikipedia.org/wiki/K-means_clustering). Реализацию на sklearn можно посмотреть [тут](https://github.com/scikit-learn/scikit-learn/blob/master/examples/text/document_clustering.py) вот пример извлеченных топиков с помощью LSA на 20 newsgroups: 1. space shuttle alaska edu nasa moon launch orbit henry sci 1. edu game team games year ca university players hockey baseball 1. sale 00 edu 10 offer new distribution subject lines shipping 1. israel israeli jews arab jewish arabs edu jake peace israelis 1. cmu andrew org com stratus edu mellon carnegie pittsburgh pa 1. god jesus christian bible church christ christians people edu believe 1. drive scsi card edu mac disk ide bus pc apple 1. com ca hp subject edu lines organization writes article like 1. car cars com edu engine ford new dealer just oil 1. sun monitor com video edu vga east card monitors microsystems 1. nasa gov jpl larc gsfc jsc center fnal article writes 1. windows dos file edu ms files program os com use 1. netcom com edu cramer fbi sandvik 408 writes article people 1. armenian turkish armenians armenia serdar argic turks turkey genocide soviet 1. uiuc cso edu illinois urbana uxa university writes news cobb 1. edu cs university posting host nntp state subject organization lines 1. uk ac window mit server lines subject university com edu 1. caltech edu keith gatech technology institute prism morality sgi livesey 1. key clipper chip encryption com keys escrow government algorithm des 1. people edu gun com government don like think just access   Так же неплохие результаты показывает [Non-Negative Matrix Factorization](https://en.wikipedia.org/wiki/Non-negative_matrix_factorization), пример на sklearn [тут](http://scikit-learn.org/stable/auto_examples/applications/topics_extraction_with_nmf.html). NMF отличается от LSA тем, что не нужно дополнительно запускать k-means, т.к. результаты NMF можно напрямую интерпретировать, как кластеризацию.
92
просмотров
1
ответов
1
подписчики
Предпросмотр
введите как минимим 10 characters
WARNING: You mentioned %MENTIONS%, but they cannot see this message and will not be notified
Сохраняю...
Сохранено
Все темы будут удалено ?
Сохранены неопубликованные черновики. Нажмите для продолжения редактирования
Discard draft