Разыскиваются хорошие примеры реальных или реалистичных задач на кластеризацию, для составления упражнений по ним. Желательно по нескольким видам даже - например для K-means и кластеризации по плотности.

Пока что на ум пришло из популярного - построение групп на диаграмме цвета-светимости звёзд. Ну это по плотности - и я ещё пока в раздумьях как нагенерить данные входные похожие на настоящие smile

Разыскиваются хорошие примеры реальных или реалистичных задач на кластеризацию, для составления упражнений по ним. Желательно по нескольким видам даже - например для K-means и кластеризации по плотности. Пока что на ум пришло из популярного - построение групп на диаграмме цвета-светимости звёзд. Ну это по плотности - и я ещё пока в раздумьях как нагенерить данные входные похожие на настоящие :)

я ещё пока в раздумьях как нагенерить данные входные похожие на настоящие

Не обязательно генерить, можно взять настоящие отсюда http://classic.sdss.org/dr7/ - это снимок одной четверти звездного неба со всеми галактиками, звездами и т.п. Правда данных там очень много, поэтому сначала нужно будет сделать небольшую выборку, чтобы данные привести к пригодному для упражнений виду.
Кстати, узнал я про этот набор данных из статьи "A fast version of the k-means classification algorithm for astronomical applications" (ссылка) - она как раз про то, как применять k-means для астрономических данных.

Еще одно интересное применение k-means - для решения т.н. "Resource Allocation Problem". По имеющимся данным о количестве людей в том или ином районе нужно решить, где следует построить заводы, чтобы они были как можно ближе к потребителям.
Вот пример решения задачи: http://nbviewer.ipython.org/github/alexeygrigorev/notebooks/blob/master/studies/tub-ml1/sheet06-kmeans.ipynb

Для кластеризации по плотности и других типов сходу чего-то жизненного не получается придумать

> я ещё пока в раздумьях как нагенерить данные входные похожие на настоящие Не обязательно генерить, можно взять настоящие отсюда http://classic.sdss.org/dr7/ - это снимок одной четверти звездного неба со всеми галактиками, звездами и т.п. Правда данных там *очень* много, поэтому сначала нужно будет сделать небольшую выборку, чтобы данные привести к пригодному для упражнений виду. Кстати, узнал я про этот набор данных из статьи "A fast version of the k-means classification algorithm for astronomical applications" [(ссылка)](http://arxiv.org/abs/1404.3097) - она как раз про то, как применять k-means для астрономических данных. Еще одно интересное применение k-means - для решения т.н. "Resource Allocation Problem". По имеющимся данным о количестве людей в том или ином районе нужно решить, где следует построить заводы, чтобы они были как можно ближе к потребителям. Вот пример решения задачи: http://nbviewer.ipython.org/github/alexeygrigorev/notebooks/blob/master/studies/tub-ml1/sheet06-kmeans.ipynb Для кластеризации по плотности и других типов сходу чего-то жизненного не получается придумать
351
просмотров
1
ответов
1
подписчики
Предпросмотр
введите как минимим 10 characters
WARNING: You mentioned %MENTIONS%, but they cannot see this message and will not be notified
Сохраняю...
Сохранено
Все темы будут удалено ?
Сохранены неопубликованные черновики. Нажмите для продолжения редактирования
Discard draft