Каким образом можно проверять документы на плагиат?

Каким образом можно проверять документы на плагиат?

Часто 100% плагиата нет, но обычно плагиатят кусочками – например, абзацами. Для этого берем базу с известным авторством, нарезаем документы на абзацы, а затем используем n-grams (n-shingles). После этого берем документ, нарезаем на абзацы и ищем похожие документы используя cosine или jaccard. Если коэффициент близок к 1 для какого-нибудь абзаца, то скорее всего плагиат.

Для ускорения этого всего обычно используют Locality-Sensitive Hashing, про него (для jaccard) хорошо написано в Mining Massive Datasets.

Часто 100% плагиата нет, но обычно плагиатят кусочками – например, абзацами. Для этого берем базу с известным авторством, нарезаем документы на абзацы, а затем используем n-grams (n-shingles). После этого берем документ, нарезаем на абзацы и ищем похожие документы используя cosine или jaccard. Если коэффициент близок к 1 для какого-нибудь абзаца, то скорее всего плагиат. Для ускорения этого всего обычно используют Locality-Sensitive Hashing, про него (для jaccard) хорошо написано в Mining Massive Datasets.
179
просмотров
2
ответов
1
подписчики
Предпросмотр
введите как минимим 10 characters
WARNING: You mentioned %MENTIONS%, but they cannot see this message and will not be notified
Сохраняю...
Сохранено
Все темы будут удалено ?
Сохранены неопубликованные черновики. Нажмите для продолжения редактирования
Discard draft