антиплагиат доля в тексте доля в отчете что значит
Скачать руководство пользователяРуководство студента корпоративной версии системы «Антиплагиат.ВУЗ»
Данное руководство предназначено для ознакомления со средствами работы в системе «Антиплагиат».
Руководство содержит информацию о назначении, возможностях, особенностях функционирования системы, а также описание действий, обеспечивающих проверку текстовых документов на наличие заимствований.
Термины и определения
Онлайн инструмент работы с текстовыми документами с пользовательским интерфейсом на web-сайте.
Фрагмент текста проверяемого документа, совпадающий или почти совпадающий с фрагментом текста источника и не оформленный в соответствии с правилами цитирования, без приведения полной библиографической информации об источнике.
Фрагмент текста проверяемого документа, совпадающий или почти совпадающий с фрагментом текста источника, автором или соавтором которого является автор проверяемого документа.
Фрагмент текста проверяемого документа, совпадающий или почти совпадающий с фрагментом текста источника и оформленный в соответствии с правилами цитирования, с полной библиографической информацией об источнике. Также к цитированиям относятся общеупотребительные выражения, библиографический список, фрагменты текста, найденные в источниках из коллекций нормативно-правовой документации.
Доля всех найденных заимствований по отношению к общему объему документа в символах.
Доля всех найденных самоцитирований по отношению к общему объему документа в символах.
Доля найденных цитирований по отношению к общему объему документа в символах.
Доля фрагментов текста проверяемого документа, не обнаруженных ни в одном источнике, по которым шла проверка, по отношению к общему объему документа в символах.
Результат проверки текста на наличие заимствований:
Отношение объема заимствований, которое учитывается в рамках данного источника, к общему объему документа. Eсли один и тот же текст был найден в нескольких источниках, учитывается он только в одном из них.
Отношение объема заимствованного текста по данному источнику к общему объему документа. Доли в тексте по источникам не суммируются.
Количество блоков заимствования из источника с учетом пересечений всех найденных источников.
Количество блоков заимствования из источника без учета других найденных источников.
Программный модуль, реализующий поиск заимствований. Модуль использует поисковый индекс или специальный вычислительный алгоритм для построения отчетов. В системе может быть несколько модулей. После получения доступа к нескольким модулям поиска предоставляется возможность проводить проверки, строить как отдельные отчеты, так и единый отчет по всем модулям поиска.
Некоторые модули выполняют поиск по специализированным базам данных со слепками текстов документов-источников, но получение доступа к выбранному модулю поиска не означает получение доступа к полным текстам документов, которые может найти этот модуль. В получаемых отчетах будут указаны ссылки на документы (их названия также будут даны), а при просмотре текста источника, в нем будут приведены совпадающие с проверяемым документом фрагменты.
Программное обеспечение, позволяющее пользователям просматривать страницы сайтов интернета, а также получать доступ к файлам и программному обеспечению, связанным с этими страницами. Например, Internet Explorer, Google Chrome и т.д.
Семантические характеристики для каждого загружаемого документа.
Назначение и условия применения
Сервис предназначен для проверки текстовых документов на наличие заимствований. В результате проверки пользователи получают отчеты о проверке. В отчете содержится информация об источниках и показателях заимствования по источникам, а также детальная информация с указанием тех фрагментов проверяемого документа, которые были идентифицированы как заимствования. Идентификация сопровождается предъявлением совпадающего фрагмента текста источника заимствования и/или приведением ссылки на оригинал (URL). В результате проверки документа пользователю предоставляется информация, помогающая определить, какая часть документа написана самостоятельно, а какая – заимствована.
Для использования сервиса вам необходимо:
Результаты работы с системой «Антиплагиат» не являются основанием для заявлений о нарушениях авторского права, сервис направлен на использование исключительно в информационных целях. Другими словами, мы не заявляем о том, что тот или иной текст является плагиатом, а лишь информируем вас о наличии одинакового или похожего фрагмента текста. Не исключено, что при работе с сервисом вы обнаружите текст с копированным фрагментом из других источников, в том числе не исключается возможность, что загруженный вами документ является первоисточником. В любом случае при работе с сервисом будьте аккуратны, старайтесь быть объективными и не спешите с выводами. Помните, что сервис – это лишь инструмент работы, и реальную оценку документу может дать только сам пользователь системы.
Подготовка к работе
Рабочее место
Для подготовки рабочего места при работе с системой «Антиплагиат» достаточно открыть браузер. Для работы с сервисом могут быть использованы браузеры наиболее распространенных типов, таких как MS Internet Explorer версии 11 и выше, Mozilla Firefox версии 58 и выше, Opera версии 51 и выше, Chrome версии 64 и выше.
Для начала работы перейдите на сайт сервиса, введя в адресную строку браузера адрес веб-сайта системы.
Итак, мы имеем готовое рабочее место:
Вход и выход из системы
Для доступа в систему воспользуйтесь формой входа, для этого нажмите на ссылку «Войти» в правом верхнем углу страницы.
Ссылка «Войти» расположена в правом верхнем углу страницы
Введите свои учетные данные в открывшейся форме входа. Нажмите на кнопку «Показать пароль», если хотите проверить правильность ввода пароля. Нажмите «Войти».
Если вы не помните e-mail, с которым вы зарегистрированы в системе, то вы можете воспользоваться функцией «Вспомнить e-mail» на странице входа. Вам откроется окно ввода учетных данных со старого сайта: логин и пароль. При верном вводе логина и пароля, вы увидите e-mail, с которым были зарегистрированы на старом сайте.
После авторизации на любой странице сайта в правом верхнем углу страницы отображается иконка «Меню». При нажатии на иконку доступна навигация по разделам вашего аккаунта. Слева от иконки «Меню» вы увидите краткую информацию о себе: роль в системе и e-mail. На рисунке приведен пример для роли «Эксперт».
Выпадающее меню кабинета
Для выхода из системы нажмите на иконку «Меню», а затем выберите пункт «Выйти».
Смена роли
Если администратор системы присвоил вам несколько ролей, то в панели меню рядом с названием роли вы увидите стрелочку. Нажмите на название текущей роли, чтобы просмотреть полный список доступных вам ролей.
Список ролей пользователя
Чтобы сменить роль, нажмите на ее название в выпадающем списке ролей. После этого на странице изменится название текущей роли, и вы будете перенаправлены в кабинет пользователя для этой роли. Обращаем ваше внимание, что в каждый момент времени доступна только одна роль.
Профиль
Для перехода к своему профилю нажмите на «Меню» и выберите раздел «Профиль».
В профиле вы можете посмотреть ваши учетные данные. Изменять данные пользователя может только администратор компании.
Пункт меню «Профиль»
Служба поддержки
Если вы не нашли ответы на вопросы по работе с системой, то обращайтесь в Службу поддержки. Для этого нажмите на «Меню» в правом верхнем углу и выберите вкладку «Служба поддержки». Система откроет окно с формой для отправки обращения.
Форма обратной связи
Введите свой вопрос в поле «Сообщение» и нажмите на кнопку «Отправить». Наши специалисты ответят на ваше обращение на почту, которая использовалась для входа в систему.
Добавление сайта
Наш Модуль поиска по сети Интернет осуществляет проверку по уже исследованным участкам в сети Интернет. Если вы нашли интересный сайт или ресурс, который не входит в Модуль поиска по сети Интернет, вы можете его добавить в наш проверочный модуль. Это позволит строить более полные и достоверные отчеты на основе проверки с помощью Модуля поиска по сети Интернет.
Чтобы добавить сайт для индексации, кликните на «Меню» и выберите пункт «Добавить сайт». Скопируйте ссылку в поле «URL» и нажмите «Добавить». Также вы можете оставить комментарий по поводу сайта, на который ведет эта ссылка, например, что на этом сайте располагается открытая электронная библиотека или сайт рефератов.
Пункт меню «Добавить сайт»
Если указанный вами сайт уже известен нашей системе, то вы получите сообщение: «Сайт уже обработан нашей системой».
Важно! Отправленный сайт попадет в Модуль поиска Интернет с течением времени в порядке очереди индексирования.
Кабинет студента
Кабинет предоставляет возможность загружать в задание документы на проверку. Для доступа к загрузке документов нажмите на «Меню» и выберите раздел «Кабинет студента». На странице кабинета вы увидите панель «Курсы» и «Задания». Выбрав нужное задание, отобразится загруженная работа и информация о загрузке и проверке документа.
У студенческой работы могут быть следующие статусы:
Загрузка студенческой работы
Загрузить студенческую работу можно несколькими способами:
Важно! Вы не можете удалить загруженную вами работу. Если вами был загружен неверный документ, обратитесь к вашему преподавателю. В системе действует ограничение на количество символов в одном документе. Документы, содержащие более 2 миллионов символов, не проверяются. При загрузке таких документов в кабинете отобразится сообщение об ошибке.
Для загрузки студенческой работы в задание необходимо, чтобы ваш преподаватель предоставил доступ к заданию. Задание, к которому был предоставлен доступ, отображается в списке ваших заданий. В противном случае, обратитесь к вашему преподавателю.
Чтоб загрузить студенческую работу в задание, нажмите на кнопку «Загрузить в задание» и выберите файл. В открывшемся окне выберите нужное вам задание, при необходимости укажите название для вашей работы. По умолчанию название работы будет присвоено по названию исходного файла.
Важно! Сервис поддерживает самые распространенные текстовые форматы файлов: pdf (с текстовым слоем), txt, html, htm, docx, rtf, odt, pptx. Размер загружаемого файла не должен превышать 100 Мб.
Формат doc не поддерживается для загрузки студенческих работ. Данный формат значительно устарел и возможны проблемы при извлечении текста документа. Переконвертируйте документ в один из доступных форматов: docx или pdf.
Окно загрузки работы в задание
Далее нажмите на кнопку «Продолжить», документ добавится в кабинет и отправится на проверку. В строке с заданием, в которое был добавлен документ, вы увидите добавленный документ, дату загрузки и результат проверки.
Чтобы загрузить студенческую работу по коду задания, который сообщил вам преподаватель, нажмите на кнопку «Загрузить по коду задания», выберите документ для загрузки и введите код задания, при необходимости измените название для вашей работы. Затем нажмите «Продолжить».
Окно с параметрами загрузки по коду
Важно! Если до этого вы не загружали работы ни в одно задание и сейчас производите загрузку по коду задания, то ваша работа будет отправлена преподавателю на подтверждение. Результаты проверки на заимствования вашей работы вы увидите только после подтверждения.
Вы можете загрузить работу без регистрации на сайте, если знаете код задания и в сервисе разрешена самостоятельная регистрация студентов.
Важно! Если Вы не вошли в сервис и вам недоступна страница «Студентам», то проверьте вашу почту. Вам должно прийти письмо с регистрационными данными для входа в сервис.
Для загрузки работы по коду задания перейдите на страницу «Студентам», в поле «Загрузка студенческой работы» введите ваш e-mail и код задания, затем нажмите «Продолжить».
Форма загрузки студенческой работы на странице «Студентам»
Если код задания верен и пользователь с указанным e-mail не зарегистрирован в системе, то откроются дополнительные поля для заполнения. Заполните их, выберите файл, который хотите отправить на проверку, и примите условия пользовательского соглашения. Затем нажмите «Загрузить».
Дополнительные поля для заполнения при загрузке по коду задания
Строка с работой без подтверждения
Важно! Вы сможете только загрузить свой документ. После загрузки документа вам на почту будет выслано письмо с регистрационными данными («Ваш e-mail», «Ваш сайт для входа») и ссылкой на страницу установки пароля.
Перейдите по ссылке для установки пароля.
Страница установки пароля
На открывшейся странице введите пароль и его подтверждение. Кнопка «Сохранить» становится активной, если введенный пароль удовлетворяет требованиям и пароли в полях «Новый пароль» и «Подтверждение пароля» совпадают. Вы можете предварительно убедиться, что пароль введен правильно, нажав на кнопку видимости в правой части соответствующего поля. После этого вместо точек отобразятся символы.
Требования к паролю:
Для сохранения пароля в системе нажмите на кнопку «Сохранить». После сохранения пароля вы будете автоматически авторизованы и переадресованы в кабинет студента.
Просмотр и редактирование информации о документе
При добавлении документы сопровождаются кратким описанием их параметров – атрибутами. Для редактирования атрибутов документа выделите галочкой нужный документ и нажмите «Изменить название и тип» в верхнем меню. В открывшемся окне вы можете изменить название документа и присвоить тип документа.
Окно редактирования атрибутов
Чтобы просмотреть текст загруженного документа, нажмите на его название в списке документов. Откроется страница «Версия для чтения», на которой отображается текст документа в постраничном режиме.
Просмотр текста загруженного документа
Для перехода по страницам текста воспользуйтесь панелью пейджинга, расположенной над и под текстовым полем. Вы можете вывести на экран сразу все страницы документа, нажав под текстовым полем на кнопку «Показать все страницы».
Также на этой странице вы можете просмотреть атрибуты документа и изменить их при необходимости, нажав на кнопку «Изменить название и тип».
В системе реализована возможность просмотра загруженного документа в исходном форматировании с сохранением отступов, шрифтов, заголовков, а также с отображением таблиц и рисунков. Чтобы просмотреть документ в исходном виде, перейдите из вкладки «Текстовый вид» во вкладку «Исходный вид».
Просмотр отчета студентом
Если преподаватель разрешил доступ к отчёту по загруженному документу, то в строке с работой появится кнопка «Отчет». После нажатия на кнопку «Отчет» откроется страница с кратким отчетом. Краткий отчет представляет собой распределение процентов оригинальности, заимствования и цитирования, а также список источников заимствования.
Процент заимствования показывает, сколько в тексте найдено заимствований по отношению ко всему документу. Цифры и знак «%» могут быть окрашены в один из цветов в зависимости от типа источника. Цвет может быть зеленым, тогда источник считается «Цитированием» (заимствованным из нормативных документов и корректно оформленным цитированием), или оранжевым – тогда источник считается «Заимствованным».
По умолчанию список источников сортируется в порядке убывания процента заимствования. Вы можете изменить порядок сортировки в «шапке» таблицы, при этом направление стрелочки будет меняться, указывая на способ сортировки, а столбец, по которому в данный момент произведена сортировка, выделяется жирным шрифтом.
Для большинства источников в списке источников отчета выводится прямая ссылка на расположение документа или текста источника в интернете. Для перехода на страницу в Интернете нажмите на иконку.
Прямая ссылка в списке источников
В верхней панели документа вы увидите кнопки-иконки, позволяющие переход к следующим действиям:
Просмотр оценки и комментария
После загрузки студенческой работы в систему, преподаватель может подтвердить ее (для незарегистрированных студентов), просмотреть по ней отчет, оценить или отправить на доработку. Данные действия преподавателя отражаются в графе «Оценка» виде статуса
Если преподаватель оставил комментарий, то после оценки или отправки на доработку ссылка на данный комментарий будет доступна в кабинете студента в графе «Отчет» на строке с работой.
Работа, отправленная на доработку, с комментарием
Выгрузка отчета
Выгрузка отчета позволит вам сохранить отчет в виде файла в формате PDF. Чтобы загрузить отчет себе на компьютер, нажмите на кнопку выгрузки «Экспорт» на странице просмотра отчета.
Окно подтверждения выгрузки отчета
Откроется страница «Экспорт отчета». Чтобы начать формирование отчета, кликните на кнопку «Экспорт». Через некоторое время кнопка изменится на «Скачать». Нажмите на кнопку «Скачать», чтобы загрузить файл. Загрузка начнется автоматически, или откроется диалоговое окно загрузки и сохранения файла, в зависимости от настроек вашего браузера.
В выгруженном отчете вы увидите информацию об отчете и о загруженном документе, терминологический блок со значением понятий «Заимствования», «Самоцитирования», «Цитирования», «Оригинальность», список источников и текст с разметкой блоков цитирования (если пользователь выгружает полный отчет).
Справка о проверке
Справка о проверке представляет собой заполненный бланк с результатами проверки.
Важно! Данный функционал позволяет выгрузить лишь заполненный бланк, который не является юридически значимым документом. Вы можете заверить его в вашей организации. Только ваша организация может дать ему юридическую силу.
Чтобы выгрузить бланк справки, выберите в Кабинете интересующий документ и напротив него нажмите «Посмотреть результаты». Далее в панели действий с отчетом нажмите на кнопку «Выгрузить», в появившемся выпадающем списке выберите пункт «Справку».
Форма выгрузки бланка справки
Пользователь с ролью «Студент» также может выгрузить справку из кабинета студента. Для этого нужно отметить выбранную работу галочкой и в верхней панели нажать на кнопку «Справка». После этого начнется скачивание бланка справки.
Кнопка «Справка» в кабинете студента
В сформированном бланке отображается информация об авторе и работе, проценты заимствования, самоцитирования, цитирования и оригинальности, дата проверки, список модулей поиска (по которым была проверка), пользователь, проверивший работу. Поля «Дата подписи» и «Подпись проверяющего» остаются пустыми для заполнения от руки.
Как доказать, что это не плагиат
После написания научной работы и ее проверки по системе «Антиплагиат» достаточно часто студенты гуманитарных специальностей (юриспруденция, педагогический, исторический факультеты и т.д.), да и ряда других факультетов, сталкиваются с проблемой низкого уровня уникальности текста в работе. Еще боле обидно бывает тем авторам, которые писали работу самостоятельно. В данной статье давайте затронем вопрос – как студенту доказать, что текст написан самоятельно, а не заимствован из других источников.
Он косвенно свидетельствует о том – сколько времени студент работал с текстом. Если документ скопирован из Интернета, то соответственно и время правки будет небольшим – примерно около 100 минут. Если же автор писал работу самостоятельно, то время увеличится примерно до 20 минут на 1 страницу текста, то есть, если в работе 100 страниц, то ориентировочное время правки документа – около 2000 минут, то есть более 30 часов работы.
При этом, обратите внимание на 2 колонки – «Доля в отчете» и «Доля в тексте». Если сложить суммы колонки «Доля в тексте», то окажется, что итоговое значение будет далеко за 100%. Почему так происходит. Это означает что самый большой фрагмент был заиствован из источника №1, однако источник №1 в свою очередь содержит фрагмент текста источника №2, №3, №4 и т.д. При этом не всегда понятно какой источник является первичным. В данном случае по этому отчету видно, что как минимум, 25% текста, имеется в Интернете и расположены на большом колчистве сайтов, что конечно же, не позволит автору доказать уникальность своего текста.
Все указанные выше аргументы, которые студент может привести в пользу своего активного участия в написании научной работы, конечно же необходимо подкреплять дружбой с научным руководителем или иным лицом, которое может в случае возникновения спора стать на вашу сторону и поддержать вас. Представляется, что даже если Ваша работа и будет содержать превышение уровня уникальности текста, однако вы сможете предоставить доказательства вашего личного участия в написании, здравый смысл должен одержать верх над формализмом.
Сегодня 8 студентов повысили уникальность своих работ. А всего — 519339 студентов
Так устроен поиск заимствований в Антиплагиате
Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:
Как все начиналось
В 2005 году ректор одного из крупных московских вузов пришел к нам в компанию Forecsys за решением очень серьезной проблемы — в учебных заведениях студенты сдавали тотально списанные дипломы и курсовые работы. Мы взяли несколько сотен работ отличников и поискали их в сети простыми запросами. Больше половины «отличников» оказались жуликами, которые скачали диплом из интернета и заменили только титульную страницу. Больше половины отличников, Карл! Что происходило с обычными студентами — сложно даже представить. Проще всего работа искалась по запросу, содержащему слова с «очепятками». Нам стали понятны масштабы бедствия. Надо было срочно что-то решать. Зарубежные англоязычные вузы к тому времени уже пользовались решениями по поиску заимствований, но работы на русском языке почему-то не проверял никто.
Зарубежные игроки не захотели тогда адаптировать свои решения под русский язык. В результате 17 марта 2005 года стартовала разработка первой отечественной системы поиска заимствований. Само слово «Антиплагиат» было придумано чуть позже, а домен antiplagiat.ru зарегистрирован 28 апреля 2005 года. Мы планировали выпустить сайт к 1 сентября 2005 года, но, как это часто бывает с программистами, немного не успели. Официальный день рождения нашей компании — это день, когда antiplagiat.ru принял первых пользователей, а именно 4 сентября. Знаете, я даже этому рад, поскольку во время корпоратива по случаю дня рождения компании все могут спокойно праздновать, а не переживать за первый школьный день у своих детей.
Но что-то я отвлекся. В 2005 году мы создали своеобразный поисковик, в котором, в отличии от Яндекса и Гугла, запросом выступает не два-три слова, а целый текст, состоящий из нескольких предложений. Поэтому разумно использовать «Антиплагиат», если у вас есть текст от 1000 знаков (это примерно полстраницы).
Во время разработки сервиса был сделан прототип на php (web-часть) и Microsoft SQL Server (поисковый движок). Сразу же стало понятно, что это не взлетит и будет медленно работать уже на нескольких миллионах документов. Поэтому пришлось пилить свой поисковый движок. Сейчас система написана на C# и python, использует PostgreSQL и MongoDB (на самом деле много чего еще, но об этом в следующей статье). Поисковый движок у нас по-прежнему полностью собственной разработки. Ставьте лайки Пишите в комментариях, если хотите узнать об истории развития системы, смене процессов работы компании и железе, на котором «Антиплагиат» работал в разные моменты своей жизни, и работает сейчас.
Слово, давшее название компании, сейчас стало уже нарицательным. Часто в поисковике можно встретить такие выражения как «проверить на антиплагиат», «повысить антиплагиат». Все, кто так или иначе связан с областью поиска заимствований в России и ближнем зарубежье, пытаются использовать слово «антиплагиат» для поднятия в поисковой выдаче. Нас часто спрашивают про другие «антиплагиаты». Так вот, «Антиплагиат» — один, это торговая марка и название нашей компании.
В самом начале реализации сервиса поиска заимствований мы решили, что будем работать с текстом как с последовательностью символов. Сразу были отвергнуты различные семантические построения из текстов, поиск смыслов, разбор предложений и т.д. Выбранное нами решение дает два огромных преимущества — высокую скорость поиска и относительно небольшой объем поисковых индексов.
К настоящему моменту есть три продукта в нашей линейке. Они отличаются функциональностью, но содержат в своей основе один и тот же принцип работы поиска заимствований. В этой статье я расскажу о том, как устроен наш классический поиск заимствований — функционал, ставший основой сервиса с самого начала и концептуально не поменявшийся до сих пор. Схема поиска заимствований, как вы видите на изображении, проста и незамысловата, как рисование совы. Сначала мы получаем документ от пользователя, затем мы извлекаем из него текст. Дальше ищем заимствования в этом тексте, получаем «ревизии» (так мы называем отчет по одному модулю поиска) и, наконец, собираем ревизии в один большой отчет, который и показываем в итоге пользователю.
Давайте посмотрим, как все это происходит в деталях.
Извлечение текста
Прежде всего, «Антиплагиат» является сервисом поиска только текстовых заимствований, а значит, из всех документов нам нужно извлечь текст, чтобы дальше с ним работать. Система поддерживает возможность загрузки документов в docx, doc, txt, pdf, rtf, odt, html, pptx и еще нескольких (никогда не использовавшихся) форматах. Также все эти документы вы можете загружать в архивах (7z, zip, rar). Такой способ был популярен, когда у нас не было возможности загружать сразу несколько документов через веб-интерфейс. Ниже приведен график популярности форматов загружаемых документов в корпоративной части нашей системы. На нем видно, как за несколько лет doc вытесняется docx, и постепенно растет доля pdf. Если не рассматривать txt (извлечение текста для него тривиально), то для нас наиболее приятным является pdf. За рубежом pdf является стандартом де-факто, в нем публикуются статьи, готовятся студенческие работы. Согласно нашей статистике, pdf постепенно набирает популярность в России и странах СНГ. Мы и сами продвигаем этот формат в массы, рекомендуя загружать документы именно в нем.
Мы ограничили форматы загрузки документов для частных клиентов до pdf и txt, и именно поэтому сократили потребление ресурсов, уменьшили затраты на поддержку бесплатного сервиса. Вам ведь надо проверить текст, а не протестировать систему? Так какая разница в каком формате его загружать?
Следующим по простоте извлечения текста идет docx, т.к., по сути, это zip-архив с xml внутри, его достаточно просто обрабатывать, и многое можно сделать на низком уровне.
Итак, вернемся к отчету. Мы получили файл и начали извлекать текст. Вместе с текстом система извлекает и позиции слов на страницах, чтобы в дальнейшем иметь возможность показывать нашим пользователям разметку отчета о заимствовании на самом документе. Кроме того, на этом же этапе мы ищем технические обходы «Антиплагиата».
Как только появился «Антиплагиат», показывающий процент оригинальности, появились и желающие пройти проверку на заимствование с минимальными усилиями, а также люди, предлагающие такую услугу за деньги. Проблема в том, что числовой параметр так и просится стать оценкой. Ведь это так просто — вместо чтения работы с использованием системы в качестве инструмента, не читать ее, а оценить по проценту оригинальности! Именно эта беда и породила такое направление, как тюнинг работ (изменение в тексте с целью увеличить процент оригинальности работы). Подробнее о проблемах в вузовских процессах читайте в статье «О практике обнаружения заимствований в российских вузах».
В зарубежных системах поиска проблемы обнаружения технических обходов и противодействия им, практически, не стоит. Дело в том, что за обнаруженный «финт ушами» последует очень жесткое наказание — отчисление, и несмываемое пятно на научной репутации, несовместимое с дальнейшей карьерой. У нас же ситуация до комичного проста: «Ой, это система что-то напортачила!», «Ой, это не я, оно само!». Студента скорее всего отправят переделывать. Дело в том, что списать, увы, не является чем-то зазорным.
Но опять отвлекся. Еще одним способом извлечения текста является OCR. Мы печатаем документ на виртуальном принтере, а потом распознаем его. Подробнее об этом написано в статье «Распознавание изображений на службе у «Антиплагиата»».
Теперь немного нашей истории об извлечении текстов. Сначала мы извлекали тексты с помощью IFilter’ов. Они медленные, только под Windows, и не возвращают информацию о форматировании (непонятно, где белый текст на белом фоне, нельзя потом сделать разметку блоков заимствования прямо в документе пользователя). Мы думали, что эти проблемы решатся, если начать использовать платные библиотеки, но и тут обнаружили ограничения: по-прежнему под Windows, не видят формул, иногда падают на специально подготовленных документах (разные библиотеки на разных!). Следующая идея была в том, чтобы OCR’ить все входящие документы, но этот подход очень ресурсозатратен (обработка всего 10-и страниц в минуту на одном ядре), и местами текст извлекается не точно.
Серебряной пули мы не нашли, хотя пару раз думали, что вот оно, Счастье. Однако потом, немного пожив с этим, понимали, что это снова Опыт. Извлечение текста балансирует на тонкой грани между производительностью (надо извлекать текст из сотни документов в минуту), надежностью (надо извлекать текст из всего), функциональностью (форматирование, обходы, вот это вот все). Сейчас у нас работает все вышеперечисленное и еще немножко. Мы постоянно экспериментируем с этой областью и продолжаем искать свое Счастье.
Текст извлечен, обходы найдены и частично устранены, отправляемся искать заимствования!
Поиск заимствований
Идея, реализованная в процедуре поиска, была предложена Ильей Сегаловичем и Юрием Зеленковым (прочитать можно, например, в статье: Сравнительный анализ методов определения нечетких дубликатов для Web-документов). Расскажу, как это работает у нас. Возьмем, для примера, предложение: «Указ Президента РФ от 7 мая 2012 г. N 596 „О долгосрочной государственной экономической политике“».
Теперь для поиска нам нужна магическая функция, которая по такому списку хешей превращает документы, отранжированные по убыванию числа совпавших хешей, в документ-источник. Эта функция должна работать быстро, т.к. мы хотим искать в миллиардах документов. Для того, чтобы быстро находить такой набор, нам нужен обратный индекс, который по хешу возвращает список документов, в которых этот хеш есть. У нас реализована такая гигантская хеш-таблица. В отличии от наших старших братьев-поисковиков, мы храним эту таблицу на ssd, а не в памяти. Нам вполне хватает такой производительности. Поиск по индексу занимает малую часть времени от всего цикла обработки документа. Смотрите как проходит поиск:
Этап 1. Поиск по индексу
Для каждого хеша текста-запроса мы получаем список идентификаторов документов-источников, в которых он встречается. Дальше ранжируем список идентификаторов документов-источников по числу встретившихся хешей из текста-запроса. Получаем ранжированный список документов-кандидатов на источник заимствования.
Этап 2. Построение ревизии
Для большого текста-запроса кандидатов может быть порядка 10 тыс. Это все равно много для сравнения каждого документа с текстом-запросом. Действуем жадно, но решительно. Берем первый документ-источник, делаем сравнение с текстом-запросом и исключаем из всех остальных кандидатов те хеши, которые уже были в этом первом документе. Удаляем из списка кандидатов тех, у которых остался ноль хешей, пересортируем кандидатов по новому числу хешей. Берем первый документ из нового списка, сравниваем с текстом-источником, удаляем хеши, удаляем нулевых кандидатов, пересортируем кандидатов. Делаем так раз 10-20, обычно этого хватает, чтобы список иссяк или в нем остались только те документы, у которых есть совпадение по нескольким хешам.
Использование хешей слов позволяет нам проводить операции сравнения быстрее, экономить на памяти и хранить не тексты документов-источников, а их цифровые слепки (TextSpirit, как мы их ласково называем), полученные при индексации, тем самым не нарушая авторских прав. Выделение конкретных фрагментов заимствования делается с помощью суффиксного дерева.
В результате проверки одним модулем поиска получаем ревизию, в которой находится список источников, их метаданные и координаты блоков заимствований относительно текста-запроса.
Сборка отчета
Кстати, а что делать, если один из 10-15 модулей не ответил вовремя? Мы ищем по коллекциям РГБ, eLibrary и Гаранта. Эти модули поиска расположены на территории сторонних организаций, и не могут быть перенесены на нашу площадку по соображениям авторского права. Точкой отказа тут всегда может быть канал связи и различные форс-мажоры в дата центрах, не управляемых нами. С одной стороны, заимствование может быть найдено в любом модуле поиска, с другой, если один из компонентов системы недоступен, то можно ухудшить качество поиска, но отдать большую часть результата, предупредив при этом пользователя, что результат по некоторым модулям поиска пока не готов. Какой вариант применили ли бы вы? Мы применяем оба этих варианта в зависимости от обстоятельств.
Наконец, все ревизии получены, начинаем сборку отчета. Здесь используется подход аналогичный подготовке одной ревизии. Вроде бы ничего сложного, но и тут есть интересные задачи. У нас есть заимствования двух типов. Зеленым обозначаются «Цитирования» — корректно оформленные (по ГОСТу) цитаты из модуля «Цитирование», выражения типа «что и требовалось доказать» из модуля «Общеупотребительных выражений», нормативно правовые документы из баз Гаранта и Лекспро. Оранжевым отмечаются все остальные заимствования. Зеленые имеют приоритет над оранжевыми, если только не входят целиком в оранжевый блок.
В результате отчет можно сравнить с лежащим на столе распечатанным на бумаге текстом, поверх которого набросаны разноцветные полоски (блоки заимствований и цитирований), причудливо перекрывающие друг друга. То, что мы видим сверху, и есть отчет. У нас есть два показателя для каждого источника:
Доля в отчете — отношение объема заимствований, которое учитывается из данного источника, к общему объему документа. Если один и тот же текст был найден в нескольких источниках, то учитывается он только в одном из них. При изменении конфигурации отчета (включении или отключении источников) данный показатель источника может меняться. В сумме дает процент заимствований и цитирований (в зависимости от цвета источника).
Доля в тексте — отношение объема, заимствованного из данного источника текста к общему объему документа. Доли в тексте по источникам суммировать нет смысла, легко получится 146% или даже больше. Данный показатель не изменяется при изменении отчета.
Естественно, отчет можно редактировать. Это специальная функция для того, чтобы эксперт, проверяющий работу, отключил заимствования собственных работ автора (при этом может открыться, что данный фрагмент есть не только в собственной работе автора, но и где-то еще) и отдельные блоки заимствования, изменил тип источника с заимствования на цитирование. В результате редактирования отчета эксперт получает реальное значение заимствований. Любую работу для проверки надо прочитать. Это удобно делать, просматривая исходный вид документа, в котором размечены блоки заимствования, и сразу же, по мере прочтения, редактировать отчет. К сожалению, это вполне логичное действие не всеми совершается, многие довольствуются процентом оригинальности, даже не заглядывая в отчет.
Однако вернемся на шаг назад и узнаем, что же попадает в индекс модуля поиска по интернету, созданный Антиплагиатом.
Индексация интернета
Антиплагиат в значительной степени ориентирован на студенческие работы, научные публикации, выпускные квалификационные работы, диссертации и т.п. Интернет мы индексируем направлено — ищем большие скопления научных текстов, рефератов, статей, диссертаций, научных журналов и т.п. Индексация происходит так:
Заметили, что нигде не описана процедура удаления из индекса? А ее и нет! Мы принципиально не удаляем документы из индекса. Мы считаем, что если нам удалось увидеть что-то в интернете, то и другие люди могли видеть этот текст и использовать его тем или иным способом. В связи с этим появляется интересная статистика того, что когда-то было в интернете, а теперь уже больше там нет. Да, представьте себе, выражение «Попавшее в интернет останется там навсегда», — не верно! Что-то исчезает из интернета навсегда. Интересно ли вам узнать о нашей статистике по этому вопросу?
Заключение
Удивительно, как технические решения, принятые больше 10 лет назад, до сих пор остаются актуальными. Мы сейчас готовим к выпуску 4 версию индекса, она быстрее, технологичнее, лучше, однако в ее основе лежат всё те же решения. Появились новые направления поиска — переводные заимствования, перефразирование, но и там находит применение наш индекс, выполняя пусть и малую, но важную часть работы.
Уважаемые читатели, что вам было бы интересно узнать о нашем сервисе ещё?