Предназначение словаря
Дериватный словарь является открытым лингвистическим ресурсом, ориентированным
на использование в программах, обрабатыващих естественно-языковые тексты.
Словарь позволяет решать ряд таких задач, как построение семантических связей,
пополнение запроса словами другого языка и ассоциативными словами, преобразование
лемм из одной части речи в другую, сентиментный анализ, кроссязыковой плагиат и др.
Выгружаемые в формате JSON данные могут быть отфильтрованы и конвертированы в нужный формат
для использования в конечных системах.
Словарь создавался c 2011 года в рамках проекта
Pullenti и открыт с апреля 2023 года.
Лицензионная политика
Словарь целиком и любые его части могут без ограничений использоваться в коммерческих и некоммерческих разработках и проектах.
Единственное требования - обязательная ссылка на этот ресурс.
Приветствуется информирование о проектах, в которых используется Словарь, для размещения их в списке на этом сайте.
Структура данных
Однокоренные слова разных частей речи в Словаре объединяются в дериватные группы.
В настоящий момент таких групп 38804.
Каждое слово может иметь набор атрибутов типа признаков одушевлённости, эмоциональной окраски,
жаргонизмов и др. Между группами устанавливаются связи различных типов: перевод, ассоциация,
общее-частное, часть-целое и др.
Группа объединяет слова одного языка. Между группами разных языков устанавливается связь типа "перевод".
Сейчас в словаре поддержаны языки русский (основной), а также английский и украинский,
которые получены автоматическим переводом из русского и подлежат ручной корректировке.
Группа также содержит модель управления - это данные о предложно-падежных связях слов группы
для решения задачи построения синтаксико-семантических связей.
Пополнение и корректирование словаря
Пополняться и корректироваться Словарь будет (надеемся) с помощью всех заинтересованных в данном ресурсе.
Первоначально Словарь был получен объединением слов, начинающихся примерно одинаково,
из словарей Ушакова и Ожегова. В течение ряда лет шла то затухающая, то возобновляющаяся работа
по его ручной корректировке, для чего был создан специальный редактор.
С помощью разработанной утилиты определялись частые слова в текстах, которые отсутствали в Словаре,
для пополнения существующих групп или создания новых.
Большой вклад внесли Валентин Цибульский, Юлия Морозова, Елизавета Косарева и многие другие.
Несмотря на проделанную работу, мы понимаем, что предстоит сделать гораздо больше.
В частности, нужно перепроверить все группы заново, так сказать, свежим взглядом.
Откорректировать переводы имеющихся групп на английский и украинский, которые сейчас
получены автоматически. А также установить связи, которых пока немного.