Предназначение словаря

Дериватный словарь является открытым лингвистическим ресурсом, ориентированным на использование в программах, обрабатыващих естественно-языковые тексты. Словарь позволяет решать ряд таких задач, как построение семантических связей, пополнение запроса словами другого языка и ассоциативными словами, преобразование лемм из одной части речи в другую, сентиментный анализ, кроссязыковой плагиат и др. Выгружаемые в формате JSON данные могут быть отфильтрованы и конвертированы в нужный формат для использования в конечных системах.
Словарь создавался c 2011 года в рамках проекта Pullenti и открыт с апреля 2023 года.

Лицензионная политика

Словарь целиком и любые его части могут без ограничений использоваться в коммерческих и некоммерческих разработках и проектах. Единственное требования - обязательная ссылка на этот ресурс.
Приветствуется информирование о проектах, в которых используется Словарь, для размещения их в списке на этом сайте.

Структура данных

Однокоренные слова разных частей речи в Словаре объединяются в дериватные группы. В настоящий момент таких групп 38804.
Каждое слово может иметь набор атрибутов типа признаков одушевлённости, эмоциональной окраски, жаргонизмов и др. Между группами устанавливаются связи различных типов: перевод, ассоциация, общее-частное, часть-целое и др.
Группа объединяет слова одного языка. Между группами разных языков устанавливается связь типа "перевод". Сейчас в словаре поддержаны языки русский (основной), а также английский и украинский, которые получены автоматическим переводом из русского и подлежат ручной корректировке.
Группа также содержит модель управления - это данные о предложно-падежных связях слов группы для решения задачи построения синтаксико-семантических связей.

Пополнение и корректирование словаря

Пополняться и корректироваться Словарь будет (надеемся) с помощью всех заинтересованных в данном ресурсе. Первоначально Словарь был получен объединением слов, начинающихся примерно одинаково, из словарей Ушакова и Ожегова. В течение ряда лет шла то затухающая, то возобновляющаяся работа по его ручной корректировке, для чего был создан специальный редактор. С помощью разработанной утилиты определялись частые слова в текстах, которые отсутствали в Словаре, для пополнения существующих групп или создания новых. Большой вклад внесли Валентин Цибульский, Юлия Морозова, Елизавета Косарева и многие другие.
Несмотря на проделанную работу, мы понимаем, что предстоит сделать гораздо больше. В частности, нужно перепроверить все группы заново, так сказать, свежим взглядом. Откорректировать переводы имеющихся групп на английский и украинский, которые сейчас получены автоматически. А также установить связи, которых пока немного.