Информационно-поисковые тезаурусы: структура, назначение и порядок разработки. Тезаурус: что это такое

Все чаще в многочисленных проектах, книгах, брошюрах, интернет-ресурсах можно встретить понятие "тезаурус". Словно таинственное явление, оно пугает своей неизведанностью, ведь куда проще сказать "словарь", нежели использовать странное определение.

Тезаурус: что это? Чем он отличается от обычного словаря? Попытаемся изучить данные вопросы более подробно и доступно.

Трактовка термина

Первоначально понятие тезауруса рассматривалось с точки зрения словаря, представлявшего лексику языка с примерами употребления в тексте.

Ожегов трактует тезаурус как словарь конкретного языка, отражающий лексику в полной мере, в то время как Ефремова рассматривает данный феномен с точки зрения систематизированного набора данных в определенной области знания.

Наиболее конкретное определение используется в филологии, там под тезаурусом понимается компонент словарного типа, где все значения слов связаны семантическими отношениями между собой и отражают ключевые соотношения понятий в определенной предметной области.

Как мы видим, довольно сложно ответить на вопрос: "Тезаурус: что это?" однозначно. Для более узкого изучения термина рассмотрим историю возникновения, виды и отношения лексических единиц в словаре подобного типа.

История возникновения

Отцом-основателем тезаурусов считается английский физик Роже, именно он в 1852 г. систематизировал распределив ее по группам. При этом каждая группа была представлена названием понятия, а далее шли его синонимы по определенным частям речи, списки родственных наименований, а также отсылки к именам других категорий. Идея такой классификации была очень ценной, поскольку словарь считался самым естественным, описывал лексику языка в самой полной мере. При этом он мог быть применен в качестве быстрого поиска важных понятий. Со времен первого тезауруса и до сих пор происходит регулярная трансформация данного типа словаря, который применяется во многих областях знаний и пользуется широкой популярностью во всем мире. При этом изучение темы: «Тезаурус: что это?» актуально во многих учебных заведениях.

До настоящего времени тезаурусы остаются наиболее популярным способом описания знаний в любой области, необходимой для эффективного восприятия человеком.

Отношения слов в тезаурусе

Самыми распространенными отношениями в классическом тезаурусе считаются:

  1. Синонимия - явление, при котором связываются слова одной части речи, сходные по лексическому значению. Например: держава-отчизна, бригада-отряд, алый - красный и т.д.
  2. Антонимия - связь слов одной части речи, имеющих противоположное лексическое значение. Например: тишина - грохот, ласковый - грубый .
  3. Гиперонимия (гипонимия) - ключевые отношения с целью описания существительных. Гипероним имеет широкое лексическое значение, выражает родовое, общее наименование класса (множества) объектов, предметов, а именно его свойств и признаков. Гипоним обладает узким значением, он называет предмет (признак, свойство) как элемент конкретного множества или класса. Для того чтобы эти отношения стали понятными, приведем простейший пример. Слова зверь и тигр связаны между собой, при этом общее наименование - зверь - является гиперонимом по отношению к гипониму тигр.
  4. Меронимия (партонимия) - отношения для существительных, складываются по принципу «часть - целое». В качестве примера рассмотрим слова самолет, шасси , иллюминатор . В данном случае общее наименование транспорта - холоним (целое, имя), а его составные части - меронимы.
  5. Следствие (отношения между глаголами). Например, слова идти и прийти связаны процессом и его следствием (результатом).
  6. Причина (также допустимо только для глаголов). Рассмотрим пример таких отношений, возьмем слова: болеть - пропустить . В этом случае прослеживается причина - пропустить, потому что были проблемы со здоровьем.

Что тезаурус представляет собой, увидим из следующего примера.

Кровать - приспособление для сна.

[гипероним]: мебель
[мероним]: дом
[синоним]: лежанка, полати.

Это лишь классический пример тезауруса русского языка, однако все словари данного типа строятся именно по такому принципу.

Функции тезауруса

Словарь-тезаурус несет важные социальные, коммуникационные, научные и другие функции.

Он является:

  • источником специальных знаний в широкой либо узкой предметной области, способом упорядочения, описания терминов ;
  • инструментом поиска в информационном потоке;
  • инструментом ручного анализа документации в поисковых системах;
  • инструментом автоматического индексирования сложных текстов.

Виды тезаурусов

Многообразие словарей требует рассматривать не только вопрос: "Тезаурус: что это?", но и обращать внимание на виды. Это поможет нам лучше усвоить особенности данного типа словарей.


Заключение

Мы надеемся, что смогли доступным языком объяснить, что такое тезаурус. Благодаря примерам легко понять, чем он отличается от остальных словарей. Также мы осветили вопрос об информационно-поисковых тезаурусах, которые широко используются информационной системой для быстрого поиска и систематизации миллионов наименований.

Н. В. Лукашевич

[email protected]

Б. В. Добров

Научно-исследовательский вычислительный центр МГУ им. М.В.Ломоносова;

АНО Центр информационных исследований

[email protected]

Ключевые слова: тезаурус, информационный поиск, автоматическая обработка текста,

Подавляющее большинство технологий, работающих с большими коллекциями текстов, базируется на статистических и вероятностных методах. Это связано с тем, что лексические ресурсы, которые могли бы использоваться для обработки текстовых коллекций с помощью лингвистических методов, должны иметь объем в десятки тысяч словарных статей и обладать рядом важных свойств, которые требуется специально отслеживать при разработке ресурса. В докладе мы рассматриваем основные принципы разработки лексических ресурсов для автоматической обработки больших текстовых коллекций на примере создаваемого c1997 года тезауруса русского языка для компьютерной обработки текстов РуТез, представляющего собой в настоящее время иерархическую сеть более 42 тысяч понятий. Мы описываем современное состояние тезауруса на базе сопоставления его лексического состава и текстового корпуса Университетской информационной системы РОССИЯ (www.cir.ru) - 400 тысяч документов. Обсуждаются примеры использования тезауруса в различных приложениях автоматической обработки текстов.

  1. Введение

В настоящее время миллионы документов стали доступными в электронной форме, созданы тысячи информационных систем и электронных библиотек. При этом информационные системы, использующие для поиска лексические и терминологические ресурсы, исчисляются долями процента. Это связано с серьезными проблемами создания таких лингвистических ресурсов для автоматической обработки современных коллекций электронных документов.

Во-первых, эти коллекции обычно очень большие, ресурс должен включать описания тысяч слов и терминов. Во-вторых, коллекции представляют собой набор документов разной структуры с разнообразными синтаксическими конструкциями, что затрудняет автоматическую обработку предложений текста. Кроме того, часто важная информация распределена между различными предложениями текста.

Все это остро ставит вопрос о том, каким должен быть лингвистический ресурс, который, с одной стороны, был бы полезен при автоматической обработке и поиске в электронных коллекциях, с другой стороны, мог быть создан за обозримое время и поддерживаться сравнительно небольшими усилиями.

В статье мы рассмотрим основные принципы разработки лексических ресурсов для автоматической обработки больших текстовых коллекций. Эти принципы будут рассмотрены на примере создаваемого АНО Центр информационных исследований c 1997 года тезауруса русского языка для компьютерной обработки текстов РуТез . РуТез представляет собой в настоящее время иерархическую сеть более 42 тысяч понятий, включающую в свой состав более 95 тысяч русских слов, выражений, терминов. Мы опишем современное состояние тезауруса на базе сопоставления его лексического состава и лексики текстового корпуса Университетской информационной системы РОССИЯ , поддерживаемой НИВЦ МГУ им. М.В.Ломоносова и АНО ЦИИ. УИС РОССИЯ (www.cir.ru) содержит 400 тысяч документов общественно-политической тематики (около 3 Гбайт текстов, 200 миллионов словоупотреблений). В статье также будут рассмотрены примеры использования тезауруса в различных приложениях автоматической обработки текстов.

  1. Принципы разработки лингвистического ресурса

для задач информационного поиска

Для обеспечения эффективной автоматической обработки электронных документов (автоматического индексирования, рубрицирования, сравнения документов) необходимо построить основу для их сравнения – список того, что упоминалось в документе. Чтобы такой индекс был более эффективным, чем пословный индекс, требуется преодолеть лексическое разнообразие текста: синонимы, многозначность, части речи, стилистику, и сводить его к инварианту – понятию, которое становится основой для сопоставления разных текстов. Таким образом, основой лингвистического ресурса должны стать понятия, а языковые выражения: слова, термины – становятся лишь текстовыми входами, инициализирующими соответствующее понятие.

Чтобы уметь сопоставлять различные, но близкие по смыслу понятия, между ними должны быть установлены отношения. Традиционно в лингвистических ресурсах для автоматической обработки текстов на естественном языке использовались те или иные наборы семантических отношений, таких как часть, источник, причина и т.п. Однако работая с большими и разнородными текстовыми коллекциями, мы должны понимать, что при нынешнем состоянии технологий текстовой обработки, компьютерная система не сможет сколько-нибудь стабильно обнаруживать эти отношения в тексте, чтобы выполнить те процедуры, которые мы связали с теми или иными отношениями. Поэтому отношения между понятиями должны впервую очередь описывать некие инвариантные свойства, которые не зависят или слабо зависят от темы конкретного текста, в котором упомянуто понятие.

Основная функция этих отношений -- отвечать на следующий вопрос:

если известно, что текст посвящен обсуждению С1, и С2 связан

отношением R с С1, можем ли мы сказать, что тема текста (*)

имеетотношение к С2?

При создании лингвистического ресурса для автоматической обработки важно определить, какие свойства понятий C1 и C2 позволяют устанавливать правильные в смысле (*) отношения между ними.

Так, например, какие бы тексты не были написаны о березах, мы всегда можем сказать, что это тексты о деревьях. Но несмотря на популярность и частое обсуждение отношения дерево как часть леса , очень незначительное число текстов о деревьях является текстами о лесах. Отметим, что проблема не связана с названием отношения. Так просека – это часть леса , и тексты о просеках есть тексты о лесе.

Инвариантность отношений относительно спектра возможных тем текстов предметной области в значительной мере определяется более глубинными свойствами, чем те, которые отражаются названиями отношений, а именно его кванторными и экзистенциальными свойствами . Так кванторные свойства отношений описывают, все ли примеры понятия имеют данное отношение, сохраняется ли данное отношение на протяжении всего жизненного цикла примера. Проблема с использованием отношения дерево лес именно и связана с тем, что не каждое конкретное дерево находится в лесу, зато просека не может быть вне леса.

Пример описания экзистенциальных свойств отношений -- следует ли из существования понятия С1 существование понятия С2 (например, существование понятия ГАРАЖ требует существования понятияАВТОМОБИЛЬ ) или существование примеров С1 зависит от существования примеров С2 (так конкретный ПАВОДОК неотделим от конкретного примера РЕКИ ). Обсуждение в тексте зависимого понятия С2, особенно зависимого от примера, позволяет предположить, что текст имеет отношение и к главному понятию С1.

Рассмотрим отношение между понятиями ЛЕС и ДЕРЕВО более подробно. На самом деле, частью понятия ЛЕС является ДЕРЕВО В ЛЕСУ , в то время как существуют и ОТДЕЛЬНО СТОЯЩЕЕ ДЕРЕВО ,ДЕРЕВО В САДУ и др. В любом случае требуется разорвать отношение подчиненности понятия ДЕРЕВО понятию ЛЕС .

С другой стороны, ЛЕС является видом СОВОКУПНОСТИ ДЕРЕВЬЕВ , не существует без деревьев (так же как и САД ). Таким образом, понятие ЛЕС должно находиться в отношении зависимости от понятия ДЕРЕВО . Начав с анализа потребностей конкретных прикладных задач мы пришли к выводу о важности описания глубинных свойств отношений, которые раньше очень незначительно отражались в лингвистических ресурсах, но которые имеют первостепенное значение для задач автоматической обработки больших текстовых коллекций, и, возможно, для многих других задач.

Сейчас мы моделируем описание кванторных и эксзистенциальных свойств понятий набором традиционных тезаурусных отношений ВЫШЕ‑НИЖЕ (66% всех связей), ЧАСТЬ‑ЦЕЛОЕ (30% связей), АССОЦИАЦИЯ (4%), в сочетании с некоторым набором дополнительных модификаторов (20% отношений помечено). Отметим, что отношения ЧАСТЬ‑ЦЕЛОЕ и АССОЦИАЦИЯ интерпретируются с учетом правила (*). Всего описано около 160 тысяч прямых связей между понятиями, что с учетом транзитивности отношений дает общее количество различных связей более 1350 тысяч связей, то есть в среднем каждое понятие связано с 30 другими.

  1. Тезаурус РуТез: общая структура

Тезаурус РуТез представляет собой иерархическую сеть понятий, соответствующих значениям отдельных слов, текстовых выражений или синонимическим рядам. Таким образом, основными элементами тезауруса являются понятия, языковые выражения, отношения языковое выражение – понятие, отношения между понятиями.

В тезаурусе в единую систему собраны как лингвистические знания – описания лексем, идиом и их связи, традиционно относящиеся к лексическим, семантическим знаниям, так и знания о терминах и взаимосвязях внутри предметных областей, традиционно относящиеся к сфере деятельности терминологов, описываемые в информационно-поисковых тезаурусах. В качестве таких предметных подообластей в тезаурусе описаны такие предметные области как экономика, законодательство, финансы, международные отношения, настолько важные для повседневной жизни человека, что они имеют значительное лексическое представительство и в традиционных толковых словарях. В них лексическое и терминологическое сильно взаимосвязано и сильно взаимодействует друг с другом.

Языковыми выражениями являются отдельные лексемы (существительные, прилагательные и глаголы), именные и глагольные группы. Таким образом, тезаурус не включает сейчас в качестве языковых выражений наречия и служебные слова. В составе многословных групп могут оказаться термины, идиомы, лексические функции (оказать влияни е).

Для каждого языкового выражения описывается:

Его многозначность - связи с одним или более понятием, что означает что данное языковое выражение может служить текстовым выражением этого понятия. Отнесение языкового выражения к разным понятиям также является неявным указанием на его многозначность;

Его морфологический состав (часть речи, число, падеж);

Особенности написания (например, с большой буквы) и т.п.

Каждое понятие тезауруса имеет уникальное название, список языковых выражений, которыми это понятия может быть выражено в тексте, список отношений с другими понятиями.

В качестве уникального названия понятия обычно выбирается одно из его однозначных текстовых выражений. Но название понятия может быть сформировано и парой его неоднозначных текстовых выражений - синонимов, записанных через запятую и однозначно его определяющих (например, понятие ТОЛСТЫЙ, ТУЧНЫЙ ). Неоднозначное текстовое выражение названия понятия может быть также снабжено пометой или укороченным фрагментом толкования, например, понятие ТОЛПА (СКОПЛЕНИЕ ЛЮДЕЙ).

  1. Пример словарной статьи

Мы выбрали в качестве примера словарную статью понятия ЛЕСНОЙ МАССИВ , соответствующего одному из значений слова лес . Эта словарная статья интересна тем, что включает разные типы знаний, традиционно относимых к лексическим (семантическим) знаниям и энциклопедическим знаниям (знаниям о предметной области, терминологии).

Синонимы к понятию ЛЕСНОЙ МАССИВ (всего 13):

лес(M ), лесная зона, лесная среда,

лесной, лесной квартал, лесной ландшафт,

лесной район, лесок, лесопокрытый,

лесосырьевой район, лесочек,

массив лесов.

Нижестоящие понятия с синонимами:

ДЖУНГЛИ (джунглевый );

ЛЕСОПАРК (городской сад, зеленая зона,

зеленый массив, лесопарковый,

лесопарковое хозяйство, лесопарковый

пояс, парк(M ), парковая зона);

ЛЕСООХОТНИЧЬЕ ХОЗЯЙСТВО ;

ЛИСТВЕННЫЙ ЛЕС (мягколиственный лес, твердолиственный

лес);

РОЩА (дубрава );

ХВОЙНЫЙ ЛЕС(хвойный массив, темнохвойный лес)

Понятия-части с синонимами:

БУРЕЛОМ(буреломный, ветровал );

ВЫРУБКА (лесосека);

ЛЕСНАЯ КУЛЬТУРА (лесная порода, лесохозяйственная

культура);

ЛЕСНЫЕ ЗЕМЛИ(земли лесного фонда; земли, покрытые

лесом; лесные угодья, лесная территория;

лесопокрытые земли, лесопокрытые

площади,);

ЛЕСОНАСАЖДЕНИЯ (лесные насаждения, лесопосадки,

лесопосадочный );

ОПУШКА ЛЕСА (опушка, опушечный );

ПОДЛЕСОК(подлесочный );

ПРОСЕКА ;

СУХОСТОЙ (сухостойный ).

Здесь символы (М) отражают пометку о многозначности текстового входа.

Понятие ЛЕСНОЙ МАССИВ имеет также другие отношения, так называемые отношения зависимости (в современной версии называются АСЦ 2 – несимметричная ассоциация): ЛЕСНОЙ ПОЖАР (лесопожарный, пожар в лесу; ЛЕСОПОЛЬЗОВАНИЕ (лесное пользование, пользование участками лесного фонда) ; ЛЕСОВЛАДЕНИЕ; ЛЕСНАЯ НАУКА (наука о лесе ). Как уже отмечалось в пункте 2, понятие ЛЕС зависит от понятия ДЕРЕВО, что в тезаурусе обозначается отношением АСЦ 1 .

Всего понятие ЛЕСНОЙ МАССИВ связано непосредственно с 28 другими понятиями, с учетом транзитивности отношений – с 235 понятиями (суммарно более 650 текстовых входов).

  1. Оценка современное состояния

тезауруса русского языка РуТез

5.1. Лексический состав

В настоящее время в тезаурусную сеть включено более 95 тысяч языковых выражений, из них 61 тысяча однословных.

Такой объем сделанного заставил нас определиться, какие слова и языковые выражения необходимо включать в описания Тезауруса. Естественным желанием было посмотреть, насколько в тезаурусе представлены наиболее частотные слова русского языка. Для этого была использована текстовая коллекция Университетской информационной системы РОССИЯ (400 тысяч документов). Коллекция содержит официальные документы различных органов Российской Федерации (55 тысяч документов с 1992 года), а также материалы прессы с 1999 года (газеты «Известия», «Независимая газета», «Комсомольская правда», «Аргументы и факты», журнал «Эксперт» и другие), материалы научных журналов («Вестник Московского университета», «Социологический журнал»). Сопоставление проводилось между списком лемм, включенных в Тезаурус, и списком наиболее частотных 100000 лемм текстовой коллекции (частотность более 25).

Полексемная разметка списка показала, что среди этих ста тысяч лемм 35 тысяч описаны в РуТез, лишь около 7 тысяч лексем заслуживает включения в Тезаурус, остальные представляют собой лемматические варианты различных имен собственных. Поэтому пополнение перестало быть первоочередной задачей и проводится постепенно, начиная с самых частотных слов. Предполагается, что как только этот список будет в основном исчерпан, будет выполнено очередное сравнение с текстовым массивом информационной системы, будут выбраны новые лексемы с частотностью больше чем 25. Далее порог просмотра предполагается снижать. Наличие в текстовой коллекции обширного количества текстовых примеров позволяет быстро реагировать на «лексические новинки» (например, инсталляция ,блокбастер , бомонд , триллер ) и включать их в соответствующие места иерархической системы Тезауруса.

Постоянная работа с актуальной текстовой коллекцией дает уникальные возможности для проверки значимости и качества лексических описаний, предложенных в словарях. Так, например, была выявлена необычайно высокая частотность использования слова Первопрестольная (более 400 раз). Проверка по массиву показала, что слово действительно часто используется как синоним слова Москва , тогда как толковые словари часто помечают это слово как устарелое. Другим примером часто употребляемого слова (более 300 раз), помеченного в словарях как устарелое, является слово благостный .

5.2 Описание значений слов

Сопоставление с текстовой коллекцией показывает, что многие частотные слова массива хорошо представлены в Тезаурусе хотя бы в одном из своих (обычно основных) значений. Выяснить, в какой степени в Тезаурусе представлен спектр значений многозначных слов русского языка, является нашей первоочередной задачей в настоящее время.

Как известно, часто различные словарные источники дают различный набор значений многозначных слов, выделяют оттенки значений, причем один и тот же тип многозначности может быть по-разному описан для различных слов даже в одном и том же словаре. Поэтому задача последовательного и представительного описания значений лексем является важной задачей для создателей любого словарного ресурса.

Однако если ресурс предназначается для автоматической обработки, то задача сбалансированного описания значений становится значительно более ответственной. Чрезмерное раздувание значений может привести к неспособности компьютерной системы выбирать нужное значение, что в свою очередь приводит к значительному снижению эффективности работы системы автоматической обработки текстов. Так, как один из недостатков ресурса WordNet как ресурса для автоматической обработки текстов является чрезмерное количество значений, описанных для некоторых слов (в WordNet 1.6 : 53 значения для run , 47 для play и т.п.). Эти значения трудно различить даже человеку при семантическом аннотировании текстов. Понятно, что компьютерная система также не может справиться с выбором подходящего значения. Поэтому различные авторы предлагают различные способы объединения значений, чтобы улучшить качество обработки.

Одновременно действует противоположный фактор: если значения действительно различаются по своему набору словарных связей (в нашем случае - тезаурусных связей) – они не могут быть склеены в одну единицу (одно понятие) – это также приведет к ухудшению качества автоматической обработки.

Рассмотрим для примера слова школа и церковь , каждое из которых может рассматриваться как организация и как здание.

Каждая школьная организация имеет здание (чаще всего одно). Все части школьного здания (классы, доски) имеют отношение к школе как к организации. Не имеется отдельных специфических видов школьных зданий. Поэтому описание школы как здания нецелесообразно выделять в отдельное понятие. Однако описание такого совокупного понятия ШКОЛА как организация и как здание должно иметь специально оформленное отношение с понятием ЗДАНИЕ . При описание подобных отношений в Тезаурусе используется пометка на отношениях - модификатор “А” («аспект», при автоматическом анализе для учета этого отношения требуется «подтверждение» другими понятиями).

ШКОЛА

ВЫШЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫШЕ А ОБЩЕСТВЕННОЕ ЗДАНИЕ

Соответствующие значения слова церковь не так близки. Церков ь как организация может иметь большое количество церквей-зданий в разных местах, а также имеет множество других зданий. Церковь-здание тесно связано с религией и конфессией, но может менять принадлежность к церкви-организации . Церковь-организация и церковь-здание имеют разные подвиды. Поэтому ЦЕРКОВЬ (ОРГАНИЗАЦИЯ ) иЦЕРКОВЬ (ЗДАНИЕ) представляются в РуТез как различные понятия.

Значительное расхождение в тезаурусных связях интересным образом коррелирует со способностью денотатов, соответствующих значениям, существовать отдельно друг от друга. Так, церковь-здание не перестает существовать и даже называться церковью даже при смене использования в отличие от школы-здания.

Постоянно ведется процесс выверки представленности значений в Тезаурусе, начиная с самых частотных лемм. Для каждой частотной лексемы проверяется, как ее значения описаны в толковых словарях, какие значения используются в коллекции и как они представлены в Тезаурусе. В результате в настоящее время сформирован список из 10000 лексем, многозначность которых еще требует либо дополнительного анализа, либо дополнительного описания. Список получен на основе 30 тысяч наиболее частотных лемм.

Нужно отметить, что в Тезаурусе проблема многозначности частично снимается за счет того, что между различными значениями слова могут быть описаны тезаурусные связи, и поэтому можно по умолчанию выбирать высшее по иерархии понятие. Уж оно‑то точно в тексте обсуждалось. Например, слово фотография имеет три значения: фотография как сфера деятельности, фотография как фотографический снимок, фотография как фотоателье:

ФОТОСЪЕМКА (фотографирование , фотодело , ..., фотография )

ЧАСТЬФОТОГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ

(фото , фотоснимок , фотография )

ЧАСТЬФОТОАТЕЛЬЕ (фотография ).

Таким образом, если не удалось разобраться в каком значении употреблено слово фотография , по умолчанию считается, что речь шла о фотосъемке (процессе, результате или месте), что достаточно для многих приложений автоматической обработки текста.

  1. Применение тезауруса РуТез

для автоматической обработки текстов

С 1995 года общественно-политическая терминология РуТез (общественно-политический тезаурус) активно и успешно применяется для различных приложений автоматической обработки текстов, таких как автоматическое концептуальное индексирование, автоматической рубрицирование с использованием нескольких рубрикаторов, автоматическое аннотирование текстов, в том числе англоязычных . Общественно-политический тезаурус (27 тысяч понятий, 62 тысячи текстовых входов) - базовый поисковый инструмент в поисковой системе УИС РОССИЯ (www.cir.ru).

Вся лексика тезауруса РуТез используется в процедурах автоматической рубрикации текстов по сложным иерархическим рубрикаторам. В существующей технологии каждая рубрика описывается как булевское выражение терминов, после чего производится расширение исходной формулы по иерархии тезауруса. Результирующее булевское выражение может включать уже сотни и тысячи конъюнктов и дизъюнктов.

Приведем для примера фрагмент описания понятиями тезауруса (и языковыми выражениями после расширения формулы) рубрики «Образ женщины» рубрикатора СОФИСТ 2, используемого ВЦИОМ для классификации анкет опросов общественного мнения:

{ЖЕНЩИНА[N]

|| ДЕВУШКА[N]

|| РОДСТВЕННИЦА[L] (бабушка, внучка, двоюродная сестра,

дочь, золовка, мать, мачеха, невестка, падчерица, ...)}

{ЧЕРТА ХАРАКТЕРА[L] (бережливый, бессердечный, забывчивый,

легкомысленный, насмешливый, нетерпимый, общительный, ...)

|| ОБРАЗ[E] (представление, внешний вид, внешность,

наружность, облик, имидж, вид)

|| ПРИЯТНЫЙ[L] (..., интересный, красивый, милый,

привлекательный, симпатичный, располагающий, ...)

|| НЕПРИЯТНЫЙ[L] (антипатичный, грубый, противный, ...)

|| ЦЕНИТЬ[L] (благоговеть, боготворить, обожать,

поклоняться, преклоняться, ...)

|| ПРЕДПОЧЕСТЬ[N]

Символ «E» обозначает полное расширение по иерархии тезауруса, символ «L» - по видовым связям («НИЖЕ»), символ «N» - не расширять.

Производятся исследования по разработке комбинированной технологии автоматической рубрикации текстов, сочетающей знания тезауруса и процедуры машинного обучения.

Исследуются вопросы использования тезауруса для расширения запроса, сформулированного на естественном языке (сейчас для расширения терминологического запроса в информационно-поисковой системе УИС РОССИЯ используется только общественно-политическая часть тезауруса), поиска ответов на вопросы в больших текстовых коллекциях.

7. Заключение

В работе представлены основные принципы разработки лингвистических ресурсов для автоматической обработки больших текстовых коллекций. Создаваемый лингвистический ресурс - Тезаурус русского языка РуТез - предназначен для использования в таких приложенияхавтоматической обработки текстов как концептуальное индексирование документов, автоматическая рубрикация по сложным иерархическим рубрикаторам, автоматическое расширение естественно-языковых запросов.

Данная работа частично поддерживается грантом РГНФ № 00-04-00272а.

Литература

  1. Лукашевич Н.В., Салий А.Д., Представление знаний в системе автоматической обработки текстов //НТИ, Сер.2. 1997. № 3. С. 1‑6.
  2. Журавлев С.В., Юдина Т.Н., Информационная система РОССИЯ //НТИ, Сер.2. 1995. № 3. С. 18‑20.
  3. Winston M., Chaffin R., Herman D., A Taxonomy of Part-Whole Relations // Cognitive Science. 1987. No. 11. P. 417‑444.
  4. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. An Electronic Lexical Database / Ed. by C. Fellbaum. Cambridge, Massachusetts, London, England.: The MIT Press 1998. P. 179‑196.
  5. Guarino N., Welty C., A Formal Ontology of Properties // Proceedings of the ECAI-00 Workshop on Applications of Ontologies and Problem Solving Methods. Berlin: 2000. P. 121-128. (http://citeseer.nj.nec.com/guarino00formal.html).

Some Ontological Principles for Designing Upper Level Lexical Resources // First Int. Conf. on Language Resources and Evaluation. 1998.

  1. ЛукашевичН.В., Добров Б.В., Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования // НТИ, Сер.2. 2000, № 4, С. 21‑28.
  2. Большой толковый словарь русского языка / Под ред. С.А. Кузнецова. Спб.: Норинт, 1998.
  3. Ожегов С.И., Шведова Н.Ю., Толковый словарь русского языка – 3-е издание. М.: Азъ, 1996.
  4. Апресян Ю.Д., Избранные труды, том I. Лексическая семантика: 2-е изд. М.: Школа «Языки русской культуры», Изд. Фирма «Восточная литература» РАН, 1995.
  5. G. Miller, R. Beckwith, C. Fellbaum, D. Gross and K. Miller, Five papers on WordNet, CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
  6. Chugur, J. Gonzalo and F. Verdjeo, Sense distinctions in NLP applications // Proceedings of “OntoLex-2000”: Ontologies and Lexical Knowledge Bases. Sofia: OntoTextLab. 2000.
  7. Loukachevitch N., Dobrov B., Thesaurus-Based Structural Thematic Summary in Multilingual Information Systems // Machine Translation Review. 2000. No. 11. P. 10‑20. (http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm).

Thesaurus of russian language for natural language processing

of large text collections

Natalia V. Loukachevitch, Boris V. Dobrov

Keywords: thesaurus, natural language processing, informational retrieval

In our presentation we consider main principles of developing lexical resources for automatic processing of large text collections and describe the structure of Thesaurus of Russian Language, which is developed since 1997 specially as a tool for automatic text processing. Now the Thesaurus is a hierarchical net of 42 thousand concepts. We describe current stage of the Thesaurus developing in comparison with 100 000 the most frequent lemmas of the text collection of University Information System RUSSIA (www.cir.ru), including 400 thousand documents. Also we consider the use of the Thesaurus in different applications of automatic text processing.

кафедры ТАОИ КемГУКИ

Информационно-поисковые тезаурусы:

структура, назначение и порядок разработки

1. Тезаурус как способ систематизированного представления знаний и

разновидность идеографического словаря.

2. Информационно-поисковые тезаурусы: сущность и назначение

3. Структура ИПТ

4. Порядок разработки, экспертизы, регистрации и ведения ИПТ.

Список литературы

1. ГОСТ 7.74 – 96. Информационно-поисковые языки. Термины и определения [Текст]. – Введ. 1997-07-01. – Минск: Межгосударственный совет по стандартизации, метрологии и , 1997. – 34 с. (Система стандартов по информации библиотечному и издательскому делу) ТК 191.

2. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, и форма представления [Текст]. – ГОСТ 7.25-80; Введ. 2002-07-01. – М.: ИПК Изд-во стандартов, 2001. – 16 с. МТК 191.

3. ГОСТ 7.24-2007 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24-90; введ. 2008-07-01. / Межгосударственный совет по стандартизации, метрологии и сертификации. – М.: Стандартинформ, 2008. – 7 с. (Система стандартов по информации, библиотечному и издательскому делу)

4. Баранов, О. С. Идеографический словарь русского языка / О. С. Баранов. – М.:Издательство ЭТС, 1995. – 820 c

5. Жмайло, С. В. К вопросу об определении тезауруса [Текст] / С. В. // НТИ. Сер. 1 Организация и информационной работы. – 2003. – №12. – С.20 – 25.

6. Жмайло, С. В. К разработке современных информационно-поисковых тезаурусов [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. –2004. – №1. – С.23 – 31.

Так, в идеографическом словаре русского языка О. С. Баранова (4) выделены 12 высших разделов идеографического словаря, среди которых: «порядок, природа, деятельность, культура» и др., каждый из которых делится на группы, подгруппы, отделы, разделы. Все слова в этом словаре собраны в гнезда по смыслу и группируются некоторого понятия, с которым они связаны чаще всего видовыми отношениями. Гнезда в свою группируются в подразделы и т.д. На данный момент в словаре 5923 гнезд, 7 уровней деления (по данным www.rifmovnik.ru/thesaurus.htm на 16.02.2010 г.). Приведем пример словарной статьи из этого словаря:

178.4.7 аромат ▲ - приятный запах (например, запах цветов, травы, сена. нежный #. пьянящий #). ароматизация . . . амбре. фимиам.

Код слова «аромат» отражает принятую в данном идеографическую классификацию, в частности, соотнесенность данного слова с категорией «178- Ощущения».

Таким образом, термины «тезаурус», «идеографический словарь», «словарь типа тезаурус», в первую очередь означают, что совокупность слов языка в них представлена таким образом, что в одну группу слов входят слова, близкие по смыслу. Основное назначение идеографических словарей - совокупности лексических единиц, объединённых общим понятием; это облегчает читателю наиболее подходящих средств для адекватного выражения мысли и способствует активному владению языком.

Из истории тезаурусов

КУРТКИ 2302

в Изделия костюмные

Изделия пальтовые

Изделия швейные

н Куртка двубортная

Куртка комбинированная

Куртка спортивная

в Меры упаковочные

Остатки материала

Отходы материала

Лексическое примечание;

Аскрипторы или дескрипторы-синонимы;

Вышестоящие дескрипторы;

Нижестоящие дескрипторы;

Ассоциативные дескрипторы;

Дескрипторы, связанные другими видами отношений.

Внутри каждой группы ЛЕ, связанных с заглавным дескриптором одним видом парадигматических отношений, должен быть алфавитный порядок расположения. Например:

АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ

с языки алгоритмические

машиноориентированные языки

проблемноориентированные языки

в ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

ФОРМАЛЬНЫЕ ЯЗЫКИ

н АВТОКОДЫ

а АЛГОРИТМЫ

ПРОГРАММИРОВАНИЕ ср искусственные языки

Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов. Приведем примеры аскрипторных статей:

Алфавитно-цифровые знаки

исп а ФОРМАЛЬНЫЕ ЯЗЫКИ

ЕСТЕСТВЕННЫЕ ЯЗЫКИ

см АЛГОРИТМИЧЕСКИЕ ЯЗЫКИ

Словарная статья может также включать:

Частоту использования дескриптора;

Кодовый номер дескриптора;

Код дескриптора по систематическому указателю;

Классификационные индексы;

Дополнительные семантические и лексикографические пометы;

Иноязычные эквиваленты.

Качество лексико-семантического указателя определяется полнотой включенных в него лексических единиц. понимается как вероятность вхождения в тезаурус любого информативно-значащего слова для данной тематической области. Полнота лексико-семантического указателя, а, следовательно, и всего тезауруса оказывает существенное на результаты индексирования документов и запросов.

Дополнительные части могут включать в свой состав систематический, пермутационный, иерархический и другие указатели и списки специальных категорий лексических единиц.

Систематический указатель – это указатель, в котором дескрипторы сгруппированы согласно принятой в ИПТ рубрикации. Систематический указатель определяет тематическое направление тезауруса, раскрывает его содержание и отражает те отрасли науки и техники, по которым можно с той или иной глубиной детализации проводить поиск. Необходимость его как части ИПТ обусловлена тем, что он дает наглядное представление об общем состоянии терминологии в той или иной области знаний, позволяет построить стройную терминологическую модель и по возможности все термины и понятия, которые должны найти место в тезаурусе. Он предназначен для облегчения поиска терминов при составлении поисковых образов документов и запросов путем упорядочения множества дескрипторов и аскрипторов по предметному признаку.

Систематический указатель, по существу, представляет собой классификационную схему наполнения тезауруса терминологией, так как он строится путем упорядочения множества дескрипторов по предметно-тематическим областям.

Систематические указатели ИПТ подразделяют на три типа:

Тематические,

Смешанные.

Такое деление отражает принцип построения классификационной схемы систематического указателя.

Основные функции, выполняемые систематическим указателем ИПТ:

Использование в качестве вспомогательного при индексировании, обеспечивающее, всего, поиска дескрипторов для индексирования понятий, не представленных в тезаурусе в явном виде (поисковая функция);

Использование в процессе ведения тезауруса (функция ведения ИПТ);

Использование в качестве структурной основы ИПТ, как управления его разработкой (конструктивная функция).

В соответствии с ГОСТ 7.25-2001 (2) при построении систематического указателя тематического и смешанного типов в его тематической части следует использовать рубрики Межгосударственного рубрикатора НТИ или рубрикатора конкретной АСНТИ, совместимого с Межгосударственным рубрикатором НТИ. При построении систематического указателя категориального и смешанного типов в его категориальной части следует следующие общие категории:

Названия дисциплин и отраслей деятельности;

Предметы, материалы;

Методы, процессы, операции, явления;

Свойства, величины, параметры, характеристики;

Отношения, структуры, модели, законы, правила, абстрактные понятия.

Иерархический указатель. Иерархический указатель – указатель, в котором дан перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. Он отражает полную структуру иерархических отношений в ИПТ. После каждого дескриптора приведе-ны непосредственно дескрипторы с указанием их уровня в иерар-хии путем применения нумерации либо графического обозначения уровня:

Необходимость разработки иерархического указателя ИПТ бывает вызвана тем, что в словарных статьях ИПТ не закрепляется вся система подчиненности понятий, т.к. это повлекло бы за собой значительное увеличение лексико-семантического указателя. возникает необходимость разработки самостоятельного раздела ИПТ – иерархического указателя, который бы отражал всю иерархическую цепочку подчиненности дескрипторов донизу.

Пермутационный указатель – указатель, в котором в алфавитном порядке перечислены все отдельные слова, входящие в компоненты словосочетаний, обозначающих дескрипторы и для каждого из них указаны все дескрипторы, в состав которых входят эти слова. Следовательно, каждый термин встречается в пермутационном указателе столько раз, сколько значащих слов он содержит. Назначение пермутационного указателя – обеспечивать поиск дескрипторов-словосочетаний по любому слову, входящему в их состав, в том числе и по тем, которые не стоят в начале лексической единицы. Он позволяет группировать в одном месте однокоренные слова.

Как правило, пермутационный указатель составляется автоматизированным способом и имеет обычно вид указателя типа KWIC (Key Word – In Context – «Ключевые слова в контексте»), в котором все значащие слова – терминов – располагаются в алфавитном порядке. в пермутационный указатель находится в центре колонки, которую образуют микроконтексты элементов терминов, а неуместившаяся часть терминов переносится в левую часть той же строки:

оптические квантовые

возбуждения

электрические

с зависимым возбуждением

ГЕНЕРАТОРЫ помех

ГЕНЕРАТОРЫ последовательного

ГЕНЕРАТОРЫ постоянного тока

ГЕНЕРАТОРЫ постоянного токаоказаться необходимыми.

4.Порядок разработки, экспертизы, регистрации и ведения ИПТ

В настоящее время порядок разработки, экспертизы и регистрации ИПТ определяется двумя стандартами: ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» и ГОСТ 7.24-2007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». В соответствии с этими стандартами функции экспертизы и регистрации ИПТ выполняют национальный и международный депозитарные фонды.

Национальный депозитарный фонд ИПТ на русском языке (включая ИПТ, содержащие эквиваленты дескрипторов на русском языке) находится в , в ВИНИТИ.

Существует также два международных депозитарных ИПТ:

1) международный депозитарный фонд ИПТ на английском языке, включая ИПТ, содержащие эквиваленты дескрипторов на английском языке. Он находится в , в г. Торонто, в библиотеке факультета информационных наук Университета в Торонто (Thesaurus Clearinghouse – «расчетная », The Library, Faculty of Information Studies, University of Toronto, TORONTO, Canada);

2) международный депозитарный фонд ИПТ на всех других языках, кроме английского. Он находится в , в Варшаве, в научной и технико-экономической информации (Instytut Informacji Naukowej, Technicznej i Ekonomicznej, Clearinghouse, WARSZAW A, Poland.).

Полные адреса этих организаций приводятся в ГОСТ 7.25-2001.

ГОСТ 7.25-2001 и ГОСТ 7.24-2007 определяют действий разработчиков ИПТ следующим образом:

1. До начала работ по созданию ИПТ разработчик должен обратиться в соответствующий национальный или международный депозитарный фонд с целью определения наличия зарегистрированных тезаурусов по заданной тематике. При наличии таких тезаурусов проводят оценку возможности внедре-ния их в данной системе. Если такие тезаурусы не обнаружены, может к созданию ИПТ. При этом вся технология по созданию ИПТ должна строго соответствовать ГОСТ 7.25-2001 и ГОСТ 7.24-2007

2. Готовые (разработанные) ИПТ должны пройти экспертизу на соответствие ГОСТ 7.25-2001. они соответствуют стандарту, то Национальный выдает разработчику . этого ИПТ депонируется (сдается на хранение) в соответствующем национальном или в одном из международных депозитарных фондах (в Торонто или Варшаве).

Национальные депозитарии распространяют информацию о составе фонда депонированных ИПТ и предоставляют их разработчикам новых ИПТ с целью заимствования элементов и обеспечения совместимости лингвистического обеспечения различных информационных систем. Таким образом, они выполняют функции экспертизы, регистрации, хранения ИПТ и информирования об имеющихся ИПТ.

Многие операции по ведению ИПТ);

Переход АИС от независимого функционирования к работе в режиме сети (при использовании ИПТ в рамках единой принципы их ведения должны быть согласованы).

Процедура поддержания ИПТ в рабочем состоянии называется ведением или корректировкой тезауруса. Обычно она включает следующие :

Изменение лексического состава ИПТ: внесение новых лексических единиц, их , изменение статуса лексических единиц (перевод ключевого слова в дескрипторы и наоборот);

Изменение парадигматических отношений в ИПТ (усиление, ослабление);

Ведения ИПТ предполагает обязательное использование средств автоматизации, позволяющих оперативно производить такие трудоемкие операции, как алфавитная сортировка словника, лексики, проверка взаимности и непротиворечивости ссылок, с помощью которых в ИПТ фиксируются парадигматические отношения и др.

Теза́урус (от греч.thesauros- сокровище) в современной лингвистике - особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т.п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.

В отличие от толкового словаря, тезаурус позволяет выявлять смысл не с только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта.

В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами ее употребления в текстах.

Пароними́я - частичное звуковое сходство слов при их семантическом различии (полном или частичном). Паронимы часто являются источником речевых ошибок.

Примеры однокоренных паронимов: одеть - надеть, человеческий - человечный, оплатить - уплатить - заплатить.

Примеры совершенно неродственных паронимов: биология - бриология, бульон - брульон, компот - комплот, фактура - фрактура.

Однако тезаурус - это больше, чем инструмент информационного поиска. Тезаурус можно рассматривать как универсальную модель терминологической системы, а потому - как формальную систему знаний, содержащихся в языке конкретной научной области.

Тезаурус общего назначения

Тезаурус в наиболее общем определении - это словарь с семантическими связями между словарными единицами. С конца 50-х годов тезаурусы использовались в системах машинного перевода и информационно - поисковых системах (ИПС).

В отличие от семантических словарей, которые предназначены для подробного описания общей лексики, тезаурусы созданы для хранения и классификации предельно конкретных слов и словосочетаний. Например, слово вещество находится в словаре РОСС (Русский общесемантический словарь), а все названия химических соединений уже в тезаурусе.

Какие связи описываются в тезаурусе? Как правило:

    род-вид (AKO)

    часть-целое (POF)

    синонимия/антонимия

    ассоциативные.

Пример связи «род-вид»

Пример семантического разбора

Это парадигматические (устойчивые связи, существующие между словами в языке). И то не все.

Синтагматические (текстовые) связи в тезаурусе не представлены.

Пример: WORDNET - интеллектуальный компьютерный тезаурус

http://wordnet.princeton.edu/perl/webwn

Создан в Принстонском университете и свободно распространяется.

Основные особенности.

Слова в нем сгруппированы в синонимические группы (синсеты - synsets ). Они разбиты на 4 словаря - существительные, прилагательные, глаголы и наречия.

Синсеты объединены как в иерархические связи (гипонимы и гиперонимы), так и в отношение антонимии и также меронимии (быть частью чего-л или состоять из частей).

Решена также проблема морфологии - слово после обращения к WN возвращается в исходной форме.

Информационно-поисковый тезаурус

В области информационного поиска выигрыш от использования тезаурусов происходит за счет перехода от текста к дескрипторам, описывающим объект реального мира. Переход к дескрипторам позволяет осуществлять расширенное (избыточное) индексирование.

В информационно поисковом тезаурусе эксплицитно выражаются ПАРАДИГМАТИЧЕСКИЕ отношения между дескрипторами (не все, а те, которые чаще всего важны для повышения полноты информационного поиска). Экспериментально определено, что наиболее важными парадигматическими отношениями являются

    соподчинение

    сходство

    вид-род (род-вид)

    причина-следствие

    часть-целое.

Пример словарной статьи:

Сельскохозяйственные машины

Син. сельскохозяйственная техника, сельхозтехника,

Вид: картофелеуборочный комбайн, сеялка, etc.

Пример избыточного индексирования

Запрос "сельскохозяйственные машины"

Пример: Общественно-политический тезаурус русского языка Университетская информационная система РОССИЯ

http://www.cir.ru/index.jsp

Разработан Автономной некоммерческой организацией «Центр информационных исследований» (АНО ЦИИ)

Тезаурус - это терминологический ресурс, реализованный в виде словаря понятий и терминов со связями между ними. Основное назначение тезауруса - помощь при информационном поиске: на основе связей тезауруса происходит расширение запроса, навигация по связям тезауруса помогает четче сформулировать сам запрос.

Особенностью иерархии Тезауруса УИС «Россия» является множественность классификации, то есть для большинства понятий ищется не единственное классифицирующее понятие (связь ВЫШЕ - НИЖЕ), а описываются различные точки зрения на конкретное понятие, например, понятие МАГАЗИН может рассматриваться и как ЗДАНИЕ, и как ТОРГОВАЯ ОРГАНИЗАЦИЯ.

Тезаурус по общественно-политической тематике, включает более 26.000 понятий, 62.000 терминов, 100.000 прямых и 700.000 наследуемых отношений между понятиями. Существующая версия Тезауруса описывает терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы.

Полное название Тезауруса - Информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования. Здесь все определения важны:

    ”информационно-поисковый” – так как разработан специально для использования в информационном поиске для помощи пользователю при формировании (уточнении) запроса и для автоматического расширения условий запроса при поиске;

    ”по общественно-политической тематике” – так как покрывает 95-99% лексики и терминологии русскоязычного текста общественно-политической тематики;

    ”для автоматического индексирования” – так как является основой для процесса автоматического определения тематики документов - группирования близких по иерархии тезауруса терминов в тематические узлы, автоматического рубрицирования и автоматического аннотирования.

Тезаурусы - заключение

Для многих известных тезаурусов (WordNet, Roget, EuroWordNet) большой проблемой остается автоматический вывод по связям тезауруса - когда расширение на ближайшую окрестность верно, но не полно, а попытки расширить окрестность ведут к ошибкам.

Под тезаурусом понимается сложный компонент словарного типа, в котором все значения словаря связаны между собой семантическими отношениями, отражающими основные соотношения понятий в описываемой предметной области знаний. В прошлом термином тезаурус обозначались по преимуществу словари, с максимальной полнотой представлявшие лексику языка с примерами её употребления в текстах.

В состав тезауруса входят лексемы , относящиеся к четырем частям речи: прилагательному, существительному, глаголу и наречию. Описания, соответствующие каждой части речи, имеют различную структуру.

Основными отношениями в тезаурусе являются:

  • синонимия – связь между словами одной части речи, различных по звучанию и написанию, но имеющих одинаковое или очень близкое лексическое значение, например: кавалерия – конница, смелый – храбрый;
  • антонимия – связь между словами одной части речи, различных по звучанию, имеющих прямо противоположные значения: правда – ложь, добрый – злой;
  • гипонимия/гиперонимия. Гипероним – слово с более широким значением, выражающее общее, родовое понятие, название класса (множества) предметов (свойств, признаков). Гипоним – слово с более узким значением, называющее предмет (свойство, признак) как элемент класса (множества). Эти отношения транзитивны и несимметричны. Гипоним наследует все свойства гиперонима. Являются центральными отношениями для описания существительных;
  • меронимия/партонимия – отношение «ЧАСТЬ-ЦЕЛОЕ». Внутри этого отношения выделяются отношения «быть элементом» и «быть сделанным из». Отношение определено только для существительных;
  • следствие (это отношение связывает между собой глаголы);
  • причина (также определено для глаголов).

Пример тезауруса:

Изба – деревянный крестьянский дом [гипероним]: жилое здание [мероним]: сельский населенный пункт [синоним]: дом

Все отношения создают сложную иерархическую сеть понятий, и знание о том, где находится понятие в этой сети, является важной частью знания об этом понятии. Свойства отношений различны при описании различных частей речи.

В разных системах тезаурус может выполнять разные функции:

  • источник специальных знаний в узкой или широкой предметной области, способ описания и упорядочения терминологии предметной области;
  • инструмент поиска в информационно-поисковых системах;
  • инструмент ручного индексирования документов в информационно-поисковых системах (так называемый контролирующий словарь);
  • инструмент автоматического индексирования текстов.

Начало тезаурусам как понятийным словарям положил Роже (или Роджет, английский физик), систематизировавший лексику английского языка по группам. Каждая группа представлена именем понятия («категории», которых насчитывалось сначала одна тысяча; это обычные слова, расположенные в алфавитном порядке, например AFFIRMATION ... AGENCY...), далее идут его синонимы по частям речи (существительные, глаголы, прилагательные, наречия), антонимы и затем списки родственных слов (их много, и некоторые представляют собой отсылки к именам других категорий, в словарной статье которых список «дальних родственников» может продолжаться, например, от AGENCY... see BUSINESS). Со времени издания тезауруса Роже в 1852г. и до сих пор продолжаются его переиздания в разных видах и для разных пользователей, тезаурус постоянно пополняется новой лексикой и связями, но за всеми вариантами остается имя создателя первой версии. Ценность этого тезауруса в его естественности, в том, что это описание всей лексики языка, а не только терминологии, а также в том, что его можно привлекать к использованию в системах информационного поиска как средство увеличения семантической силы системы.

Тезаурусы остаются до настоящего времени наиболее принятой формой описания знаний предметной области, пригодной для восприятия человеком. Примерами современных иностранных тезаурусов являются WordNet и EuroWordNet.

Тезаурус английского языка WordNet появился в 1990г. и начал активно привлекаться в различные сферы автоматической обработки текстов. WordNet охватывает около 100 тыс. различных единиц (из них почти половина – словосочетания), организованных в 70 000 понятий.

В настоящее время начинает разрабатываться многоязычный тезаурус EuroWordNet. Первоначально для четырех языков (датского, итальянского, испанского и американского английского) разрабатывается сеть значений слов, связанная семантическими отношениями и позволяющая находить близкие по смыслу слова различных языков. В отличие от тезауруса Роже и сети WordNet, которые создавались для описания лексической и понятийной системы английского языка, EuroWordNet создается в первую очередь для решения практических задач автоматической обработки больших массивов текстов. Важнейшими задачами, которые предполагается решать с помощью этого тезауруса, являются следующие:

  • обеспечение многоязычного информационного поиска;
  • увеличение полноты информационного поиска;
  • формулирование запроса на естественном языке;
  • семантическое индексирование документов и др.

Кроме этих отношений вводятся также тематические отношения, которые связывают понятия одной предметной области. Предполагается также ввести специальные пометки на отношения между понятиями, обозначающие дизъюнкцию или конъюнкцию отношений. Если некоторое понятие в сети имеет несколько одноименных отношений, то они могут быть дизъюнктивными, т. е. реально реализуется одно из этих отношений, или конъюнктивными, т. е. для понятия действительны все эти отношения.

В отечественных институтах создано более сотни отраслевых тезаурусов, удовлетворяющих определенному государственному стандарту на словари подобного типа. Они так и именуются – ИПТ – информационно-поисковые тезаурусы. Из всех возможных смысловых отношений между понятиями в них зафиксированы три: синонимические, родовидовые (к которым относят обычно и отношение «ЧАСТЬ-ЦЕЛОЕ») и «все прочие», называемые также ассоциативными.

Стандартные ИПТ предназначены в основном для ручного индексирования документов, а также для формулировки и варьирования запросов при поиске. Есть нестандартные тезаурусы, которые ставят задачу скорее выборочной систематизации терминологии в конкретной области знаний – это особенно актуально для новых предметных областей. Растет тенденция к обогащению тезаурусов определениями терминов, что важно для различения неоднозначности терминов, особенно в случае смежных дисциплин и при выходе из границ узких предметных областей.