Калмыков В. Л.[1]

 Переработка научных данных в знания как актуальная ТЕХНИЧЕСКАЯ ЗАДАЧА

В науке основное внимание продолжает уделяться получению первичных экспериментальных данных. Однако, чтобы быть использованными в образовании, технологии, политике, экономике, образе жизни и мировоззрении, они должны быть преобразованы в знания - в главный продукт современного  общественного производства.

Научные кадры для синтеза знаний в России пока еще имеются, несмотря на стремительное старение и интенсивную эмиграцию ученых. Получение первичных экспериментальных данных[2] - дорогое занятие. Но, в отличие от получения первичных данных, их переработка не столь затратна, хотя и приводит к появлению гораздо более дорогостоящих продуктов - знаний. "Залежи" первичного сырья  огромны. Проблема преобразования экспериментальных данных в единую систему научных знаний особенно важна для самой науки, для образования, для разработчиков  технологий, здравоохранения и т.д.

Получение знаний может быть интенсифицировано специальной последовательной государственной политикой в этой сфере. Кроме психологической и организационной поддержки этого процесса, полезными могут быть современные информационные технологии, позволяющие 

v                        находить источники знаний,

v                         извлекать знания из людей-экспертов, из баз данных и из печатных текстов и электронных книг,

v                         обращать живую речь в компьютерный текст и, наоборот, текст в живую речь (последние версии    программы «Горыныч»);

v                         облегчать библиографические работы (программы типа «Reference Manager»);

v                         автоматически индексировать документы,

v                         реализовать возможности электронного издания книг, журналов, документов и так далее.

Ниже некоторые из этих возможностей рассматриваются подробнее. Большой интерес представляют также специальные обзоры, посвященные технологиям работы со знаниями – [1, 2]

Создание учебников, научных гипотез, теорий и моделей - традиционно стихийный ненормируемый процесс. Благодаря компьютерным технологиям появилась новая специальность - инженер в области работы со знаниями. Специализация  такого рода делает переход от данных к знаниям менее трудоемким и более быстрым. Знать об этих возможностях должен каждый, кто  сделал компьютер одним из главных средств своей повседневной работы.

Заметим, что незаметно меняется смысл понятия знания: теперь определение этого термина означает  осмысленный текст. Текст, отражающий одну или несколько сторон бытия, одно или несколько свойств материи и законов ее существования.

А получение знаний - это переход от контекстно структурированных данных, преобразованных  процедурами их многоуровневой иерархической соорганизации  и семантической и семиотической метаиндексации,  в  осмысленный текст.

Слабость такого понимания видится в отсутствии важного свойства знания - опыта и умения использовать полученную информацию  в конкретной ситуации.  Знающий человек умеет интерпретировать и применить свои знания, иначе его можно назвать не знатоком в данном  деле, а начетчиком[3].

Работа по превращению данных в знания

В первую очередь,  это гипертекстовые и мультимедийные технологии. Благодаря гипертексту документы стали многомерными и отражающими информацию различных форматов.

Уже сегодня возможны, по меньшей мере, три функции новых технологий. Это обработка описаний:

v   экспериментальных фактов и объектов исследований;

v   стандартов и норм, инструментов, приборов, технологий и методов исследований (включая математические и компьютерные методы моделирования и расчетов),

v   идей, соорганизующих факты об объектах исследований: о гипотезах, интерпретациях, концепциях, теориях, моделях и т.д..

Первые две группы данных  неразрывно связаны одна с другой. Для того, чтобы адекватно интерпретировать экспериментальные факты, нужно располагать детальными сведениями об исследовательских инструментах, использованных при постановке экспериментов. Эти данные важно увязать с данными об условиях их получения и об использованных инструментах исследований. Зачастую, появлению новых экспериментальных данных предшествует появление новых инструментов исследований.  

Современная наука имеет, по меньшей мере, четыре тесно взаимодействующих компонента: инструмент, эксперимент, теория и модель. Важной особенностью современной науки стало появление компьютерных моделей, которые играют роль принципиально новых объектов и  инструментов исследований  и особых форм выражения теоретических идей. Компьютерные модели становятся эффективным способом представления знаний.

Здесь уместно напомнить основные этапы формирования знаний:   

1.    Этап получения первичных эмпирических данных.

2.    Этап эмпирических накоплений и обобщений, первичного описания и первичного осмысления фактов.

3.    Этап появления частных теорий, основанных на эмпирических обобщениях.

4.    Этап  обобщения частных теоретических подходов и всей совокупности имеющихся информационных данных в обобщенную теорию. 

Типы компьютерных моделей соответствуют типам научных теорий. Чем выше уровень теоретического обобщения,  чем полнее характеризуется предмет, тем большее количество данных теоретик должен удерживать в памяти. Последний факт затрудняет каждый последующий шаг приближения к обобщенной теории. В то же время, после завершения очередного этапа интеграции возникают более компактные теоретические модели, облегчающие понимание и дальнейшую интеграцию знаний. Приведенные четыре этапа  образуют «когнитивный цикл», имеющий аналогии в обобщенных механизмах самоорганизации живого. Знания возникают по механизмам, близким к механизмам эволюции живых существ [3, 4]. Интересно, что и современные компьютерные технологии работы со знаниями развиваются в основном благодаря заимствованиям идей из мира живых существ – это так называемые биологически инспирированные подходы в информатике [5].

Поиск (экстракция), отображение и создание знаний

«Классическая» поисковая программа умеет найти по запросу из нескольких слов документы, в которых есть данные слова. Этой простой возможности при росте объемов текстовых баз становится совершенно недостаточно. И в последнее время поисковые программы начинают оснащаться средствами представления и извлечения знаний. Перечислим основные «умения» лучших поисковых систем:

Ø    индексирование текстов и поиск по ключевым словам (по индексу);

Ø    морфологический поиск - разбор и отождествление различных грамматических форм слов; 

Ø    логический язык запросов, позволяющий задавать условия на совместное вхождение ключевых слов в искомый документ;

Ø    ранжирование по степени соответствия документа запросу;

Ø     итеративный поиск;

Ø    составление тезаурусов, аннотаций и рефератов, каталогов и  гипертекстов;

Ø     извлечение знаний;

Ø     языковой доступ к базам данных;

Ø    классификация документов;

Ø    работа с запросами на естественном языке;

Ø     итеративный поиск.

 

Поиск похожих документов

В Интернете эту функцию выполняют, например, поисковые программы AltaVista, HotBot, из российских - «Яндекс» (www.yandex.ru) и «Рамблер» (www.rambler.ru) Нужно сказать, что пока программисты продвинулись не слишком далеко и, как правило, данная функция выполняется плохо: часто выдается совсем не то. Довольно полная подборка программ-ищеек подготовлена в Томском университете.

Поиск в  выборке. Если по первому запросу поисковая программа нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только для выборки. Эта функция очень проста в исполнении. Нужно только сохранить предыдущую выборку.

Тезаурусы (словари).

Служат для  расширения запроса и включают в него синонимы, антонимы, родственные слова.

Поиск типа «где». Начали появляться особые поисковые программы - службы имен, позволяющие по «обычному» имени ресурса Интернет найти точное место его расположения. Нам известны две таких службы: калифорнийская служба имен RealNames (www.realnames.com) и российская национальная служба имен (www.names.ru).

Очевидно, данный вид поиска будет постепенно включен в традиционные поисковые службы, в частности, служба имен RealNames уже куплена поисковой службой AltaVista, так что теперь, если посетитель подобной поисковой программы введет в качестве запроса имя некоторой компании или ее торговую марку,  получит ссылку на сервер этой компании.

Каталоги.  В Интернете каталоги известны не менее, чем популярные поисковые программы, прежде всего - это каталог Yahoo (www.yahoo.com). Создатели классификаторов придумывают достаточно логичное и прозрачное дерево категорий, а затем наполняют его ссылками на документы и прочие ресурсы и составляют к ссылкам краткие аннотации. Например, каталог Yahoo непрерывно наполняют содержанием (ссылками и аннотациями) несколько тысяч человек, являющихся специалистами в той или иной области (т. е. категории документов). Впрочем, сейчас появляются средства автоматической классификации и аннотирования документов.

Точно так же строятся каталоги и классификаторы вне Интернет, в частности, в правовых справочных базах данных, в корпоративных информационных системах типа «Гарант», «Консультант плюс», «Кодекс» и др.. Каталоги предоставляют более удобный вид доступа к данным, так как они больше, чем поисковые программы, похожи на знания за счет своей структурированности. Приведем в качестве примера каталог Томского университета.

Однако для эффективного использования каталога пользователю нужно еще угадать принцип структуризации, который был применен при его создании и который зачастую существует только в головах авторов каталога. Если уж пользователь не знает, на какой ветке дерева «по логике» данного каталога лежит нужная ссылка, то  найдет ее нескоро. Поэтому для компенсации неудобств, каталоги теперь включают в средства поиска.

И наоборот, поисковые программы стали снабжаться каталогами. Видимо, в дальнейшем эти два вида доступа окончательно сольются - вопрос только в том, как автоматизировать составление каталогов.

Аннотирование. Каталоги включают краткие аннотации для внесенных в них ссылок. Например, Yahoo содержит аннотированные ссылки на 500 000 Интернет-страницах разбитых на 25 000 категорий. Как говорилось выше, аннотации составляются вручную экспертами соответствующих областей знаний. Русский аналог Yahoo  - Ау! - составляется точно так же, только специалистов в нем работает  в лучшем случае один-два десятка, аннотированных ресурсов - около 12 тысяч.

Гипертекст. Гипертекст является новым, наиболее эффективным способом отображения знаний. Существуют, однако, психологические проблемы восприятия гипертекста. Дело в том, что средний человек с трудом запоминает вложенные структуры с уровнем вложенности более трех, а этим количеством уровней часто не удается обойтись при отображении структуры данных. Читатель легко теряется в бесконечных "коридорах" гипертекста - ему хочется вернуться в начало документа и вообще хочется взять в руки традиционную книгу и удобно развалиться с ней в кресле.

Для решения таких психологических проблем службы Интернет выполняют функции оглавлений (sitemap) и поиска по сайту. Электронные книги имеют гиперссылки на оглавление, на начало и конец документа, на соседние страницы вниз и вверх по тексту. Вызов оглавления может быть  организован в виде легко вызываемого окна.

Созданы удобные переносные компьютеры размером с обычную книгу. При создании электронных учебников удобству и психологичекому комфорту придается важное значение.

Извлечение знаний. Многие задачи извлечения знаний поддаются автоматизации. Традиционно это направление компьютерной науки носит громкое рекламное имя «искусственный интеллект», хотя, по сути, представляет собой набор вполне простых технических приемов программирования и прикладной лингвистики.

История искусственного интеллекта - история несбывшихся обещаний. В начале-середине восьмидесятых годов начался бум так называемых экспертных систем, которые должны уметь сами опрашивать экспертов той или иной области знаний, а затем отвечать на вопросы профанов и даже давать пояснения, если ответ непонятен.

Крах этой отрасли искусственного интеллекта наступил к концу 80-х, когда стало ясно, что не то только автоматически извлечь данные из эксперта, но и даже создать вручную «базу знаний» не удается. После кавалерийского наскока на "искусственный интеллект" некоторые известные в этой области ученые на время "ушли в подполье".

Например, сотрудники  CYC Corp. (www.cyc.com; CYC - это "компьютерная энциклопедия знаний") еще в 1984 году решили построить действительно большую (на сотни тысяч высказываний) базу знаний общечеловеческого "здравого смысла". Они дождались бурного расцвета вычислительной мощности, и вот уже Lycos пытается применить эти технологии работы со знаниями в своей поисковой системе (beta.hotbot.com).

Сами можете убедиться, как бывшая совсем тупая информационная «ищейка» сегодня уже в состоянии переспросить, какого из Фордов вы ищете - президента, предпринимателя или автомобиль.
Несколько лет назад начался новый бум, под именем «добыча данных» - data mining. Сегодня уже нельзя утверждать, что системы искусственного интеллекта - это только мечты и благие намерения. Функции семантического объединения (association, affinity), анализ временных рядов (sequence-based analysis, sequential association), кластеризация (clustering), классификация (classification), оценивание (estimation), нечеткая логика (fuzzy logic), статистические методы, генетические алгоритмы (genetic algorithms), фрактальные преобразования (fractal-based transforms), нейронные сети (neural networks), онтологии (например продукты CYC Corp.) - все это реально работает в программах data mining на интеллектуальном уровне зачастую превышающем уровень обывательского здравого смысла. Десятки такого рода программ успешно продаются по весьма высокой цене. Без человека пока не обойтись,  но есть ощущение, что и этот барьер скоро будет преодолен системами реального (strong) искусственного интеллекта. Одна из самых больших сетевых библиотек Dialog Corp., www.dialog.com, дает средства поиска по множеству признаков, в том числе по известным и неизвестным (!) именам компаний и торговых марок.

Языковой доступ к базам данных. Структурированный язык запросов (SQL), поддерживаемый популярными базами данных,  выдает результаты в виде специальных форм отчетов. Круг типичных вопросов обычно довольно быстро исчерпывается - до следующего пользователя. Язык SQL создавался специально для таких запросов. И  для англо-говорящего пользователя его синтаксис напоминает синтаксис естественного языка. Однако сходство это скорее внешнее, и задание запросов на SQL - это достаточно квалифицированный труд. Фактически, задача применения естественно-языкового интерфейса к базам данных состоит в переводе с обычного языка на формальный язык SQL и значительно проще перевода на другой естественный язык.

Построение гипертекстов.  Когда нужно создать обширную систему помощи для сложной программы, скажем, для проектирования и эксплуатации атомной электростанции, расставить руками ссылки практически невозможно. Возникает потребность в автоматическом определении мест, где ссылки необходимы, в выявлении связей между документами и в расстановке ссылок. Такие инструменты существуют, в частности, и российского производства (например, функцию расстановки гиперсвязей включает система HyperMethod петербургской фирмы AI Labs - veronica.etu. ru/ailab, а также система TextAnalyst - www.textanalyst.ru).

Программное аннотирование. Прежде всего, отметим, что фактически во всех известных системах программное аннотирование является экстрагированием - программа не «пересказывает» смысл текста, а просто извлекает из него те фрагменты, которые считает важными, и объединяет их в аннотацию. Важность конкретного предложения определяется по различным признакам, в частности, по так называемым маркерам важности (например, «в заключение нужно сказать, что...»), количеству содержательных слов в нем и т. д.

В наиболее развитых программах учитывается также зависимость предложений друг от друга с тем, чтобы не вносить в аннотацию обрывки, начинающиеся, например, со слов «К тому же...», «В-третьих...» и т. п. Чтобы аннотация получилась связной, программа подбирает группы взаимосвязанных (взаимозависимых) предложений, а затем «склеивает» их, для большей связности немного изменяя на стыках.

Существует довольно много готовых программ такого аннотирования. В частности, уже в состав Microsoft Word 95 входит функция для автоматического аннотирования английских текстов. В русской версии Word таких возможностей пока нет.

Для аннотирования текстов на русском языке годятся системы ОРФО 5.0, «Информатик» (www.informatic.ru) и «Либретто 1.0» компании «МедиаЛингва» (www.medialingua.ru), аннотирующих русско- и англоязычные документы. Обе эти программы встраиваются в Microsoft Word. Пробная версия «Либретто» находится по адресу: www.medialingua.ru.

Автоматически построенные аннотации на русском языке в сети Интернет можно увидеть и оценить, запустив поиск на сервере «ИнфоАрт» (www.infoart.ru) с помощью установленной на нем поисковой программы «Следопыт», включающей средство аннотирования документов. Кроме того, доступные по бесплатной подписке новости того же сетевого издательства «ИнфоАрт» рассылаются в виде заголовков с краткими аннотациями, автоматически созданными с помощью средства GoldenKey компании Textar.

Классификация документов. Существуют способы классификации документов, основанные на нейронных сетях, методах кластеризации, отображения документов в формальные многомерные пространства и т. д. В частности, так работает система TextAnalyst компании НПИЦ «Микросистемы» (на сервере www.textanalyst.ru можно скачать демонстрационную версию), а также пример кластеризации газетных публикаций и других документов на сервере компании «Гарант-Парк» (www.park.ru/websom) - демонстрация метода WEBSOM для кластеризации документов.

Компания Autonomy (www.agentware.com) предлагает программу классификации, основанную на статистических принципах;

 «МедиаЛингва» (www.medialingua.ru/products/tecnolo/classify/classify.htm) - автоматическая классификация для текстов на русском и английском языках и автоматическое построение рубрик, «Гарант-Парк» (www.park.ru/websom) - демонстрация кластеризации документов, система классификации на сервере компании WiseWire                 (www. wisewire.com), компания Junglee (www. junglee.com) - так называемая виртуальная база данных для Интернет.

Основной недостаток каталогов - трудоемкость составления тематической иерархии и сортировки поступающих документов. Большая часть этой работы делается вручную.

Проблемы современных средств поиска и хранения текстовой информации были бы решены, умей мы автоматически извлекать из документов их смысл, независимо от способов его изложения. К сожалению, эта задача требует создания полноценного искусственного интеллекта. Заметим, однако, что для поиска достаточно знать не  то, что говорится в данном документе, а лишь   о чем он. Эта задача - распознавания тематики текстов - уже гораздо проще понимания их смысла и вполне разрешима при нынешнем уровне информационных технологий.

Категоризация - базовая технология семейства Alter EgoTM

Разработанная российской фирмой Нейрок (www.neurok.ru)  оригинальная технология тематической категоризации документов позволяет путем углубленного статистического анализа извлекать заданное число базовых тематических категорий, присутствующих в больших массивах текстовых документов. Такие категории определяют содержание, т.е. семантику текста независимо от употребляемых при этом конкретных словосочетаний. Поэтому их также называют семантическими категориями.

После выделения базовых категорий любое словосочетание и любой документ могут быть разложены по этим категориям. Тем самым, становится возможным погружение коллекции документов в векторное семантическое пространство, в котором можно определить расстояние между содержанием документов. Это открывает совершенно новые возможности в поиске и организации текстовых массивов:

v   поиск по содержанию, которого так не хватает в современных поисковых серверах;

v   категоризация и рубрикация документов - для каталоговых служб Сети;

v   подстройка персональных профилей интересов в тематическом пространстве, позволяющая персонализировать вещание в Сети;

v   определение расстояния между персональными профилями,  открывающая возможность плодотворного обмена информацией между близкими по интересам пользователями.

Фирма Alter EgoTM представлена двумя продуктами, реализующими перечисленные выше возможности, основанные на технологии выделения семантических категорий. Это:

Интернет Semantic Server - базовый продукт семейства, выделяющий семантические категории в коллекциях документов и осуществляющий векторную индексацию текстов для поиска по содержанию.

Semantic Explorer - средство ассоциативного поиска и навигации в коллекциях текстовых документов. Продукт рассчитан на активного пользователя, исследующего тематическую структуру текстовых баз данных, что и отражено в его названии

Запрос на естественном языке. Большинство поисковых программ декларирует подобную возможность, и пользователь действительно может ввести в строке запроса «естественный» набор слов, не разделяя их логическими операторами, однако зачастую эта функция фактически не работает. SmartEngine 3.0 - разработанная и принадлежащая Artificial Life, Inc. (www.artificial-life.ru) уникальная технология обработки текста на естественном языке - является неотъемлемой частью ВСЕХ продаваемых фирмой продуктов. Основным  свойством  технологии SmartEngine является диалог с пользователем любой продолжительности. Робот способен задавать вопросы и реагировать на ответы. Таким образом могут моделироваться собеседования, сценарии интерактивного решения разнообразных проблем и тому подобное.

Память-робот запоминает диалог, который  используется, например, для того, чтобы избежать повторения тем, для поддержания разговора с использованием ссылок на темы, которые уже обсуждались и так далее.

 Чувствительность к контексту. Робот способен понимать двусмысленные реплики пользователя, основываясь на контексте беседы. Например, робот в состоянии понять к чему относится "это" в предложении "Сколько это стоит?"

Цели. Во время беседы робот способен преследовать конкретные цели. Так, он в состоянии плавно сводить беседу к обсуждению важных для него тем - неоценимое качество для коммерсантов и бизнесменов.
Спонтанное вмешательство. В случаях, когда пользователь молчит в течение продолжительного времени, робот способен неожиданно вмешаться и предложить новую тему для обсуждения. Но такой робот в состоянии постоянно поддерживать тему, не позволяя переключаться на другие темы.

Передовая технология распознавания. Базы знаний робота ориентированы на технологии распознавания смысла. Они содержат универсальные структурные элементы, которые могут быть с легкостью подвергнуты перестройке на глобальном уровне.
Доступ к базам данных. В процессе диалога с пользователем робот может обратиться к любой JDBC-совместимой базе данных для получения необходимой информации. При этом нет никаких ограничений, связанных с форматом базы данных, так как запросы SQL могут быть непосредственно интегрированы в базу знаний робота.
Доступ к базам данных. SmartEngine использует передовую схему "fuzzy matching" для адресации сложных баз данных, не требующую включения запросов SQL в базу знаний. Это требует создания небольшого специализированного модуля, обеспечивающего интерфейс между SmartEngine и базой данных.
Интеллектуальная поддержка трудных диалогов. SmartEngine обладает способностью поддерживать беседу с "трудными" пользователями и выхода из  непредвиденных неожиданных ситуаций. В таких случаях SmartEngine плавно переводит разговор в удобное русло, сводя тему к обсуждению, например, предыдущего предмета - мы сами зачастую так поступаем.

Информация о пользователе. Построенные на основе SmartEngine роботы способны собирать, хранить и использовать информацию о каждом конкретном пользователе. Информация о пользователе в процессе диалога может быть получена непосредственно: например, робот может спросить пользователя "Как Вас зовут?". Помимо этого, робот способен анализировать информацию, содержащуюся в ответах пользователя в неявном виде. По характеру ответов пользователя  робот может определить социальный слой, к которому принадлежит пользователь.
Хранение и использование информации. Информация о каждом конкретном диалоге, включая данные о пользователе, сохраняется и может быть затребована и использована в последующих диалогах с данным пользователем.

Язык управления "атрибутами". SmartEngine использует специализированный язык управления "атрибутами"  величинами различного типа и логическими, математическими и текстовыми операциями.

Возможность неоднократного использования.                Базы знания построены и структурированы таким образом, что могут быть использованы любыми роботами в новых проектах.

Семантические связи. Темы для обсуждения с пользователем в пределах баз знаний могут быть связаны разнообразными семантическими отношениями. Эти отношения используются роботом в ходе диалога с пользователем для осмысленного и естественного перехода от одной темы к другой.

Иерархии объектов. Базы знаний могут содержать информацию об иерархии объектов. Например, робот способен понимать и эффективно использовать информацию типа "Saab 9000 - это разновидность автомобиля", "автомобиль - это разновидность транспортного средства" и так далее.   

Многоязычность.      Семантически эквивалентные, но относящиеся к разным языкам элементы баз знаний хранятся в одном и том же файле. Английский, немецкий, французский и так далее варианты ответа в базе знаний соседствуют друг с другом. Такая организация баз знаний существенно облегчает перевод баз знаний с одного языка на другой.

Универсальность и специфичность. База знаний может быть использована роботом в проекте с совместимыми базами знаний. В то же время, база знаний может быть специальным образом оптимизирована для использования отдельным конкретным роботом.

 Высокоэффективный редактор баз знаний. Редактор баз знаний - Knowledge Editor 3.0 - редактор нового поколения, который позволяет оптимальным образом использовать все вышеперечисленные достоинства SmartEngine. Knowledge.   Editor 3.0 обеспечивает универсальный интерфейс пользователя для создания баз знаний, которые могут быть использованы любыми роботами нашей компании. Легко дополняемый и оптимизируемый программный интерфейс ориентирован на постоянное добавление и оптимизацию свойств баз знаний. Путем простого создания нового Java-класса можно "научить" робота производить сложные вычисления, извлекать данные из специфических источников, определенным образом "вести себя" и так далее.

Развитие форматов представления знаний: HTML →XHTML →XML . Еще несколько лет назад в этом только зародившемся, но бурно растущем мире, существовало четко выделенное «разделение труда» между языками Интернета. За отображение информации на веб-страницах отвечал HTML. Одной из особенностей гипертекстовых документов, написанных на этом языке является то, что кроме видимой с экрана части они имеют невидимую служебную часть - небольшую базу знаний о самом документе - так называемые метатеги. Эти метатеги включают название, тип и язык документа, краткое содержание, ключевые слова, информацию об авторе и издателе,  международную библиографическую классификацию документа.

Разработаны дополнительные метатеги для более детальной характеристики документа, вплоть до точных географических координат и высоты над уровнем моря компьютера, в котором находится этот документ.

Форматы представления знаний о документе - информация об информации (метаинформация) и информация о структуре метаинформации активно развиваются и стандартизируются консорциумом по стандартам интернет-документов (The World Wide Web Consortium).

Для того чтобы оживить страницы и нагрузить их некоторой полезной работой, стали использоваться специальные приложения (апплеты), разработанные на языке Java. Если нужно было написать сценарий обработки некоторого события на сервере, в большинстве случаев применялся язык скриптов PERL. А обработка событий на клиентском рабочем месте велась на языке JavaScript.

И все же мир Интернет постигла обычная судьба информационных технологий: не удалось избежать появления различных языков и инструментальных средств с одинаковыми или похожими функциями. Конкуренцию java-апплетам составляют элементы управления ActiveX. И только язык HTML, постоянно развиваясь, не имеет альтернативы в области отображения информации. Однако, отображение данных  - это лишь заключительная фаза процесса «получение ® передача ® отображение». Для того чтобы некая информация появилась в окне обозревателя, первичные данные должны быть извлечены из источников, обработаны, собраны на Веб-сервере, переданы в локальную программу клиента и подвергнуты там окончательной обработке.

Попробуем выяснить, чего не хватает для эффективной работы этой цепочки. 

Во-первых, создателями традиционных, т.е. доинтернетовских клиент-серверных технологий был выдвинут тезис о том, что содержимое некоторой формируемой на сервере и передаваемой клиенту порции информации должно быть независимо от формы ее отображения.  Соблюдение данного правила принесло ряд существенных плюсов, включая возможности:

v      изменять представление данных в зависимости от квалификации пользователей и имеющихся прав доступа к информации;

v      адаптировать «картинку» к потребностям пользователей;

v      оптимизировать изображение в соответствии с техническими характеристиками приемной аппаратуры.

Естественно, что при переходе от традиционных технологий к технологиям Интернет/интранет отказ от отделения содержимого от формы отображения был бы шагом назад. Но язык HTML такое разделение сделать не позволяет, т.к. ориентация на конкретный вид представления информации - его характерное свойство.

Во-вторых, невозможно описать все многообразие существующих в Интернет источников информации. К примеру, одних только типов баз данных может быть несколько: реляционные, иерархические, сетевые, объектные и т.д., а внутри каждой группы существуют сотни конкретных структур и форматов описания данных.

Понадобился унифицированный способ представления данных, пригодный для их обработки на типовых серверах и для их передачи с помощью стандартных протоколов. При этом должны соблюдаться два важнейших принципа:

структурированность: несмотря на неизбежные издержки при приведении данных к унифицированному виду их общая структура и взаимосвязи элементов должны быть сохранены; 

расширяемость: должна существовать возможность описания любых новых данных без изменения способа описания.

В-третьих, каким бы ни был унифицированный способ описания данных, он должен подразумевать использование уже существующих в Интернет протоколов обмена, и, в первую очередь, протокола HTTP. Следовательно, необходимо иметь способ описания структур данных в текстовой форме. Он должен быть прост и не содержать избыточной служебной информации. Кроме того, несомненным плюсом нового способа представления данных будет его хорошая «родословная», т.е. сходство с уже используемыми концепциями. Это значительно облегчит принятие новой технологии.

Так появилась идея совместить эти недостающие Интернету качества в одной концепции - XML (eXtensible Markup Language). В январе 2000 г. консорциум The World Wide Web Consortium официально сообщил, что подготовлен к использованию новый стандарт разметки интернет-документов - XHTML версии 1.0. Стандарт разрабатывался группой специалистов более чем 300 компаний. XHTML основан на стандарте HTML 4.0 и приближается к стандарту XML.

XHTML - это не что иное, как переформулировка уже стандартной спецификации HTML 4.0 в терминах XML.  XML  можно определить как язык записи структурированных данных в текстовой форме. Такие данные называются XML-документом.

Одновременно предложена утилита Tidy, которая позволяет конвертировать документы из HTML 4.0 в XHTM. XHTML и предоставляет новые возможности для разработчиков. Например, появились средства взаимодействия с нетрадиционными для Web устройствами (телевизоры, сотовые телефоны, даже тостеры и т.д.), которые могут себя описать и получить с сервера только ту информацию, которую они могут отобразить. Это становится возможным потому, что XHTML - документ может быть разделен на модули и отображаться раздельно.

Язык XML достаточно прост и обладает большой потенциальной мощью и возможностью создавать языки специального назначения на базе XML. Такие языки создаются путем задания соответствующей грамматики и называются приложениями XML. В XML есть специальный механизм для определения типа документа - DTD и схемы данных. Благодаря этому при помощи XML можно описывать любые данные, что способствовало появлению основанных на XML специализированных языков.

В настоящее уже приняты в качестве стандартов следующие приложения XML:

Ø      Mathematical Markup Language (MathML) - язык для описания математических выражений.

Ø      Resource Description Format (RDF) - основа для создания языков, описывающих свойства Веб-ресурсов (например, изображений, документов) и отношений между ними.

Ø      Synchronized Multimedia Integration Language (SMIL) - язык для создания мультимедиа-презентаций на Веб-сервере.

Ø      Языки организации ссылок и указателей - Xlink и XPointer.

Сначала XLink и XPointer создавались как единая спецификация (которую называли по-разному, - XML Part 2, XML-Link и XLL), но в прошлом году они были разделены. XLink позволяет установить ссылки между документами или частями документов, а XPointer - обращаться к частям документов.

Организация ссылок в Web на основе этих спецификаций «догонит» по функциональности многие созданные ранее гипертекстовые системы, поскольку позволит реализовать возможности, отсутствующие в HTML, такие как определение типа ссылки, организация многонаправленных ссылок и ссылок на различные ресурсы. Спецификации также будут поддерживать автономные ссылки, то есть ссылки, которые могут быть созданы в отдельном документе на документы, входящие в состав самой ссылки. Это позволит усовершенствовать управление ссылками и даст возможность организовывать ссылки на документы и из документов, открытых только для чтения.

Автономные ссылки, в частности, позволяют указывать на весьма специфические фрагменты документа. XPointer позволит, к примеру, ссылаться на «третью букву в пятом абзаце девятого пункта документа». Если вы создаете ссылки в автономном режиме, вам нужен определенный способ, позволяющий точно указать, где начинается и заканчивается ссылка.

XML (также как и HTML) «вырос» из языка SGML (Standard Generalized Markup Language, стандартный язык обобщенной разметки). SGML - метаязык, с помощью которого можно создавать другие языки. Отличие состоит в том, что HTML ограничен одним конкретным словарем SGML - это означает, что в нем используется единственный набор тегов, описанный заголовком SGML DTD.

В XML предусмотрен специальный механизм определения типа документа - DTD и схемы данных. Благодаря этому при помощи XML можно описывать любые данные, поэтому этот язык стал основой нового офисного пакета программ Microsoft Office 2003.

В заключение можно утверждать, что XHTML становится, а XML станет основным  языком Интернет. Когда это произойдет, весь Интернет превратится в единую базу знаний.

Хочется отметить также следующее. Хотя статья  посвящена техническим средствам, помогающим развивать и получать знания, главное действующее лицо этого особого вида деятельности на сегодняшний день  - все-таки человек. Именно  он изобретает новое, более целостное понимание исходных данных и обеспечивает их свертку (компактность). Описываемые технические средства, как было показано, позволяют не только ускорить этот процесс, но и решать задачи, с которыми человеку справиться очень сложно.

Появляющиеся системы искусственного интеллекта шаг за шагом осваивают высшие  формы человеческой деятельности. Есть разные точки зрения на перспективы этого процесса. Возможно, реальный искусственный интеллект действительно будет создан. Может быть тогда новые знания будут получены техническими устройствами без прямого участия человека. 

 

Литература

1. Ашманов И.,  Информация и знания: невидимая грань. - http://newasp.omskreg.ru/intellect/f5.htm

2. Гольдштейн С. Л., О. Г. Инюшкина, Э. П. Макаров. Управление знаниями: обзор, аналоги, прототип, предлагаемая структура. Интеллектуальные информационные технологии в управленческой деятельности. Материалы III Международной научно-практической конференции (февраль 2001). Екатеринбург: ИПК УГТУ, 2001 г., с.9; http://portal.ustu.ru/vt/vt.nsf/FN/km_art.html/$File/km_art.html?openelement

3. Kalmykov V. L. (1998) The Generalized Theory of Life, 

http://www.iteb.ru/GenTL/#steps%20of%20self-organisation%20of%20organic%20structures

4. Kalmykov V. L. (1997) "The Abstract Theory of Evolution of the Living", in Lecture Notes in Computer Science, Springer Verlag, vol. 1305, pp. 43-51.

http://www.stormloader.com/theory/atel.htm

5. Калмыков В. Л., А. Л. Калмыков и В. В. Корнилов. Биологически инспирированные информационные технологии, системная биология и конкурентоспособность России, в Материалах Интернет-конференции  "Информационно-вычислительные технологии в решении фундаментальных научных проблем и прикладных задач химии, биологии, фармацевтики, медицины", Москва, www.ivtn.ru, 2003, 10 стр.

http://www.ivtn.ru/2-session/enter/paper.phtml?r=53

 



[1]   Институт биофизики клетки РАН, e-mail: kalmykov@psn.ru

[2]    Данные можно рассматривать как одностороннюю характеристику изучаемого объекта. Данные - это исходный материал, который является строительным блоком построения знаний. Монблан фактов-данных подобен "первичному бульону", в котором возникла жизнь. Знания отличаются от данных тем же, чем живое отличается от неживого - локальной и интегральной соорганизованностью, способностью к воспроизведению (переносимостью) и способностью к саморазвитию. 

[3] Слабость такого весьма распространенного представления о знаниях видится в частом игнорировании важного дополнения формального знания - опыта, умения использовать полученную информацию  в конкретной ситуации.  Если я не могу применить в данной ситуации свои знания,  вряд ли кто назовет меня знатоком, мастером этого дела.  Знания – это интегрированное в целостную структурированную систему множество данных об объекте и их отношений, это проверенная практикой мультидисциплинарная модель данного объекта. В идеале знания должны быть основаниями для принятия решений и осуществления разумных действий. Знания тем и хороши, что переносимы в образование, в технологию, в политику (управление), в социальное пространство на разные уровни организации.