Разработка программных средств конвертирования HTML-текстов в семантические сети

Московский Государственный Университет Путей сообщения
                                   (МИИТ)

                                 Кафедра АСУ



                               Курсовой проект

       «Разработка программных средств конвертирования HTML текстов в
                             семантическую сеть»



                                      Выполнила:
                                      Студентка 5-го  курса  группы  УИС-511
                                      Болотова Е.А.
                                      Проверил: Саркисян Р.Е.



                                 Москва 2001


                                 Содержание:


    Что такое семантическая сеть …………………………..3

    Основные сведения о языке HTML …………………….3
            1.Введение ………………………………………….3
            2.Сруктура HTML-документа ……………………..4
    Что такое фреймы ……………………………………….7
    Возможности представления знаний на базе
    языка HTML ……………………………………………...8
    TextAnalyst 2.0 – персональная система
    автоматического анализа текста ………………………..14
    Принцип работы HTML-конвертора …………………...17
    Список использованных источников …………………..21
                        Что такое семантическая сеть

    Семантическая  сеть  –  структура  для  представления  знаний  в   виде
ориентированного  графа,  в  котором  вершины  –  это  понятия,  а  дуги   -
отношения. Термин семантическая означает "смысловая",  а  сама  семантика  –
это наука, устанавливающая отношения между символами  и  объектами,  которые
они обозначают, что есть наука, определяющая смысл знаков.
    Самые первые семантические сети  были  разработаны  в  качестве  языка-
посредника  для  систем  машинного   перевода.   Однако   последние   версии
семантических сетей стали более мощными и гибкими и  составляют  конкуренцию
логическому   программированию,   фреймовым   системам   и   другим   языкам
представления.
    На сегодняшний день существует множество вариантов семантических сетей.
Их терминология и структура различаются, но  существуют  сходства,  присущие
всем семантическим сетям:
        1. Узлы семантических сетей представляют собой  концепты  предметов,
           событий, состояний
        2. различные узлы одного концепта относятся к  различным  значениям,
           если они не помечены как относящиеся к одному концепту
        3.  дуги  семантических  сетей  создают  отношения   между   узлами-
           концептами (пометки над дугами указывают на тип отношения)
        4.  некоторые  отношения   между   концептами   представляют   собой
           лингвистические падежи, такие  как  агент,  объект,  реципиент  и
           инструмент   (другие   означают   временные,    пространственные,
           логические отношения и отношения между отдельными предложениями
        5. концепты организованы  по  уровням  в  соответствии  со  степенью
           обобщенности  так,  как,  например,  сущность,  живое   существо,
           животное, плотоядное.
    Несмотря на некоторые различия, сети  удобны  для  чтения  и  обработки
компьютером,  а  также  достаточно  мощны,   чтобы   представить   семантику
естественного языка.
    Наиболее часто в семантических сетях используются следующие отношения:
           -  связь  типа   "часть-целое"   ("класс-подкласс",   "множество-
             подмножество" и т.п.)
           -   функциональные   связи,   определяемые    обычно    глаголами
             "производит", "принадлежит" и т.п.)
           - количественные ("больше", "меньше", "равно" и т.п.)
           - пространственные ("близко от", "далеко от" и т.п.)
           - временные ("раньше", "позже" и т.п.)
           - логические связи ("и", "или" и т.п.)
           - лингвистические связи и т.д.

                       Основные сведения о языке HTML

                                 1. Введение

    Все  стандартные  броузеры  для  сети   Интернет   используют   способы
представления текстов, основанные на языке HTML.  HTML  (Hyper  Text  Markup
Language)  –  это  язык  разметки  гипертекста.  Этот  язык  «понимают»  все
компьютеры, он довольно прост, но при этом имеет  достаточные  выразительные
средства для удобного  описания  разных  типов  документов.  Язык  позволяет
хранить текст в  «чистом»  виде  (не  кодируя  его),  что  делает  возможным
просмотр HTML скриптов с помощью обычных  текстовых  редакторов.  Этот  язык
предоставляет авторам Интернет - публикаций средства:
        - представления документов, включающих заголовки,  тексты,  таблицы,
          списки, «картинки» и т.п. элементы;
        -  осуществления  навигации  по  отдельным  документам  и  множеству
          документов путем использования гиперссылок;
        - конструирования диалоговых форм для  взаимодействия  с  удаленными
          сервисами, доступными в сети;
        - включения в документы вычисляемых форм  (spread-sheets),  видео  и
          звука, равно как и разнообразных приложений.
    Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского
Центра  ядерных   исследований   (CERN).   В   дальнейшем   язык   претерпел
существенные изменения. К середине 90-х годов произошла  стандартизация  его
версий,  которая  стала   курироваться   международными   организациями.   В
настоящее время наиболее развитой является версия языка HTML 4.0, в  которой
представлены  новые  возможности  аппаратуры  и  требования   производителей
программного обеспечения броузеров, а также пожелания Интернет – авторов.

                         2. Структура HTML-документа

    В HTML – файле находится символьная информация. Часть ее – это  данные,
составляющие содержимое документа, а другая часть – HTML  –  теги,  языковые
конструкции,  используемые  для  разметки  документа   и   управляющие   его
отображением. Для выделения тегов в тексте HTML – документа эти  конструкции
берутся в угловые скобки. Обычно теги  используются  парами:  открывающий  и
закрывающий тег.
    Типичный HTML – документ имеет следующую структуру:

    < ! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN”
    “http://www.w3.org/TR/REC-html40/strict.dtd”>
    <HTML>
         <HEAD>
              <title>Наименование документа </title>
               <META> name=keywords content=”Ключевые слова”>
         </HEAD>
            <body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0">
  <tr>
    <td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Наименование документа </font></td>
  </tr>
</table>

<table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">
  <tr>
    <td></td>
  </tr>
</table>

<table width="778"  border="0" align="center" cellpadding="0" cellspacing="0">
  <tr>
    <td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01">
      <tr>
        <td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td>
        <td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td>
        <td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td>
        <td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td>
        <td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td>
        <td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td>
      </tr>
      <tr>
        <td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td>
        <td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center">

<!-- CLX 343x60 -->
block
<!-- CLX 343x60 -->

</div></td>
        <td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td>
      </tr>
      <tr>
        <td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td>
        <td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td>
        <td> <img src="images/spacer.gif" width="1" height="15" alt=""></td>
      </tr>
      <tr>
        <td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td>
      </tr>
      <tr>
        <td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td>
        <td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td>
        <td> <img src="images/spacer.gif" width="1" height="19" alt=""></td>
      </tr>
      <tr>
        <td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"><table width="100%"  border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="6" background="/images/tbl-left-top.gif"></td>
        <td  height="6" background="/images/tbl-top.gif"></td>
        <td width="6" background="/images/tbl-right-top.gif"></td>
      </tr>
      <tr>
        <td width="6" background="/images/tbl-left.gif"></td>
        <td bgcolor="ead292" align="center">

<!-- CLX 468x60 -->
<script>//<!--
document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>');
// --></script>
<!-- CLX 468x60 -->





</td>
        <td width="6" background="/images/tbl-right.gif"></td>
      </tr>
      <tr>
        <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
        <td height="6" background="/images/tbl-bottom.gif"></td>
        <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"> </td>
  </tr>
  <tr>
    <td colspan="2"><table width="100%"  border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="6" background="/images/tbl-left-top.gif"></td>
        <td  height="6" background="/images/tbl-top.gif"></td>
        <td width="6" background="/images/tbl-right-top.gif"></td>
      </tr>
      <tr>
        <td width="6" background="/images/tbl-left.gif"></td>
        <td bgcolor="ead292">








                  Тело документа
            <br>
<table width="500" border="0" align="center" cellpadding="5" cellspacing="0">
  <tr>
    <td bgcolor="dcc68b"><font  face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Наименование документа "</b> в избранное нажмине <b>Ctrl+D</b></font></td>
  </tr>
</table>


		</td>
        <td width="6" background="/images/tbl-right.gif"></td>
      </tr>
      <tr>
        <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
        <td height="6" background="/images/tbl-bottom.gif"></td>
        <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"> </td>
  </tr>
  <tr>
    <td colspan="2"><table width="100%"  border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="6" background="/images/tbl-left-top.gif"></td>
        <td  height="6" background="/images/tbl-top.gif"></td>
        <td width="6" background="/images/tbl-right-top.gif"></td>
      </tr>
      <tr>
        <td width="6" background="/images/tbl-left.gif"></td>
        <td align="center" bgcolor="ead292">
<!-- CLX 468x60 rotator-->
<script>//<!--
document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>');
// --></script>
<!-- CLX 468x60 rotator-->



</td>
        <td width="6" background="/images/tbl-right.gif"></td>
      </tr>
      <tr>
        <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
        <td height="6" background="/images/tbl-bottom.gif"></td>
        <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"> </td>
  </tr>
  <tr>
    <td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br>
E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br>
</span></td>
    <td width="597"><div align="right">

<!--LiveInternet counter--><script language="JavaScript"><!--
document.write('<a href="http://www.liveinternet.ru/click" '+
'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+
escape(document.referrer)+((typeof(screen)=='undefined')?'':
';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth?
screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+
';'+Math.random()+
'" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+
'border=0 width€ height1></a>')//--></script><!--/LiveInternet-->

<a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru">
<img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0>
</a>

<!-- HotLog -->
<script language="javascript">
hotlog_js="1.0";
hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+
escape(window.location.href);
document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N");
</script><script language="javascript1.1">
hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script>
<script language="javascript1.2">
hotlog_js="1.2";
hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+
(((navigator.appName.substring(0,3)=="Mic"))?
screen.colorDepth:screen.pixelDepth)</script>
<script language="javascript1.3">hotlog_js="1.3"</script>
<script language="javascript">hotlog_r+="&js="+hotlog_js;
document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+
" src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+
hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script>
<noscript><a href=http://click.hotlog.ru/?277385 target=_top><img
src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0 
width="88" height="31" alt="HotLog"></a></noscript>
<!-- /HotLog -->


<!-- SpyLOG f:0211 -->
<script language="javascript"><!--
Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0;
Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random();
Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset();
Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt;
if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0";
//--></script><script language="javascript1.1"><!--
Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj;
//--></script><script language="javascript1.2"><!-- 
Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth;
Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx;
//--></script><script language="javascript1.3"><!--
Msl="1.3";//--></script><script language="javascript"><!--
My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>";
My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href);
My+="' border=0 width=88 height=31 alt='SpyLOG'>";
My+="</a>";Md.write(My);//--></script><noscript>
<a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank">
<img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 >
</a></noscript>
<!-- SpyLOG -->
  

</div></td>
  </tr>
</table>
<br>






</body>
    </HTML>

    В приведенном фрагменте  комментарий  <!DOCTYPE  …>  фиксирует  текущее
состояние спецификации версии языка HTML. Документ должен открываться  тегом
<HTML>, закрываться тегом </HTML> и состоять из  двух  частей:  заголовка  и
тела документа.
    Заголовок находится между тегами <HEAD> и </HEAD> и содержит  служебную
информацию. В представленном выше фрагменте HTML –  документа  показаны  два
компонента заголовка:
        - <title>Заглавие </title> - строка символов, которая  отображается
          в заголовке окна броузера.
        - <META> - дополнительная информация об HTML –  документе  (в  нашем
          примере этот тег с помощью параметров  name  и  content  фиксирует
          значение первого атрибута как keywords, а второго –  как  ключевые
          слова «Представление знаний» и «Мультиагентные системы»). Этот тег
          ориентирован на аннотирование Интернет – документов и  значительно
          облегчает задачу индексирования их, например,  с  помощью  сетевых
          роботов.
    Кроме этих компонентов заголовок может содержать еще и другие теги:
        - <BASE> - базовый адрес, используемый при  обработке  относительных
          URL,
        -  <LINK>  -  используется  для  связи  HTML-документа   с   другими
          источниками данных.
    Собственно содержание документа находится в теле между тегами <body><table width="780" border="0" bordercolor="#FFFFFF" align="center" cellpadding="5" cellspacing="0">
  <tr>
    <td bgcolor="ead292"><font face="Verdana, Arial, Helvetica, sans-serif" color="aa4332">Заглавие </font></td>
  </tr>
</table>

<table width="780" height="2" border="0" align="center" cellpadding="0" cellspacing="0" bgcolor="#FFFFFF">
  <tr>
    <td></td>
  </tr>
</table>

<table width="778"  border="0" align="center" cellpadding="0" cellspacing="0">
  <tr>
    <td colspan="2"><table width="749" height="136" border="0" align="right" cellpadding="0" cellspacing="0" id="Table_01">
      <tr>
        <td rowspan="6"> <img src="/images/2devochki-template_01.gif" width="45" height="136" alt=""></td>
        <td rowspan="2"> <img src="/images/2devochki-template_02.gif" width="51" height="53" alt="Даша"></td>
        <td rowspan="2"> <img src="/images/2devochki-template_03.gif" width="49" height="53" alt="Оля"></td>
        <td> <img src="/images/2devochki-template_04.gif" width="196" height="26" alt=""></td>
        <td rowspan="6"> <img src="/images/2devochki-template_05.gif" width="12" height="136" alt=""></td>
        <td colspan="2"> <img src="/images/2devochki-template_06.gif" width="395" height="26" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="26" alt=""></td>
      </tr>
      <tr>
        <td rowspan="2"> <a href="http://www.2devochki.ru"><img src="/images/2devochki-template_07.gif" alt="Две девочки - 40000 рефератов" width="196" height="42" border="0"></a></td>
        <td rowspan="3" background="/images/2devochki-template_08.gif"> <div align="center">

<!-- CLX 343x60 -->
block
<!-- CLX 343x60 -->

</div></td>
        <td rowspan="3"> <img src="/images/2devochki-template_09.gif" width="52" height="60" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="27" alt=""></td>
      </tr>
      <tr>
        <td rowspan="4"> <img src="/images/2devochki-template_10.gif" width="51" height="83" alt=""></td>
        <td rowspan="4"> <img src="/images/2devochki-template_11.gif" width="49" height="83" alt=""></td>
        <td> <img src="images/spacer.gif" width="1" height="15" alt=""></td>
      </tr>
      <tr>
        <td rowspan="2"> <img src="/images/2devochki-template_12.gif" width="196" height="37" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="18" alt=""></td>
      </tr>
      <tr>
        <td rowspan="2"> <img src="/images/2devochki-template_13.gif" width="343" height="50" alt=""></td>
        <td rowspan="2"> <img src="/images/2devochki-template_14.gif" width="52" height="50" alt=""></td>
        <td> <img src="images/spacer.gif" width="1" height="19" alt=""></td>
      </tr>
      <tr>
        <td> <img src="/images/2devochki-template_15.gif" width="196" height="31" alt=""></td>
        <td> <img src="/images/spacer.gif" width="1" height="31" alt=""></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"><table width="100%"  border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="6" background="/images/tbl-left-top.gif"></td>
        <td  height="6" background="/images/tbl-top.gif"></td>
        <td width="6" background="/images/tbl-right-top.gif"></td>
      </tr>
      <tr>
        <td width="6" background="/images/tbl-left.gif"></td>
        <td bgcolor="ead292" align="center">

<!-- CLX 468x60 -->
<script>//<!--
document.write('<iframe src=http://d.clx.ru/show.php?af=24227&sx=468&sy=60&f=2&c='+Math.round(Math.random() * 100000)+' width=468 height=60 frameborder=0 vspace=0 hspace=0 marginwidth=0 marginheight=0 scrolling=no></iframe>');
// --></script>
<!-- CLX 468x60 -->





</td>
        <td width="6" background="/images/tbl-right.gif"></td>
      </tr>
      <tr>
        <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
        <td height="6" background="/images/tbl-bottom.gif"></td>
        <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"> </td>
  </tr>
  <tr>
    <td colspan="2"><table width="100%"  border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="6" background="/images/tbl-left-top.gif"></td>
        <td  height="6" background="/images/tbl-top.gif"></td>
        <td width="6" background="/images/tbl-right-top.gif"></td>
      </tr>
      <tr>
        <td width="6" background="/images/tbl-left.gif"></td>
        <td bgcolor="ead292">







  и
<br>
<table width="500" border="0" align="center" cellpadding="5" cellspacing="0">
  <tr>
    <td bgcolor="dcc68b"><font  face="Verdana, Arial, Helvetica, sans-serif" color="545454" size="-2">Для добавления страницы <b>"Заглавие "</b> в избранное нажмине <b>Ctrl+D</b></font></td>
  </tr>
</table>


		</td>
        <td width="6" background="/images/tbl-right.gif"></td>
      </tr>
      <tr>
        <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
        <td height="6" background="/images/tbl-bottom.gif"></td>
        <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"> </td>
  </tr>
  <tr>
    <td colspan="2"><table width="100%"  border="0" cellpadding="0" cellspacing="0">
      <tr>
        <td width="6" background="/images/tbl-left-top.gif"></td>
        <td  height="6" background="/images/tbl-top.gif"></td>
        <td width="6" background="/images/tbl-right-top.gif"></td>
      </tr>
      <tr>
        <td width="6" background="/images/tbl-left.gif"></td>
        <td align="center" bgcolor="ead292">
<!-- CLX 468x60 rotator-->
<script>//<!--
document.write('<script language=JavaScript src=http://s.clx.ru/rot.php?num=12237&c='+Math.round(Math.random() * 100000)+'></script>');
// --></script>
<!-- CLX 468x60 rotator-->



</td>
        <td width="6" background="/images/tbl-right.gif"></td>
      </tr>
      <tr>
        <td width="6" height="6" background="/images/tbl-left-bottom.gif"></td>
        <td height="6" background="/images/tbl-bottom.gif"></td>
        <td width="6" height="6" background="/images/tbl-right-bottom.gif"></td>
      </tr>
    </table></td>
  </tr>
  <tr>
    <td colspan="2"> </td>
  </tr>
  <tr>
    <td width="181"><span class="systext">2005 © Copyright, <a href="http://www.2devochki.ru" class="navlink systext">2devochki.ru</a><br>
E-mail: <a href="mailto:info@2devochki.ru" class="navlink systext">info@2devochki.ru</a><br>
</span></td>
    <td width="597"><div align="right">

<!--LiveInternet counter--><script language="JavaScript"><!--
document.write('<a href="http://www.liveinternet.ru/click" '+
'target=_blank><img src="http://counter.yadro.ru/hit?t14.7;r'+
escape(document.referrer)+((typeof(screen)=='undefined')?'':
';s'+screen.width+'*'+screen.height+'*'+(screen.colorDepth?
screen.colorDepth:screen.pixelDepth))+';u'+escape(document.URL)+
';'+Math.random()+
'" title="liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодн\я" '+
'border=0 width€ height1></a>')//--></script><!--/LiveInternet-->

<a href="http://www.yandex.ru/cy?base=0&host=www.2devochki.ru">
<img src="http://www.yandex.ru/cycounter?www.2devochki.ru" width=88 height=31 alt="Яндекс цитирования" border=0>
</a>

<!-- HotLog -->
<script language="javascript">
hotlog_js="1.0";
hotlog_r=""+Math.random()+"&s=277385&im=112&r="+escape(document.referrer)+"&pg="+
escape(window.location.href);
document.cookie="hotlog=1; path=/"; hotlog_r+="&c="+(document.cookie?"Y":"N");
</script><script language="javascript1.1">
hotlog_js="1.1";hotlog_r+="&j="+(navigator.javaEnabled()?"Y":"N")</script>
<script language="javascript1.2">
hotlog_js="1.2";
hotlog_r+="&wh="+screen.width+'x'+screen.height+"&px="+
(((navigator.appName.substring(0,3)=="Mic"))?
screen.colorDepth:screen.pixelDepth)</script>
<script language="javascript1.3">hotlog_js="1.3"</script>
<script language="javascript">hotlog_r+="&js="+hotlog_js;
document.write("<a href='http://click.hotlog.ru/?277385' target='_top'><img "+
" src='http://hit20.hotlog.ru/cgi-bin/hotlog/count?"+
hotlog_r+"&' border=0 width=88 height=31 alt=HotLog></a>")</script>
<noscript><a href=http://click.hotlog.ru/?277385 target=_top><img
src="http://hit20.hotlog.ru/cgi-bin/hotlog/count?s=277385&im=112" border=0 
width="88" height="31" alt="HotLog"></a></noscript>
<!-- /HotLog -->


<!-- SpyLOG f:0211 -->
<script language="javascript"><!--
Mu="u6592.46.spylog.com";Md=document;Mnv=navigator;Mp=0;
Md.cookie="b=b";Mc=0;if(Md.cookie)Mc=1;Mrn=Math.random();
Mn=(Mnv.appName.substring(0,2)=="Mi")?0:1;Mt=(new Date()).getTimezoneOffset();
Mz="p="+Mp+"&rn="+Mrn+"&c="+Mc+"&t="+Mt;
if(self!=top){Mfr=1;}else{Mfr=0;}Msl="1.0";
//--></script><script language="javascript1.1"><!--
Mpl="";Msl="1.1";Mj = (Mnv.javaEnabled()?"Y":"N");Mz+='&j='+Mj;
//--></script><script language="javascript1.2"><!-- 
Msl="1.2";Ms=screen;Mpx=(Mn==0)?Ms.colorDepth:Ms.pixelDepth;
Mz+="&wh="+Ms.width+'x'+Ms.height+"&px="+Mpx;
//--></script><script language="javascript1.3"><!--
Msl="1.3";//--></script><script language="javascript"><!--
My="";My+="<a href='http://"+Mu+"/cnt?cid=659246&f=3&p="+Mp+"&rn="+Mrn+"' target='_blank'>";
My+="<img src='http://"+Mu+"/cnt?cid=659246&"+Mz+"&sl="+Msl+"&r="+escape(Md.referrer)+"&fr="+Mfr+"&pg="+escape(window.location.href);
My+="' border=0 width=88 height=31 alt='SpyLOG'>";
My+="</a>";Md.write(My);//--></script><noscript>
<a href="http://u6592.46.spylog.com/cnt?cid=659246&f=3&p=0" target="_blank">
<img src="http://u6592.46.spylog.com/cnt?cid=659246&p=0" alt='SpyLOG' border='0' width=88 height=31 >
</a></noscript>
<!-- SpyLOG -->
  

</div></td>
  </tr>
</table>
<br>






</body>. Иногда вместо этих тегов можно встретить  тег  <FRAMESET>,  который
определяет специальный тип документа – Web-страницу с кадрами или  фреймами.

    Как  правило,  тело  HTML-документа   состоит   из   последовательности
структурных единиц, базисными из которых являются:
        - заголовки разного уровня (текст, заключенный между тегами  <Hi>  и
          </Hi>), где i может меняться от 1 до 6;
        - параграфы (текст, заключенный между тегами <P> и </P>).
    Это минимальные средства форматирования документа. Естественно,  что  в
HTML эти средства значительно богаче (всевозможные выравнивания,  табуляция,
несколько видов списков, таблицы и т.д.).
    Наиболее важными базовыми  конструкциями  языка  HTML  являются  якоря.
Синтаксически эти конструкции представлены тегами <A> и  </A>  с  атрибутами
name и href. Якорем является конструкция вида:
    <A name=«Метка»>Текст</A>
    Эта конструкция обеспечивает уникальное в пределах документа имя начала
определенного фрагмента  HTML-текста.  При  этом  текст,  заключенный  между
тегами <A> и </A>, как правило, задает  семантически  значимое  наименование
заголовка.
    Для ссылок на помеченные  таким  образом  части  Интернет  -  документа
используются конструкции следующего вида:
    1) <A  href=«#Метка»/index.html#Метка»>Текст</A>  -  Задает  локальную  ссылку  на  часть
       документа, начинающуюся с указанной метки
    2) <A href=«URL»/index.html>Текст</A> - Задает глобальную  ссылку  на  документ  в
       сети, однозначно идентифицируемый с помощью  URL  (Unified  Resource
       Locator) –  Интернет  –  адрес:  имя  домена,  уточненное  названием
       протокола и  собственное  имя  документа,  включая  путь  к  нему  в
       пределах данного домена.
    Важными  конструкциями  HTML  также   являются   таблицы   с   богатыми
возможностями многоуровневых заголовков и формы, с помощью  которых  в  язык
введены средства обеспечения диалога с  читателями  Интернет  -  документов.
Базисными  конструкциями  форм  являются   редактируемые   текстовые   поля,
элементы выбора, различные кнопки и т.д.
    Пример создания таблицы:

    <TABLE>
        <TR>
             <TD> столбец1, строка1 </TD><TD> столбец2, строка1 </TD>
         </TR>
         <TR>
              <TD> столбец1, строка2 </TD><TD> столбец2, строка2 </TD>
          </TR>

    Простейший пример создания формы:

    <FORM METHOD=”POST” …>
       <P> Вы можете ввести в поле одну строку
       <INPUT NAME=”entry”>
       </P> Для обработки результатов ввода нажмите кнопку
       <INPUT TYPE=”submit” VALUE=”Принять запрос”>
       </P>
    </FORM>

    Еще одна важная конструкция – это фреймы (frames). С их  помощью  можно
разделить   документ   на   части   и   представлять   их    в    отдельных,
неперекрывающихся   областях   экрана.   Такое   представление    информации
характерно для многооконных приложений.
    Кроме  этого  имеются  и  другие  конструкции   разметки   Интернет   –
документов. Среди этих конструкций надо  отметить  более  четкое  разделение
между структурой  документа  и  его  представлением  за  счет  использования
таблиц стилей, скриптов, поддерживающих, в частности, создание  динамических
страниц,  новый  механизм  интеграции  текстовых   и   графических   ссылок,
исполняемый на стороне клиента  и  стандартизацию  механизма  подключения  к
HTML-документам базисных медиаобъектов и приложений.


                              Что такое фреймы


    Термин фрейм был предложен в 70-е годы для обозначения структуры знаний
для восприятия пространственных сцен. Фрейм  –  это  абстрактный  образ  для
представления некоего стереотипа  восприятия.  Фреймом  также  называется  и
формализованная модель для отображения образа.
    Различают:
        - фреймы-образцы (прототипы) – хранятся в базе данных
        - фреймы-экземпляры – создаются для отображения реальных фактических
          ситуаций на основе поступающих данных
        - фреймы-структуры – используются для обозначения объектов и понятий

        - фреймы-роли
        - фреймы-сценарии
        - фреймы-ситуации

    Обычно структура фрейма представляется как список свойств:

    (ИМЯ ФРЕЙМА:
    (имя 1-го слота: значение 1-го слота),
    (имя 2-го слота: значение 2-го слота),
    --------------------------
    (имя N-го слота: значение N-го слота)

    В качестве значения слота  может  выступать  имя  другого  фрейма,  так
образуется сеть фреймов.
    Существует несколько способов  получения  слотом  значений  во  фрейме-
экземпляре:
        - по умолчанию от фрейма-образца (значение default)
        - через наследование свойств от фрейма, указанного в  слоте  АКО  (a
          kind of)
        - по формуле, указанной в слоте
        - через присоединенную процедуру
        - явно из диалога с пользователем
        - из базы данных.



             Возможности представления знаний на базе языка HTML

    Рассмотрим, каким образом HTML-документ может быть представлен  в  виде
семантической сети. Нам необходимо выделить те  конструкции  языка,  которые
могут быть полезными для решения этой задачи.
    Прежде всего, к числу таких конструкций относятся  теги  типа  <TITLE>,
<META…> и <A…>. Первый  тег  важен  для  фиксации  семантики  всего  HTML  –
документа, так как текст, заключенный между тегами <title>и  </title>  чаще
всего отражает его назначение или содержание.
    Теги типа <META…> вводят  имена  атрибутов  и  их  значения  с  помощью
параметров name=”…” и content=”…”, а  ссылки  и  якоря  фиксируют  отношения
между частями одного документа или между отдельными документами.
    Теги типа <META…> явно вводят семантику значений  атрибутов,  одинаково
интерпретируемых броузерами  за  счет  ключевых  слов,  которые  могут  быть
значениями параметра name.
    Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее
якорем. В некоторых случаях этому отношению можно  «приписать»  имя  SeeAlso
(смотри также), в других случаях – ConsistOf,  PartOf  или  иное  подходящее
имя, но семантика данной конструкции имплицитна, а встроенная  интерпретация
ее  связана  лишь   с   переходом   по   ссылке   и   визуализацией   начала
соответствующего фрагмента документа  или  загрузкой  нового  документа  для
просмотра.
    Другими  полезными  конструкциями   являются   заголовки   разделов   и
подразделов (тексты между тегами <Hi> и </Hi>),  списки,  таблицы  и  другие
элементы языка.
    Но  в  целом,  выделение  значимых  для   семантической   интерпретации
конструкций  является  экспертной  задачей,  решаемой  каждый  раз   автором
соответствующей Интернет - публикации по-своему. Но существуют  определенные
стереотипы. Например, на страницах Интернет – магазинов каталоги  товаров  в
большинстве случаев представляются таблицами или списками, либо  «зашиты»  в
чувствительные для щелчка мыши графические объекты.  Это  характерно  и  для
индексов на сайтах машин поиска.
    Рассмотрим в качестве  примера  страницу  официального  сайта  компании
Microsystems LTD, расположенную в сети по адресу  http://www.analyst.ru.  На
этой странице располагается по  информация  по  программе  TextAnalyst  2.0.
Экранная форма этой страницы показана на рисунке.
[pic]

    Фрагмент соответствующего HTML – текста представлен ниже:

<html>
<head>

---------------------------------

<meta  name="KEYWORDS"  content="Microsystems,  TextAnalyst,  text   mining,
knowledge  discovery,  textmining,  e-commerce,   classification,   semantic
analysis, neuro networks, natural linguistc, text processing,  Микросистемы,
анализ текстов, база знаний, документооборот,  классификация,  семантический
анализ, нейронные сети, натуральные языки, текст процессор">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<title>Microsystems, Ltd" --><title>и  </title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>

    -----------------------------------------------

    <body topmargin="0" leftmargin="0">
    <table border="0" cellspacing="0" cellpadding="0">
        <tr>
       <td valign="top" width="239"><a href="../../Wcf66ee0a62d3a.htm"><img
    border="0" src="../../images/top_logo.gif"></a></td>
       <td valign="top" align="left">
         <table border="0" cellspacing="0" cellpadding="0">
                         <tr><td        width="100%"><img        border="0"
src="../../images/top_up.gif">
                  </td></tr>
                  <tr> <td width="100%">
       <table border="0"  cellspacing="0" cellpadding="0" width="100%"
    bgcolor="#001395" height="23">
                      <tr><td width="100%">

    -------------------------------------

                          </table>
                          </td></tr>
                        </table>
                                <!-- end menu -->

    ----------------------------------------------

            <!-- start menu here -->
            <table border="0" cellspacing="0" cellpadding="0" width="100%">
            <tr> <td width="241" valign="top" align="left">
           <table border="0" width="100%" cellspacing="0" cellpadding="0">
                  <tr><td width="100%">
                 <p> </p>
            <p align="center">
      <img border="0" src="../../images/10thyear_s.gif" width="210" height="52">
             </p>
                    </td></tr>
                  <tr><td width="100%" valign="top" align="left">
                    <!-- left menu-->
             <table border="0" width="218">
               <tr><td    width="210"    bgcolor="#DDDDDD"     valign="top"
align="left">
                          <p align="right"><b>Products</b></td>
                      </tr>
     <tr onmouseout="this.style.backgroundColor='transparent'"
    onmouseover="this.style.backgroundColor='#6B8ADE'">
                      <td width="210" align="right">
      <a href="../../Wceda57023d7c.htm" target="_self">
      <span style="color: #000000; text-decoration: none">
           TextAnalyst SDK</span></a>
         </td></tr>
    <tr><td width="210" align="right">
    <p align="right"><img border="0" src="../../images/bd14580_.gif" width="12"
    height="12">
    TextAnalyst</p>
    </td></tr>
    <tr onmouseout="this.style.backgroundColor='transparent'"
    onmouseover="this.style.backgroundColor='#6B8ADE'">
    <td width="210" align="right">
    <a href="../../Wc902bd7625022.htm" target="_self">
    <span style="color: #000000; text-decoration: none">
    Text Referent</span></a>
    </td></tr>
    <!-- end left menu-->

    ----------------------------------------

                </table>
      <!-- end here -->
                 </td>
                 <!-- free space -->
                 <td valign="top" align="left">
                     
                 </td>
                 <!-- end free space -->

              <td valign="top" align="left" width=100% >
              <!-- content started here -->
               <table border="0" cellspacing="6" cellpadding="0">
                 <tr> <td width="100%" valign="top" align="left">
    <head>
    <meta name="DESCRIPTION" content="TextAnalyst -  personal  text  mining
system">
    <meta name="KEYWORDS" content="TextAnalyst, personal, text mining">
    <title>TextAnalyst" --><title>и  </title>
    </head>
    <div align="left">
      <table border="0" align="left" cellspacing="4" cellpadding="3">
        <tr> <td valign="top" align="center" width="250">
            <p align="center"> </p>
                      <p            align="center"><a            href="cgi-bin/stat/Wc9a5bb9f3be1d.htm">
            <img border="0" src="images/downloads.gif"></a></p>
            <p align="center">Получите бесплатную версию
            TextAnalyst</p>
            <table border="0">
              <tr><td width="100%" bgcolor="#008000">
                  <p align="center" class="menu">
                   <font  color="#FFFFFF">Системные  требования</font></td>
</tr>
              <tr><td width="100%">Intel-based PC</td> </tr>
              <tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>
              <tr> <td width="100%" bgcolor="#C0C0C0">
                  <p align="center" class="menu">
           <font color="#FFFFFF">Технические характеристики</font></td>/tr>
              <tr><td width="100%" valign="top" align="left">
                  <ul>
        <li> Средняя скорость анализа  текста  около  1Мбайт/мин  (при
использовании Pentium-II).</li>
        <li>Максимальный  объем  анализируемой  подборки   не  ограничен  и
зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>
         <li>Собственный объем TextAnalyst не превышает 5Мб.</li>
         <li>Форматы обрабатываемых файлов:</li>
         <li>*.txt (ANSI, DOS), *.rtf</li>
         <li>Экспорт информации  в форматы: *.txt,
           *.csw (электронные таблицы).</li>
                  </ul> </td></tr>
            </table>

    -----------------------------------

          <h1 align="center">
              <img     border="0"     src="../../images/octopus_shaden.gif"
align="left" width="99" height="112">TextAnalyst 2.0 </h1>
             <p  align="center"><b>персональная   система   автоматического
анализа текста </b></p>
            <p>TextAnalyst разработан в качестве  инструмента  для  анализа
содержания текстов, смыслового поиска информации,  формирования  электронных
архивов,     и     предоставляет     пользователю     следующие     основные
возможности: </p>
            <ul>
              <li>анализа содержания текста с автоматическим  формированием
семантической сети с гиперссылками - получения смыслового портрета текста  в
терминах основных понятий и их смысловых связей; </li>
              <li>анализа содержания текста с автоматическим  формированием
тематического древа с  гиперссылками  -  выявления  семантической  структуры
текста в виде иерархии тем и подтем; </li>
              <li>смыслового поиска с учетом скрытых смысловых связей  слов
запроса со словами текста; </li>
              <li>автоматического реферирования текста -  формирования  его
смыслового портрета в терминах наиболее информативных фраз; </li>
               <li>кластеризации   информации   -   анализа   распределения
материала текстов по тематическим классам;</li>
              <li>автоматической  индексации  текста  с  преобразованием  в
гипертекст; </li>
              <li>ранжирования всех видов информации о семантике текста  по
«степени   значимости»   с   возможностью   варьирования   детальности    ее
исследования; </li>
                  <li>автоматического/автоматизированного      формирования
полнотекстовой базы  знаний  с  гипертекстовой  структурой  и  возможностями
ассоциативного доступа к информации; </li>
            </ul>
            <p align="center"><b>Не пугайтесь обилия возможностей!</b></p>
             <p  align="center"><i>Работа  с  TextAnalyst   покажется   Вам
неожиданно простой и приятной, а  его  аналитические  способности  сэкономят
массу полезного времени...
            </i></p></td> </tr>
      </table></div></td> </tr>
           </table>

    ----------------------------------

    </td></tr></table>
    </html>

    Сравнив  приведенные  экранную   форму   и   HTML-текст,   видим,   что
семантически значимыми элементами данного документа являются:
  -  ключевые  слова,  относящиеся  к  данному   документу:   Microsystems,
    TextAnalyst, text mining, knowledge discovery, textmining,  e-commerce,
    classification, semantic analysis, neuro networks,  natural  linguistc,
    text   processing,   Микросистемы,   анализ   текстов,   база   знаний,
    документооборот, классификация, семантический анализ,  нейронные  сети,
    натуральные языки, текст процессор (тег <META>);
  - все меню организованы в виде таблиц (тег <TABLE>),  в  ячейках  которых
    (тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно
    перейти к другой  интересующей  информации.  Например,  можно  получить