Компьютерная документация от А до Я - Разное :: Сравнение текстовых, документальных и реляционных систем управления базами данных

Базы данных -> Разное -> Сравнение текстовых, документальных и реляционных СУБД

            Сравнение текстовых, документальных и реляционных
                  систем управления базами данных
     
                                             Клиффорд Рейд
            
          Согласно данным всемирно известной фирмы по исследованию марке-
     тинга  DataQuest  Inc.,  ежегодно  в организациях издается более 2,7
     биллиона документов. Подсчитано также, что 70% того, что мы  сегодня
     читаем,  готовится  электронным способом и хранится где-то на компь-
     ютере. Главная проблема, стоящая перед нами, заключается в том,  как
     управлять  таким объемом информации. Существует острая необходимость
     в средствах управления, доступа и распространения текстовой и графи-
     ческой информации, начиная с данных ASCII в свободной форме и кончая
     сканируемыми документами, хранящимися на оптических  устройствах.  В
     данной статье рассматриваются современные типы интегрированных текс-
     то-графических  баз данных и вопросы развития технологии, касающиеся
     систем управления большими массивами документов, содержащих  смешан-
     ные типы данных.
                                                                        
            
            Сравнение  реляционных, текстовых и документальных систем
                               управления
                                 
          Начиная с первых применений в сфере бизнеса, для управления ба-
     зами данных с ориентированными на запись транзакциями использовались
     компьютеры.  В настоящее время реляционные СУБД (RDBMS) являются но-
     вым стандартным средством хранения и поиска ориентированных  на  за-
     пись  данных (данные структурированы по строкам и столбцам). Системы
     управления текстовой информацией (TIMS), с другой стороны, осуществ-
     ляют хранение и поиск неструктурированных данных (текст ASCII в сво-
     бодной форме). Третий тип продукта - документальные системы управле-
     ния (DMS) - ориентированы больше на обработку растровых  изображений
     документов, чем символьной (ASCII) информации, используя обычно тех-
     нологии хранения данных на оптических носителях.
          Границы  между этими системами начинают исчезать. Причина этого
     заключается в переопределении понятия "документ". Прежде  считалось,
     что хранящийся в компьютере документ должен состоять только из кодов
     ASCII. В соответствии с новым определением документ состоит из одно-
     родно интегрированных текстовых, графических и документальных струк-
     тур.
          На  рис.  1 изображен спектр типов данных, входящих в документ.
     Слева в диаграмме представлены неинтегрированные текстовые базы дан-
     ных и неинтегрированные графические базы данных. В  настоящее  время
     эти  типы  баз данных обрабатываются посредством TIMS и DMS. Крайний
     правый столбец диаграммы содержит структурированные  (представленные
     в виде строк и колонок) базы данных, управляемые RDBMS. В центре ди-
     аграммы  изображены  два варианта интегрированных тексто-графических
     баз данных. Следующее поколение систем управления большими  объемами
     документов  будет  ориентирована  на  эти две модели интегрированных
     тексто-графических баз данных.
            
                                                    
            
     Неструктурированные                               Структурированные
    <===================================================================>
      Свободный текст¦ Слабо связанные ¦ Тесно связанные  ¦ RDBMS
      ---------------+-----------------+------------------+----------------
      ASCII          ¦ASCII&изображения¦ASCII, изображения¦ Записи
      Без структуры  ¦Отдельная база   ¦и структура       ¦ Транзакции
      Текстовая ин-  ¦данных "ссылок"  ¦Ссылки, имеющиеся ¦ Операции соеди-
      формация       ¦                 ¦в документах      ¦ нения
      Управление     ¦                 ¦                  ¦ В лучшем случае,
                     ¦                 ¦                  ¦ картотека
      ---------------+-----------------+------------------+----------------
            
            Рис. 1. Спектр типов данных, входящих в документы
            
            
          Некоторые пользователи RDBMS пытались обрабатывать неструктури-
     рованные текстовые базы данных с помощью RDBMS. Модель RDBMS, ориен-
     тированная на среду управления  транзакцией,  с  неструктурированным
     текстом  работает плохо. При использовании RDBMS в качестве средства
     обработки изображений и текста эта система может служить только сло-
     варем для хранения имен файлов и кратким перечнем ключевых слов, от-
     ражающих содержание документов. Впоследствии  документы  могут  быть
     найдены  по  именам  файлов или ключевым словам. В противоположность
     этому, TIMS обладает большей способностью динамически "читать" любой
     документ и искать документ по его контексту.
          Идеалом, к которому стремится промышленность, является  возмож-
     ность  управления как неструктурированными, так и структурированными
     данными в рамках единой архитектуры. Это произойдет, когда современ-
     ные неинтегрированные архитектуры  будут  заменены  интегрированными
     системами, способными обрабатывать графическую, текстовую и структу-
     рированную информацию.
            
            
            
                              ________
                              ¦      ¦
            __________________¦      ¦_________________
  Книга     ¦                _________                ¦
      __    ¦               /________/                ¦
¦\/¦ ¦  ¦   ¦                                         ¦
¦  ¦_¦  ¦___¦         Оптическое распознавание        ¦
¦  ¦ ¦  ¦   ¦                 символов                ¦
 \/  ¦__¦   ¦                                         ¦
            ¦                                         ¦
   Сканнер  ¦   Изображения                          \ /    Границы страницы
            ¦    -------¬                      --------¬            //
            ¦    ¦      ¦     <-------------   ¦       ¦          / /
            ¦ -->¦  11  ¦                      ¦       ¦        /  /
            ¦    ¦------¦                      ¦-------¦      /   /
            ¦    ¦      ¦     <-------------   ¦       ¦    /    /
            ¦ -->¦  12  ¦                      ¦       ¦  /     /
            ¦    ¦------¦                      ¦-------¦       /
            ¦    ¦      ¦     <--------------  ¦       ¦      /
            ¦ -->¦  13  ¦                      ¦       ¦     /
            ¦    ¦------¦                      ¦-------¦    /
            ¦    ¦      ¦     <--------------  ¦       ¦   /
            ¦ -->¦  14  ¦                      ¦       ¦  /
            ¦    ¦------¦                      ¦-------¦
            ¦    ¦      ¦     <--------------  ¦       ¦
            ¦ -->¦  15  ¦                      ¦       ¦
                 L-------                      L--------
               Изображения                     Символы
               страниц                         документов
                                                        
                          Слабо связанные данные
                          
                          
          Взгляд пользователя            Физическое представление
                                         
           ---------------¬                 ---------¬    Изображение
           ¦       ----¬  ¦                 ¦        ¦     ----¬
           ¦       ¦   ¦  ¦                 ¦       -----> ¦   ¦
           ¦       L----  ¦                 ¦        ¦     L----
           ¦              ¦                 ¦        ¦
           ¦              ¦                 ¦        ¦    Изображение
           ¦  ----¬       ¦                 ¦        ¦     ----¬
           ¦  ¦   ¦       ¦                 ¦ -----------> ¦   ¦
           ¦  L----       ¦                 ¦        ¦     L----
           ¦              ¦  / -----------  ¦        ¦
           ¦              ¦  \ -----------  ¦        ¦    Изображение
           ¦       ----¬  ¦                 ¦        ¦     ----¬
           ¦       ¦   ¦  ¦                 ¦      ------> ¦   ¦
           ¦       L----  ¦                 ¦        ¦     L----
           ¦              ¦                 ¦        ¦
           ¦              ¦                 ¦        ¦    Изображение
           ¦  ----¬       ¦                 ¦        ¦     ----¬
           ¦  ¦   ¦       ¦                 ¦ -----------> ¦   ¦
           ¦  L----       ¦                 ¦        ¦     L----
           ¦              ¦                 ¦        ¦
           L---------------                 L---------
                                                       
      Структурированный документ           Текст и ссылки к изображениям
                                                                        
                           Тесно связанные данные
                   
          
            Рис. 2. Системы управления данными со слабой и тесной связью
            
            
            
            
            Технические соображения по поводу интеграции текста и
                               изображений
                               
          Существует два типа интегрированных тексто-графических баз дан-
     ных: слабо интегрированные БД, в которых текст, изображения и ссылки
     между  ними хранятся как отдельные единицы; и сильно интегрированные
     базы данных, в которых смешанные типы данных хранятся вместе как од-
     но целое.
                                                                
            
            Слабо интегрированные тексто-графические базы данных
                                                      
          Базовая архитектура  слабо  интегрированной  тексто-графической
     системы базы данных состоит из массива простых текстовых документов,
     хранящихся  в  файлах, массива изображений, хранящихся в других фай-
     лах, и массива ссылок, связывающих изображения с текстом  (см.  рис.
     2).  Ссылки  обычно хранятся в отдельном файле, хотя они могут также
     храниться непосредственно в текстах документов. Первоначальный  дос-
     туп  к документам осуществляется по их текстам. Как только пользова-
     тель нашел и отобразил на экране текст документа, он или  она  может
     также вывести на экран изображения, связанные с текстом. Эти изобра-
     жения могут содержать либо дополнительную информацию, касающуюся до-
     кумента  (например, рисунки или таблицы), либо графическое представ-
     ление самого текста.
          Отсюда вытекают следующие технические особенности,  относящиеся
     к этой разновидности тексто-графических баз данных:
          - создание ссылок от текста к изображениям;
          -  вывод  на  экран синхронизированного представления символа и
     изображения;
          - подсветка слов в тексте;
          - управление форматами изображений.
                                                                        
          
               Формирование ссылок от документов к изображениям
          
          Типичным приложением для слабо интегрированной тексто-графичес-
     кой базы данных является сканирование множества бумажных  документов
     с  целью  создания графических представлений документов, а также ис-
     пользование системы оптического распознавания  символов  -  (optical
     character recognition system - OCR) для интеграции представлений до-
     кумента в виде символов ASCII.
          Такие коммерческие системы, как Filenet и Viewstar обрабатывают
     текст и изображения посредством графических сканнеров и систем OCR.
          Обычно  документы сканируются по одной странице за единицу вре-
     мени и результирующие изображения хранятся в базе данных в одностра-
     ничных файлах. Сгенерированные посредством OCR символьные  представ-
     ления  документов  также формируются в виде одностраничных файлов, а
     затем добавляются друг к другу для восстановления непрерывного доку-
     мента. При соединении одностраничных  файлов  для  получения  одного
     непрерывного  файла необходима синхронизация между символьным и гра-
     фическим образом документа, которую  надо  либо  поддерживать,  либо
     позднее  осуществить  вручную.  Ручная синхронизация может оказаться
     неэкономной с точки зрения временных затрат.
          
          
                     Вывод  на  экран  синхронизированного
                          символьного  и графического
                                 представления
            
          Привлекательной особенностью просмотра на экране  интегрирован-
     ной тексто-графической базы данных является способность пользователя
     позиционировать  курсор в символьном представлении документа и путем
     нажатия одной клавиши "вывести на  поверхность"  изображение  текста
     ниже  курсора.  В грубом приближении это может быть достигнуто путем
     присоединения обычных синхронизирующих ссылок от документа к изобра-
     жениям и интерполяции в файл изображений для вычисления  эффективной
     позиции  курсора. Этот метод работает не всегда, например, с изобра-
     жениями документов, состоящих из двух колонок.
     
          
                              Подсвечивание слов
            
          Если текстовый документ найден с помощью документальной поиско-
     вой системы, эта система может осуществить подсветку слов в символь-
     ном представлении документа, указывая, почему этот документ был най-
     ден. Однако подсветка "слова" (двоичный код) в графическом представ-
     лении документа требует либо большого объема  внешней  памяти,  либо
     вычислений.
          
          
               Управление множественными графическими форматами
            
          Существует множество "стандартных" графических форматов, таких,
     как  TIFF,  PC-X,  Sun Raster, PDA и CCITT. Любая система управления
     текстом и изображением должна быть способной обрабатывать все разно-
     образие имеющихся в настоящее время графических форматов так же, как
     и выводить их на имеющиеся разнообразные устройства вывода.
          
          
                  Сильно интегрированные составные документы
            
          Базовая архитектура  составного  документа  включает  поддержку
     двух  дополнительных типов данных помимо плоских ASCII - документов:
     смешанные типы данных (текст, изображения и потенциальные типы, нап-
     ример, рабочие листы, аудио и т.п.) и  структуры  внутри  документов
     (заглавие, заголовки, приложения и т.д.). Вся эта информация хранит-
     ся вместе как одно целое. Некоторые архитектуры составных документов
     осуществляют  хранение составных документов в едином файле, а другие
     обеспечивают функциональный интерфейс, который делает документ кажу-
     щимся приложением, хранящимся в одном файле, в то время,  как  физи-
     чески разбивает документ на множество файлов.
          Основные  технические особенности, касающиеся сильно интегриро-
     ванных тексто-графических баз данных, включают:
          - стандартные форматы;
          - анализ составных документов;
          - вывод на экран составных документов.
                                                     
          
                              Стандартные форматы
            
          Количество архитектур составных документов  (compound  document
     architecture  -  CDA)  быстро  растет.  CDA  фирмы Digital Equipment
     Corporation включает множество DDIF спецификаций  документов,  архи-
     тектуру конвертора CDA и пакет разработчика CDA. Архитектура конвер-
     тора  обеспечивает способ преобразования входного файла в одном фор-
     мате в выходной файл в другом формате. Пакет разработчика - это  на-
     бор  подпрограмм, которые активизируют работу конвертора CDA и прог-
     раммных приложений, соответствующих CDA. CDA  становится  стандартом
     для  всего ряда программных продуктов фирмы DEC, предоставляя единый
     формат для разработчиков приложений.
          Архитектура составного документа фирмы  IBM  называется  MO:DCA
     (mixed  object document content architecture - смешанный объект: ар-
     хитектура содержания документа); она обеспечивает обмен  документами
     между различными системами SAA.
          Фирма Apple Computer предлагает архитектуру составного докумен-
     та   под   названием   RichText.   ISO  рекламирует  SGML  (Standart
     generalized markup language - стандартный обобщенный язык  с  расши-
     ренными возможностями), еще один стандарт, с которым придется конку-
     рировать.
          Будущий  прогресс будет связан с сильно интегрированными базами
     данных, включающими разнообразные типы составных документов и прило-
     жения, обрабатывающие множество форматов составных документов.  Сле-
     дующий этап развития технологии систем управления текстовой информа-
     цией  быстро  приближается; он обеспечит обработку сильно интегриро-
     ванного текста, изображений и структур для разнообразных  архитектур
     составных документов.
          
          
                          Анализ составных документов
            
          Такие приложения, как документальные поисковые системы, которым
     необходимо  распознавать  входящие  в  документ подструктуры (напр.,
     слова, предложения и параграфы), должны уметь анализировать в  дета-
     лях  формат  составного  документа. Если всю эту информацию действи-
     тельно можно получить для каждого документа, в  распоряжение  разра-
     ботчиков  приложений  будут предоставлены полное представление доку-
     мента и соответствующая обработка запросов для извлечения  этой  ин-
     формации.
          
          
                  Отображение на экране составных документов
            
          Некоторые  архитектуры  составных  документов стандартизованы в
     соответствии с форматами отображения на экран, такими,  как  Display
     Postscript  Adobe Systems. Преобразование документов для отображения
     в аппаратных средах, не поддерживающих собственный формат вывода для
     этих документов, является сложной вычислительной задачей,  сопряжен-
     ной с проблемами реализации.
          
          
          Объединение структурированных и неструктурированных данных
            
          Вообще  говоря,  технические требования к слабо интегрированным
     тексто-графическим базам данных приводят к формированию ссылок между
     текстовыми и графическими компонентами баз данных. В сильно интегри-
     рованных тексто-графических БД эти ссылки уже  существуют  в  полном
     формате представления документа. Задача состоит в том, чтобы манипу-
     лировать ими способом, который сопряжен с трудностями при практичес-
     ком применении.
          Многие  из  современных систем управления текстовой информацией
     представляют собой символьные  представления  документов,  способные
     управлять ссылками к изображениям.
          Система  управления  текстовой  информацией TOPIC разработана с
     целью использования этих особенностей  в  документальных  БД.  TOPIC
     осуществляет  хранение  и поиск документов, представляющих различные
     текстовые и графические форматы. Она делает "умные выводы" о  струк-
     турированных  документах с целью поиска наиболее релевантных интере-
     сам пользователей  документов.  Поскольку  результат  стандартизации
     становится все очевиднее, TIMS будет развиваться в направлении обра-
     ботки документов, состоящих из сильно интегрированных текстов в фор-
     мате ASCII, изображений в различных форматах и структур внутри доку-
     ментов.
Интересное в сети
10 новых программ
CodeLobster PHP Edition 3.7.2
WinToFlash 0.7.0008
Free Video to Flash Converter 4.7.24
Total Commander v7.55
aTunes 2.0.1
Process Explorer v12.04
Backup42 v3.0
Predator 2.0.1
FastStone Image Viewer 4.1
Process Lasso 3.70.4
FastStone Image Viewer 4.0
Xion Audio Player 1.0.125
Notepad GNU v.2.2.8.7.7
K-Lite Codec Pack 5.3.0 Full
Наши сервисы
Рассылка новостей. Подпишитесь на рассылку сейчас и вы всегда будете в курсе последних событий в мире информационных технологий.
Новостные информеры. Поставьте наши информеры к себе и у вас на сайте появится дополнительный постоянно обновляемый раздел.
Поставить
Добавление статей. Если вы являетесь автором статьи или обзора на тему ИТ присылайте материал нам, мы с удовольствием опубликуем его у себя на сайте.
Прислать
Реклама на сайте. Размещая рекламу у нас, вы получите новых посетителей, которые могут стать вашими клиентами.
Разместить
Это интересно
При цитировании и перепечатке ссылка на www.compdoc.ru обязательна. Карта сайта.