Большой архив статей, книг, документации по программированию, вебдизайну, компьютерной графике, сетям, операционным системам и многому другому
 
<Добавить в Избранное>    <Сделать стартовой>    <Реклама на сайте>    <Контакты>
  Главная Документация Новости ИТ Программы Книги Games   Обои   Экспорт RSS E-Books
 
Поиск по сайту

TOP-10 программ
Symantec Norton Ghost 9.0
Partition Magic 8.0.2 Pro
Xilisoft 3GP Video Converter v3.1.7.0616b
Norton AntiVirus 2005
Xilisoft 3GP Video Converter v2.1.52.831b
Антивирус Касперского Personal 5.0.303 beta 2
RAR Password Cracker 4.12
ABBYY PDF Transformer v1.00.820
MP3 To Ringtone Gold v3.02
Mobtime Cell Phone Manager v5.3.1
 
Наши сервисы
Рассылка новостей. Подпишитесь на рассылку сейчас и вы всегда будете в курсе последних событий в мире информационных технологий.
Новостные информеры. Поставьте наши информеры к себе и у вас на сайте появится дополнительный постоянно обновляемый раздел.
Добавление статей. Если вы являетесь автором статьи или обзора на тему ИТ присылайте материал нам, мы с удовольствием опубликуем его у себя на сайте.
 
 

   Базы данных -> Разное -> Сравнение текстовых, документальных и реляционных СУБД


            Сравнение текстовых, документальных и реляционных
                  систем управления базами данных
     
                                             Клиффорд Рейд
            
          Согласно данным всемирно известной фирмы по исследованию марке-
     тинга  DataQuest  Inc.,  ежегодно  в организациях издается более 2,7
     биллиона документов. Подсчитано также, что 70% того, что мы  сегодня
     читаем,  готовится  электронным способом и хранится где-то на компь-
     ютере. Главная проблема, стоящая перед нами, заключается в том,  как
     управлять  таким объемом информации. Существует острая необходимость
     в средствах управления, доступа и распространения текстовой и графи-
     ческой информации, начиная с данных ASCII в свободной форме и кончая
     сканируемыми документами, хранящимися на оптических  устройствах.  В
     данной статье рассматриваются современные типы интегрированных текс-
     то-графических  баз данных и вопросы развития технологии, касающиеся
     систем управления большими массивами документов, содержащих  смешан-
     ные типы данных.
                                                                        
            
            Сравнение  реляционных, текстовых и документальных систем
                               управления
                                 
          Начиная с первых применений в сфере бизнеса, для управления ба-
     зами данных с ориентированными на запись транзакциями использовались
     компьютеры.  В настоящее время реляционные СУБД (RDBMS) являются но-
     вым стандартным средством хранения и поиска ориентированных  на  за-
     пись  данных (данные структурированы по строкам и столбцам). Системы
     управления текстовой информацией (TIMS), с другой стороны, осуществ-
     ляют хранение и поиск неструктурированных данных (текст ASCII в сво-
     бодной форме). Третий тип продукта - документальные системы управле-
     ния (DMS) - ориентированы больше на обработку растровых  изображений
     документов, чем символьной (ASCII) информации, используя обычно тех-
     нологии хранения данных на оптических носителях.
          Границы  между этими системами начинают исчезать. Причина этого
     заключается в переопределении понятия "документ". Прежде  считалось,
     что хранящийся в компьютере документ должен состоять только из кодов
     ASCII. В соответствии с новым определением документ состоит из одно-
     родно интегрированных текстовых, графических и документальных струк-
     тур.
          На  рис.  1 изображен спектр типов данных, входящих в документ.
     Слева в диаграмме представлены неинтегрированные текстовые базы дан-
     ных и неинтегрированные графические базы данных. В  настоящее  время
     эти  типы  баз данных обрабатываются посредством TIMS и DMS. Крайний
     правый столбец диаграммы содержит структурированные  (представленные
     в виде строк и колонок) базы данных, управляемые RDBMS. В центре ди-
     аграммы  изображены  два варианта интегрированных тексто-графических
     баз данных. Следующее поколение систем управления большими  объемами
     документов  будет  ориентирована  на  эти две модели интегрированных
     тексто-графических баз данных.
            
                                                    
            
     Неструктурированные                               Структурированные
    <===================================================================>
      Свободный текст¦ Слабо связанные ¦ Тесно связанные  ¦ RDBMS
      ---------------+-----------------+------------------+----------------
      ASCII          ¦ASCII&изображения¦ASCII, изображения¦ Записи
      Без структуры  ¦Отдельная база   ¦и структура       ¦ Транзакции
      Текстовая ин-  ¦данных "ссылок"  ¦Ссылки, имеющиеся ¦ Операции соеди-
      формация       ¦                 ¦в документах      ¦ нения
      Управление     ¦                 ¦                  ¦ В лучшем случае,
                     ¦                 ¦                  ¦ картотека
      ---------------+-----------------+------------------+----------------
            
            Рис. 1. Спектр типов данных, входящих в документы
            
            
          Некоторые пользователи RDBMS пытались обрабатывать неструктури-
     рованные текстовые базы данных с помощью RDBMS. Модель RDBMS, ориен-
     тированная на среду управления  транзакцией,  с  неструктурированным
     текстом  работает плохо. При использовании RDBMS в качестве средства
     обработки изображений и текста эта система может служить только сло-
     варем для хранения имен файлов и кратким перечнем ключевых слов, от-
     ражающих содержание документов. Впоследствии  документы  могут  быть
     найдены  по  именам  файлов или ключевым словам. В противоположность
     этому, TIMS обладает большей способностью динамически "читать" любой
     документ и искать документ по его контексту.
          Идеалом, к которому стремится промышленность, является  возмож-
     ность  управления как неструктурированными, так и структурированными
     данными в рамках единой архитектуры. Это произойдет, когда современ-
     ные неинтегрированные архитектуры  будут  заменены  интегрированными
     системами, способными обрабатывать графическую, текстовую и структу-
     рированную информацию.
            
            
            
                              ________
                              ¦      ¦
            __________________¦      ¦_________________
  Книга     ¦                _________                ¦
      __    ¦               /________/                ¦
¦\/¦ ¦  ¦   ¦                                         ¦
¦  ¦_¦  ¦___¦         Оптическое распознавание        ¦
¦  ¦ ¦  ¦   ¦                 символов                ¦
 \/  ¦__¦   ¦                                         ¦
            ¦                                         ¦
   Сканнер  ¦   Изображения                          \ /    Границы страницы
            ¦    -------¬                      --------¬            //
            ¦    ¦      ¦     <-------------   ¦       ¦          / /
            ¦ -->¦  11  ¦                      ¦       ¦        /  /
            ¦    ¦------¦                      ¦-------¦      /   /
            ¦    ¦      ¦     <-------------   ¦       ¦    /    /
            ¦ -->¦  12  ¦                      ¦       ¦  /     /
            ¦    ¦------¦                      ¦-------¦       /
            ¦    ¦      ¦     <--------------  ¦       ¦      /
            ¦ -->¦  13  ¦                      ¦       ¦     /
            ¦    ¦------¦                      ¦-------¦    /
            ¦    ¦      ¦     <--------------  ¦       ¦   /
            ¦ -->¦  14  ¦                      ¦       ¦  /
            ¦    ¦------¦                      ¦-------¦
            ¦    ¦      ¦     <--------------  ¦       ¦
            ¦ -->¦  15  ¦                      ¦       ¦
                 L-------                      L--------
               Изображения                     Символы
               страниц                         документов
                                                        
                          Слабо связанные данные
                          
                          
          Взгляд пользователя            Физическое представление
                                         
           ---------------¬                 ---------¬    Изображение
           ¦       ----¬  ¦                 ¦        ¦     ----¬
           ¦       ¦   ¦  ¦                 ¦       -----> ¦   ¦
           ¦       L----  ¦                 ¦        ¦     L----
           ¦              ¦                 ¦        ¦
           ¦              ¦                 ¦        ¦    Изображение
           ¦  ----¬       ¦                 ¦        ¦     ----¬
           ¦  ¦   ¦       ¦                 ¦ -----------> ¦   ¦
           ¦  L----       ¦                 ¦        ¦     L----
           ¦              ¦  / -----------  ¦        ¦
           ¦              ¦  \ -----------  ¦        ¦    Изображение
           ¦       ----¬  ¦                 ¦        ¦     ----¬
           ¦       ¦   ¦  ¦                 ¦      ------> ¦   ¦
           ¦       L----  ¦                 ¦        ¦     L----
           ¦              ¦                 ¦        ¦
           ¦              ¦                 ¦        ¦    Изображение
           ¦  ----¬       ¦                 ¦        ¦     ----¬
           ¦  ¦   ¦       ¦                 ¦ -----------> ¦   ¦
           ¦  L----       ¦                 ¦        ¦     L----
           ¦              ¦                 ¦        ¦
           L---------------                 L---------
                                                       
      Структурированный документ           Текст и ссылки к изображениям
                                                                        
                           Тесно связанные данные
                   
          
            Рис. 2. Системы управления данными со слабой и тесной связью
            
            
            
            
            Технические соображения по поводу интеграции текста и
                               изображений
                               
          Существует два типа интегрированных тексто-графических баз дан-
     ных: слабо интегрированные БД, в которых текст, изображения и ссылки
     между  ними хранятся как отдельные единицы; и сильно интегрированные
     базы данных, в которых смешанные типы данных хранятся вместе как од-
     но целое.
                                                                
            
            Слабо интегрированные тексто-графические базы данных
                                                      
          Базовая архитектура  слабо  интегрированной  тексто-графической
     системы базы данных состоит из массива простых текстовых документов,
     хранящихся  в  файлах, массива изображений, хранящихся в других фай-
     лах, и массива ссылок, связывающих изображения с текстом  (см.  рис.
     2).  Ссылки  обычно хранятся в отдельном файле, хотя они могут также
     храниться непосредственно в текстах документов. Первоначальный  дос-
     туп  к документам осуществляется по их текстам. Как только пользова-
     тель нашел и отобразил на экране текст документа, он или  она  может
     также вывести на экран изображения, связанные с текстом. Эти изобра-
     жения могут содержать либо дополнительную информацию, касающуюся до-
     кумента  (например, рисунки или таблицы), либо графическое представ-
     ление самого текста.
          Отсюда вытекают следующие технические особенности,  относящиеся
     к этой разновидности тексто-графических баз данных:
          - создание ссылок от текста к изображениям;
          -  вывод  на  экран синхронизированного представления символа и
     изображения;
          - подсветка слов в тексте;
          - управление форматами изображений.
                                                                        
          
               Формирование ссылок от документов к изображениям
          
          Типичным приложением для слабо интегрированной тексто-графичес-
     кой базы данных является сканирование множества бумажных  документов
     с  целью  создания графических представлений документов, а также ис-
     пользование системы оптического распознавания  символов  -  (optical
     character recognition system - OCR) для интеграции представлений до-
     кумента в виде символов ASCII.
          Такие коммерческие системы, как Filenet и Viewstar обрабатывают
     текст и изображения посредством графических сканнеров и систем OCR.
          Обычно  документы сканируются по одной странице за единицу вре-
     мени и результирующие изображения хранятся в базе данных в одностра-
     ничных файлах. Сгенерированные посредством OCR символьные  представ-
     ления  документов  также формируются в виде одностраничных файлов, а
     затем добавляются друг к другу для восстановления непрерывного доку-
     мента. При соединении одностраничных  файлов  для  получения  одного
     непрерывного  файла необходима синхронизация между символьным и гра-
     фическим образом документа, которую  надо  либо  поддерживать,  либо
     позднее  осуществить  вручную.  Ручная синхронизация может оказаться
     неэкономной с точки зрения временных затрат.
          
          
                     Вывод  на  экран  синхронизированного
                          символьного  и графического
                                 представления
            
          Привлекательной особенностью просмотра на экране  интегрирован-
     ной тексто-графической базы данных является способность пользователя
     позиционировать  курсор в символьном представлении документа и путем
     нажатия одной клавиши "вывести на  поверхность"  изображение  текста
     ниже  курсора.  В грубом приближении это может быть достигнуто путем
     присоединения обычных синхронизирующих ссылок от документа к изобра-
     жениям и интерполяции в файл изображений для вычисления  эффективной
     позиции  курсора. Этот метод работает не всегда, например, с изобра-
     жениями документов, состоящих из двух колонок.
     
          
                              Подсвечивание слов
            
          Если текстовый документ найден с помощью документальной поиско-
     вой системы, эта система может осуществить подсветку слов в символь-
     ном представлении документа, указывая, почему этот документ был най-
     ден. Однако подсветка "слова" (двоичный код) в графическом представ-
     лении документа требует либо большого объема  внешней  памяти,  либо
     вычислений.
          
          
               Управление множественными графическими форматами
            
          Существует множество "стандартных" графических форматов, таких,
     как  TIFF,  PC-X,  Sun Raster, PDA и CCITT. Любая система управления
     текстом и изображением должна быть способной обрабатывать все разно-
     образие имеющихся в настоящее время графических форматов так же, как
     и выводить их на имеющиеся разнообразные устройства вывода.
          
          
                  Сильно интегрированные составные документы
            
          Базовая архитектура  составного  документа  включает  поддержку
     двух  дополнительных типов данных помимо плоских ASCII - документов:
     смешанные типы данных (текст, изображения и потенциальные типы, нап-
     ример, рабочие листы, аудио и т.п.) и  структуры  внутри  документов
     (заглавие, заголовки, приложения и т.д.). Вся эта информация хранит-
     ся вместе как одно целое. Некоторые архитектуры составных документов
     осуществляют  хранение составных документов в едином файле, а другие
     обеспечивают функциональный интерфейс, который делает документ кажу-
     щимся приложением, хранящимся в одном файле, в то время,  как  физи-
     чески разбивает документ на множество файлов.
          Основные  технические особенности, касающиеся сильно интегриро-
     ванных тексто-графических баз данных, включают:
          - стандартные форматы;
          - анализ составных документов;
          - вывод на экран составных документов.
                                                     
          
                              Стандартные форматы
            
          Количество архитектур составных документов  (compound  document
     architecture  -  CDA)  быстро  растет.  CDA  фирмы Digital Equipment
     Corporation включает множество DDIF спецификаций  документов,  архи-
     тектуру конвертора CDA и пакет разработчика CDA. Архитектура конвер-
     тора  обеспечивает способ преобразования входного файла в одном фор-
     мате в выходной файл в другом формате. Пакет разработчика - это  на-
     бор  подпрограмм, которые активизируют работу конвертора CDA и прог-
     раммных приложений, соответствующих CDA. CDA  становится  стандартом
     для  всего ряда программных продуктов фирмы DEC, предоставляя единый
     формат для разработчиков приложений.
          Архитектура составного документа фирмы  IBM  называется  MO:DCA
     (mixed  object document content architecture - смешанный объект: ар-
     хитектура содержания документа); она обеспечивает обмен  документами
     между различными системами SAA.
          Фирма Apple Computer предлагает архитектуру составного докумен-
     та   под   названием   RichText.   ISO  рекламирует  SGML  (Standart
     generalized markup language - стандартный обобщенный язык  с  расши-
     ренными возможностями), еще один стандарт, с которым придется конку-
     рировать.
          Будущий  прогресс будет связан с сильно интегрированными базами
     данных, включающими разнообразные типы составных документов и прило-
     жения, обрабатывающие множество форматов составных документов.  Сле-
     дующий этап развития технологии систем управления текстовой информа-
     цией  быстро  приближается; он обеспечит обработку сильно интегриро-
     ванного текста, изображений и структур для разнообразных  архитектур
     составных документов.
          
          
                          Анализ составных документов
            
          Такие приложения, как документальные поисковые системы, которым
     необходимо  распознавать  входящие  в  документ подструктуры (напр.,
     слова, предложения и параграфы), должны уметь анализировать в  дета-
     лях  формат  составного  документа. Если всю эту информацию действи-
     тельно можно получить для каждого документа, в  распоряжение  разра-
     ботчиков  приложений  будут предоставлены полное представление доку-
     мента и соответствующая обработка запросов для извлечения  этой  ин-
     формации.
          
          
                  Отображение на экране составных документов
            
          Некоторые  архитектуры  составных  документов стандартизованы в
     соответствии с форматами отображения на экран, такими,  как  Display
     Postscript  Adobe Systems. Преобразование документов для отображения
     в аппаратных средах, не поддерживающих собственный формат вывода для
     этих документов, является сложной вычислительной задачей,  сопряжен-
     ной с проблемами реализации.
          
          
          Объединение структурированных и неструктурированных данных
            
          Вообще  говоря,  технические требования к слабо интегрированным
     тексто-графическим базам данных приводят к формированию ссылок между
     текстовыми и графическими компонентами баз данных. В сильно интегри-
     рованных тексто-графических БД эти ссылки уже  существуют  в  полном
     формате представления документа. Задача состоит в том, чтобы манипу-
     лировать ими способом, который сопряжен с трудностями при практичес-
     ком применении.
          Многие  из  современных систем управления текстовой информацией
     представляют собой символьные  представления  документов,  способные
     управлять ссылками к изображениям.
          Система  управления  текстовой  информацией TOPIC разработана с
     целью использования этих особенностей  в  документальных  БД.  TOPIC
     осуществляет  хранение  и поиск документов, представляющих различные
     текстовые и графические форматы. Она делает "умные выводы" о  струк-
     турированных  документах с целью поиска наиболее релевантных интере-
     сам пользователей  документов.  Поскольку  результат  стандартизации
     становится все очевиднее, TIMS будет развиваться в направлении обра-
     ботки документов, состоящих из сильно интегрированных текстов в фор-
     мате ASCII, изображений в различных форматах и структур внутри доку-
     ментов.
	   


 
Популярные книги

SQL для "чайников", 5-е издание

Подробнее

Photoshop CS2 для пользователя

Подробнее

Создание компьютерных игр без программирования (+CD)

Подробнее

 

 
Новости ИТ
21.11.2008  Thunderbird 2.0.0.18
21.11.2008  Miranda IM 0.7.13
21.11.2008  Dr. Web 5 Beta
21.11.2008  KAV/KIS 2009 8.0.0.506
21.11.2008  avast! 4.8 (1290)
21.11.2008  Radmin 3.3
21.11.2008  DVR-X162J - новый внешний DVD-привод от Pioneer
21.11.2008  Дизайнерские системные блоки от Smooth Creations
21.11.2008  SPARKLE представляет Calibre P980X+, видеокарту с необычным дизайном
21.11.2008  Titan представляет куллер для Intel i7
21.11.2008  Компактный ПК для дома Acer Aspire X3200 - в России
21.11.2008  Hitachi Data Systems объявляет о новом плане инвестиций в России и странах СНГ
21.11.2008  Назначен новый президент Microsoft в России
21.11.2008  Mustek: новые цифровые видеокамеры начального уровня
21.11.2008  Серверные Core i7 - быстры ли они? Да, и очень, судя по тестам в SPECfp
21.11.2008  NETGEAR: акция для партнеров
21.11.2008  Персональные фотокарты на Яндексе
21.11.2008  Программа для стартапов Microsoft BizSpark анонсирована в России
21.11.2008  Средства защиты от утечек конфиденциальных данных Symantec DLP 8.1 теперь и в России
21.11.2008  Axis: первый 6-канальный IP-видеосервер с поддержкой H.264/M-JPEG
 
Полезно

 
Copyright © CompDoc.Ru
При цитировании и перепечатке ссылка на www.compdoc.ru обязательна. Карта сайта.
 
Rambler's Top100