- Еврика: Варіанти побудови електронного архіву
- Введення: технології обробки документів
- Класифікація електронних архівів
- Варіанти побудови електронного архіву
- Технологія створення електронного архіву
- КОМП'ЮТЕР-ІНФОРМ Головна сторінка || статті 16'1999 || Новини СПб || Новини Росії || світові новини
Комп'ютер-Інформ || Архів || Рубрики || Пошук || Підписка || Робота || Про "КІ" || Мапа
Еврика: Варіанти побудови електронного архіву
Юрій Пашков,
провідний інженер-конструктор автоматизованих систем,
тел. 327-3343, [email protected]
Переклад паперового архіву в електронну форму актуальне завдання для багатьох російських підприємств і організацій. Керівники і адміністратори розуміють, наскільки ефективніше і простіше працювати з електронними документами. Але на шляху від бажання до втілення виникає безліч питань. Які функції архіву замовити розробнику, як і послідовність дії, скільки це буде коштувати, і що робити, якщо обсяг можливих інвестицій невеликий, а автоматизувати процеси зберігання і пошуку все одно треба?
Фахівці компанії Еврика вже не один рік розробляють системи зберігання даних великих обсягів і мають великий досвід в цій області. Один з реалізованих в даний час проектів створення електронного каталогу Російської Національної бібліотеки. Співробітники компанії Еврика успішно розробили концепцію і технологію рішення задачі переведення в електронний формат каталогу одного з найбільших світових книгосховищ. Проект знаходиться в стадії реалізації.
Пропонована читачам оглядова стаття підготовлена авторитетним фахівцем, і сподіваємося, допоможе зорієнтуватися у вирішенні багатьох питань, пов'язаних зі створенням електронних архівів.
Введення: технології обробки документів
Всі архіви, як би вони не відрізнялися за кількістю, якістю, типу, що зберігається і носіям, мають загальні риси. Всі вони створені для того, щоб забезпечувати певний інформаційний процес, сутність якого полягає в зборі інформації про об'єкт управління, її впорядкування та зберіганні, а також передачі інформації від джерела до споживача. В електронних архівах перераховані функції здійснюються за допомогою засобів інформаційної техніки і власне інформаційний процес можна розділити на наступні операції:
- відбір документів, що характеризують об'єкт;
- формування інформаційних повідомлень (образів документів) на основі відібраних документів;
- введення повідомлень в технічні пристрої;
- зберігання повідомлень для подальшого пошуку;
- введення запитів користувачів абонентів архіву;
- обробка запитів і вибірка повідомлень за критерієм смислової відповідності запитам;
- передача повідомлень по каналах зв'язку;
- відображення інформації, що міститься в повідомленні, в доступному людині вигляді.
При цьому основна увага традиційно приділяється питанням організації процесу інформаційного пошуку як визначає показники якості функціонування системи архіву в цілому.
Принципова схема інформаційного пошуку наведена на малюнку. Тут можна виділити два канали передачі інформації:
I канал введення і зберігання, що формує архів документів, (односпрямований);
II канал доступу користувачів, за яким здійснюється введення запитів від абонентів і видача інформації у відповідь на запит (функціонує в обох напрямках).
Первинні документи поділяються на три типи: текстові, графічні, відео- та аудіоматеріали. Попередня обробка документів включає реєстрацію документа, що поступив, перевірку його на дублетність (відсутність в сховищі), смислове обробку (опис, анотування, реферування, індексування), а також інші операції. При цьому заповнюється облікова картка документа, на якій фіксуються його пошукові ознаки, інакше кажучи, пошуковий образ (ПІД), і інформація, що підлягає видачі при відповіді на запит (анотація, бібліографічний опис і т.п.). Сам вихідний документ направляється в сховище документів.
Створення пошукового образу документа особливо важливий етап, тому що від нього безпосередньо залежать пошукові здібності системи. Існує певна послідовність операцій в процесі пошуку даних по електронного архіву. Від користувача надходить інформаційний запит словесна формулювання інформаційної потреби абонента. За суб'єктивних причин вона вимагає уточнення, яке проводиться як до процесу пошуку інформації, так і в ході його. На основі запиту формується пошукове припис, відповідно до якого в сховище знаходять пошукові образи документів. В результаті пошуку абонент отримує опису первинних документів, на підставі яких приймається рішення про необхідність отримати оригінал зі сховища.
Класифікація електронних архівів
В контексті перекладу архіву в електронну форму класифікація сховищ потрібна для того, щоб правильно вибрати необхідні технічні та програмні засоби, а отже, досягти максимальних можливостей при мінімальних витратах для кожного конкретного випадку. Архіви створюються в організаціях з різними цілями. Іноді необхідно забезпечити виняткову збереження документів, наприклад, в сховищах рідкісних або старих видань. В інших випадках найважливіше можливість оперативного пошуку одночасно для безлічі користувачів. По-третє ситуаціях важливо і те, і інше в рівній мірі. Співвідношення глибини використання функцій архівування безліч, саме правильне їх визначення дозволяє досягти оптимального результату в процесі перекладу архіву в електронну форму. Як основу класифікації найдоцільніше розглядати технологічні особливості реалізації основних функцій архіву:
- первинного введення документів в архів;
- пошуку документів;
- зберігання документів.
Нижче ми постараємося визначити засоби, потрібні організаторам електронного архіву в залежності від того, які функції превалюють.
Для кінцевого користувача принципово важливо виконання саме пошукових функцій. Електронні архіви можуть забезпечувати: пошук документів по картотеці; повнотекстовий пошук за змістом документів.
Слід зазначити, що традиційно можливість повнотекстового пошуку надається поряд з пошуком по картотеці. Навіть в тому випадку, коли в системі немає спеціальної програми підтримки картотеки документів і встановлені засоби повнотекстового пошуку, як картотеки виступає файлова система ОС, що описує характеристики файлів.
Оптимально, коли у відповідь на запит користувачу надається текст документа, релевантного запиту. Цей текст може бути представлений або відсканованих зображенням документа, або бути безпосередньо текстом документа, яким-небудь чином введенням в архів.
Повнотекстовий пошук передбачає значні переваги, але його організація вимагає особливих зусиль. По-перше, істотно збільшується обсяг робіт на етапі первинного введення документів в архів необхідний або ручне введення документів, або автоматизований, що включає розпізнавання текстів всіх документів, що вводяться, усунення помилок розпізнавання. Крім того, буде потрібна додаткова пам'ять на жорстких дисках (до 50% від обсягу збережених текстів) для зберігання пошукових повнотекстових індексів і необхідні програмні засоби для здійснення багато користувачів пошуку по тексту документів.
Можливість повнотекстового пошуку істотно здорожує систему. Тому архіви і діляться по пошуковому ознакою на два класи: з пошуком документів по картотеці і з повнотекстових пошуком по вмісту документів.
Зупинимося докладніше на проблемах первинного введення документів для повнотекстового пошуку. В даний час автоматизований введення документів може здійснюватися або по одному документу, або за принципом потокового введення.
Подокументно введення це традиційний ручний введення документів з допомогою звичайного сканера. Введення по поточному принципом може бути реалізований тільки за допомогою спеціальних сканерів потокового введення. Устаткування, що не володіє можливостями швидкісного введення (звичайні планшетні сканери) принципово не може бути використано, тому що не забезпечить необхідної продуктивності.
Сканери потокового введення можуть працювати також і в режимі подокументно введення, залежно від використовуваного ПО. Можна організувати потокове введення, не застосовуючи спеціальних програмних засобів. В цьому випадку:
- обладнання для сканування (сканер + пристрій подачі) не працюватиме максимально інтенсивно;
- на обслуговуючий персонал повинні бути покладені додаткові функції.
Як приклад універсального засобу вирішення завдань первинного введення можна назвати сканери S-Series фірми BancTec. Оніобладают високою швидкістю сканування (до 225 документів / хв.), Можливістю введення документів різного формату (від А3 до візитки) і з різних носіїв (від газетного паперу до ватману). Сканери S-Series оснащені процесором обробки зображень, завдяки якому автоматично коригується похибка положення оригіналу, усувається шум, підбирається оптимальний контраст. Пристрої BancTec поєднують можливість ручної та автоматичної подачі документів (лоток до 500 аркушів), прості в управлінні і мають можливість нарощування продуктивності від молодшої моделі до найпотужнішої без зміни технології обробки документів. У Росії їх поставляє петербурзька компанія Еврика.
З точки зору власника архіву на перший план виходять групи функцій, пов'язані зі створенням сховища документів та управління ім. Зберігання документів в електронному архіві може бути організовано двома способами:
- з використанням засобів тільки файлового доступу ОС (тіла документів зберігаються у вигляді файлів в файлову систему),
- на основі сервера автоматизованого документообігу (тіла документів являють собою логічні розділи одного файлу, доступ до яких можливий тільки за допомогою спеціального сервера).
Як організовується зберігання електронних образів (тел) документів в файлової системі? Якщо їх загальний обсяг великий і перевершує обсяг накопичувачів на жорстких дисках типового файлового сервера (в даний час 4-10 ГБ), то використовують бібліотеки МО або CD-дисків. Ці бібліотеки являють собою роботизовані приводи накопичувачів МО або CD-дисків, виконані у вигляді окремих настільних або підлогових пристроїв і під'єднуються до сервера, як правило, по інтерфейсу SCSI.
Альтернативний спосіб зберігання документів і організації доступу до них сервер MediaStream виробництва петербурзької компанії Еврика. Це апаратно-програмний комплекс, що складається з пристроїв зберігання даних (CD, DVD або MO) з автоматичною зміною носія, наприклад, CD-ROM сhanger Pioneer DRM-500X і сервера. Один такий пристрій дозволяє зберігати 340 ГБ інформації, причому вартість носія значно нижче традиційних HD, а ступінь збереження інформації вище.
Завдяки використанню визнаних стандартів та новітніх технологій сервер MediaStream надійний, гнучкий в адмініструванні, зручний для користувача, тому що дозволяє створювати будь-які віртуальні каталоги, структуру зберігання даних.
Бібліотека з завантаженими в неї дисками розглядається в рамках ОС сервера на різних рівнях архітектури ОС:
- як кілька фізичних пристроїв (мінімально: один накопичувач і один робот);
- як один логічний пристрій тому (за аналогією з томом накопичувача на жорстких дисках).
Як правило, цей том має файлову структуру, типову для тієї мережевої ОС, яка встановлена на сервері. При цьому можливі різні варіанти відображення логічної структури томи бібліотеки.
Найбільш поширений варіант, при якому дискам відповідають каталоги в корені томи, а каталоги і файли, розміщені на одному фізичному диску, є підкаталогами і вкладеними файлами таких каталогів. Для відображення бібліотеки в логічний пристрій до складу ОС сервера включають системну програму драйвер бібліотеки.
Доступ користувачів до тіл документів в цьому випадку здійснюється стандартними засобами. В якості найпростішої картотеки документів використовується зміст томи. Для цього в найменуваннях файлів і каталогів використовують коди з заздалегідь розробленого класифікатора документів, а пошук необхідних документів здійснюють за випадковим збігом кодів найменувань файлів за допомогою функцій файлової системи.
У системах автоматизованого документообігу в склад ПО файлового сервера на додаток до драйверу бібліотеки додають серверну частину документного сервера, а до складу ПО робочих станцій клієнтську частину системи. Крім цього до складу ПО сервера включають, як правило, систему управління базою даних (СКБД), яка використовується для зберігання картотеки описів документів. У цьому випадку на рівні файлової системи вся бібліотека виглядає як один великий файл. Документи являють логічні розділи цього файлу. Доступ до документів з клієнтських ПК можливий тільки за допомогою програми документного сервера і клієнтської частини системи.
Визначимо склад архіву, виходячи з необхідності реалізації його в рамках архітектури клієнт-сервер. Про те, що в архіві автоматизовані функції зберігання, можна говорити, якщо дотримані наступні умови:
- обладнання архіву володіє мінімально можливими характеристиками, відповідними параметрами архіву та організації колективної роботи групи фахівців;
- системне ПО підтримує базові набори функцій, мінімально необхідні для функціонування системи в цілому і організації колективної роботи в мережі;
- прикладні програмні засоби, що поставляються разом із спеціальним обладнанням, реалізують мінімальний набір функцій, що задовольняє вимогам ТЗ.
Мінімальні вимоги щодо організації колективного доступу до зберігаються на файловому сервері образам документів можна забезпечити, створивши локальну мережу на основі файлового сервера і мережевих робочих місць операторів, що працюють під управлінням типовий мережевий ОС, до складу якої входить як мінімум одне робоче місце, обладнане сканером.
Такий електронний архів забезпечить виконання завдань архіву, проте, цілий ряд функцій виконуватиметься недостатньо ефективно. Можливі варіанти побудови архіву відрізняються ступенем автоматизації функцій роботи з документами.
Більш ємні і продуктивні варіанти архіву можуть бути отримані як за рахунок розширення складу обладнання (бібліотеки МО і CD-дисків, потокові сканери), так і за рахунок розширення функцій ПО (системи управління документами, системи повнотекстового пошуку, системи поточного введення).
Варіанти побудови електронного архіву
Розглянемо можливі варіанти побудови електронного архіву в залежності від реалізації певних нами класифікаційних ознак, табл.
Які можливості електронний архів надасть користувачам залежно від варіанту виконання?
ВаріантаМожливості пошукуТип зберіганняПервинне введення
Варіант 0 (мінімальний) Пошук по файлової
системі Документи в файлової системі Документний введення Варіант 1 Пошук по картотеці Документи в файлової системі Документний введення Варіант 2 Пошук по картотеці Документи в файлової системі Потоковий ввод Варіант 3 Пошук по картотеці Система управління документами Документний введення Варіант 4 Пошук по картотеці Система управління документами Потоковий ввод Варіант 5 Повнотекстовий пошук Документи в файлової системі Документний введення Варіант 6 Повнотекстовий пошук Документи в файлової системі Потоковий ввод Варіант 7 Повнотекстовий пошук Сис тема управління документами Документний введення Варіант 8 Повнотекстовий пошук Система управління документами Потоковий ввод
Варіант 0 це мінімальний набір засобів, що забезпечує вирішення завдань електронного документального архіву. Усі наступні варіанти є його розширеннями, тому далі будемо називати його базовим.
У базовий комплект засобів не включені спеціалізовані програмні засоби організації потокового введення, автоматизації документообігу, а також картотечного і повнотекстовий пошук документів.
Образи як текстових, так і графічних документів є їх скановані зображення у форматі графічних файлів TIFF Group 4 (мульти tiff, або багатосторінковий .tiff файл). В рамках цього формату одному багатосторінковим документу відповідає один файл з розширенням .tif, кожна сторінка документа може бути оброблена окремо від інших. Для зменшення обсягу збережених даних використовується стиснення інформації.
Зберігання образів документів в файлової системі дозволяє реалізувати найпростіший режим пошуку документів. Однак використання найпростіших пошукових утиліт командного рядка або програм типу Explorer (Провідник), присутніх у складі серверних ОС і ОС робочих станцій, для організації пошуку в бібліотеках небажано. Адже алгоритм послідовного перегляду вмісту томи вкрай повільно працює в великих обсягах даних, характерних для бібліотек. Тому базовий комплект засобів не може бути рекомендований для створення електронного архіву (ЕА).
Самий розумний спосіб уникнути виконання повільних пошукових операцій обмежити доступ користувачів до файлів образів документів. Доступ до цих файлів можливий тільки через пошукову систему.
Варіанти 1-4 припускають підтримку пошуку по картотеці, варіанти 5-8, крім пошуку по картотеці, забезпечують повнотекстовий пошук.
Варіант 1 є розширенням базового варіанту ЕА і може бути названий варіантом архіву з пошуком по картотеці (картотечний архів) і зберіганням документів в файлової системі. Для його реалізації до складу ПО ЕА повинні бути введені програмні засоби організації картотеки документів колективного користування, наример системи Справа-96 фірми Електронні Офісні Системи або Євфрат компанії Cognitive Technologies.
Ці системи будуються по архітектурі клієнт-сервер і складаються з двох компонент серверної і клієнтської. Серверна компонента орієнтована на використання стандартної реляційної клієнт-серверної СУБД типу MS SQL Server або Oracle, яку необхідно також встановити на сервері. Більш досконалими вважаються системи типу DOCSOpen фірми PC DOCS і StaffWare фірми StaffWare.
Існують системи, що використовують для клієнтської частини стандартні програми. Наприклад, система MediaStream Server фірми Еврика використовує для клієнта стандартні браузери c протоколом HTTP. Такі системи найбільш ефективні в глобальних мережах при використанні технології Інтернет / Інтранет.
Варіант 2 (картотечний архів з потоковим введенням) відрізняється від варіанту 1 тим, що до складу ПО станцій введення додатково введені програмні засоби організації поточного введення, наприклад програмний комплекс Accent Capture фірми Kofax. З російських розробок виділяється система BellView Scan фірми Alter Systems.
Варіант 3 передбачає використання системи управління документами, такий, як DOCs Open фірми PC DOCS (картотечний архів з системою управління документами) і зберіганням документів у файлі системи управління документів. Система управління документами, як правило, містить у комплекті програм засоби формування бібліотек документів і організації пошуку по картотеці.
Варіант 4 є найбільш повним для архіву, що підтримує пошук по картотеці (картотечний архів з системою управління документами і потоковим введенням). До його складу входять як програмні засоби поточного введення, так і система управління документами.
Варіант 5 є мінімальним для архіву з повнотекстових пошуком (повнотекстовий архів).
Для цього необхідно забезпечити введення в систему не тільки зображень документів, але і їх змісту в текстовому вигляді, що означає або ручне (за допомогою оператора) розпізнавання всіх впроваджуються в архів документів, або напівавтоматичне з використанням технології OCR (оптичного розпізнавання символів). Крім того, до складу ПО сервера сховища документів повинні бути введені програмні засоби повнотекстового пошуку, так звана пошукова машина. Все що вводяться документи повинні бути проіндексовані по тексту пошуковою машиною; результатом індексування є індексний файл, який займає додатковий обсяг пам'яті на запам'ятовуючих пристроях сервера. Обсяг індексного файлу орієнтовно дорівнює обсягу текстів індексованих документів.
І, звичайно, на кожному з мережевих ПК повинна бути встановлена клієнтська частина програмного комплексу повнотекстового пошуку.
Таким чином, варіант 5, на відміну від варіанту 1, повинен містити додатково:
- кілька станцій розпізнавання тексту з програмною системою OCR типу FineReader фірми ABBYY, Cunieform фірми Cognitive або аналогічної;
- додаткову зовнішню пам'ять на сервері сховища документів для зберігання повнотекстових індексів;
- до складу ПО сервера сховища документів повинна бути включена повнотекстова пошукова машина, що підтримує роботу з декількома мовами, а до складу ПО робочих станцій операторів клієнтська частина повнотекстового пошуку. Прикладом такої системи може бути пошукова система фірми Excalibur RetrievalWare з розробкою Російський семантичний сервер фірми Звістка-Метатехнологія.
Варіант 6 відрізняється від варіанту 5 тим, що до складу ПО станцій введення додані програмні засоби організації поточного введення (повнотекстовий архів з потоковим введенням). Прикладом такого засобу є програмний комплекс Accent Capture фірми Kofax.
Варіант 7 додатково до коштів варіанту 5 передбачає використання системи управління документами, такий, як DOCs Open фірми PC DOCS (повнотекстовий архів з системою управління документами). Система DOCs Open, як правило, містить у комплекті програм пошукову машину повнотекстового пошуку Verity. Однак її можливості дещо обмежені в порівнянні з можливостями системи Excalibur RetrievalWare.
Варіант 8 є найбільш повним для архіву, що підтримує як пошук по картотеці, так і повнотекстовий пошук (повнотекстовий архів з системою управління документами і потоковим введенням). До його складу входять як програмні засоби поточного введення, оснащені засобами розпізнавання тексту, так і система управління документами, доповнена програмної пошуковою машиною повнотекстового пошуку.
Технологія створення електронного архіву
З точки зору користувача найбільшою цінністю володіє архів з повнотекстових пошуком. Однак реалізація такого архіву за один етап роботи вимагає серйозних капітальних вкладень в обладнання і великих витрат праці на організацію розпізнавання тексту документів.
Доцільніше створювати електронний архів в два етапи. 1 створюється архів типу 4 архів з пошуком по картотеці, до складу якого входять як програмні засоби поточного введення, так і система управління документами. 2 створюється архів типу 8, що забезпечує як пошук по картотеці, так і повнотекстовий пошук по всьому об'єму документів.
Відмова від організації повнотекстового пошуку при первинному введенні не означає, що цей режим неможливо включити згодом.
При поетапному створенні електронного архіву можлива наступна послідовність робіт. На першому етапі створюється архів образів (зображень) з документів з картками. При введенні документів для виключення пропусків сторінок і забезпечення 100% якості введення вихідних документів використовуються програмні засоби поточного введення. Кожен введений документ напівавтомат індексується. (Напівавтоматичне індексування трудомістка операція, яка не може бути виконана без використання роботи операторів.) Далі образи документів переносяться адміністратором на оптичні носії: на CD-ROM і MO-диски. Ці носії розміщуються в відповідно CD- і MO-роботизованих бібліотеках. Що зберігаються на дисках образи документів експортуються в сховище документів системи управління документами. Після цього вони стають доступні користувачам для пошукових запитів через інтерфейс системи управління документами. В цей час можливе проведення додаткових робіт по опису документів (їх реферування, анотування і т.п.). Перший етап робіт зі створення архіву закінчується після введення основного обсягу документів. Результатом робіт буде архів образів документів з можливістю пошуку по картотеці (без можливості повнотекстового пошуку).
Після початкового заповнення архіву може бути реалізований етап робіт по забезпеченню повнотекстового пошуку. На другому етапі робіт виконується розпізнавання тексту введених в архів документів і завантаження повнотекстових індексів. Оскільки в цей час йде індексування тільки новоприбулих документів, то розпізнавання текстів документів можна виконувати на тих же робочих станціях, на яких йшло індексування при первинному введенні, силами тих же співробітників. Розпізнані тексти документів також переносяться адміністратором на оптичні носії та використовуються для побудови повнотекстових індексів. Слід зазначити, що до складу такої системи управління документами, як DOCs Open, вже входить програмні засоби повнотекстового пошуку. Можливо також використання більш досконалої пошукової системи, такої, як RetrievalWare фірми Excalibur. Результатом цього стане архів з можливістю як пошуку по картотеці, так і повнотекстовий пошук.
Можливі й інші варіанти послідовності робіт зі створення ЕА від одного до п'яти етапів, в результаті яких може бути створений повноцінний архів.
КОМП'ЮТЕР-ІНФОРМ
Головна сторінка || статті 16'1999 || Новини СПб || Новини Росії || світові новини
Рубрики || робота || послуги || Пошук || Архів || Дні народження
Про "КІ" || графік виходів || Карта сайту || підписка
Розсилка анонсів газети по електронній пошті
Головна сторінка
Сайт газети "Комп'ютер-Інформ" є зареєстрованим електронним ЗМІ.
Свідоцтво Ел 77-4461 від 2 квітня 2001 р
Передрук матеріалів без письмової згоди редакції заборонена.
При використанні матеріалів газети в Інтернет гіперпосилання є обов'язковим.
Телефон редакції (812) 718-6666, 718-6555.
Адреса: 196084, СПб, ул.Заставская, д.23, БЦ "Авіатор", 3-й поверх, офіс 307
e-mail: [email protected]
Для прес-релізів і новин [email protected]
Які можливості електронний архів надасть користувачам залежно від варіанту виконання?