Створення архіву документів в форматі PDF з можливістю пошуку по вмісту засобами ОС Windows 7: Документні сканери

Різні специфікації формату
Чому для архівації зручніше вибирати саме PDF-формат
Поняття Searchable PDF і OCR
1. Включення пошуку в Windows 7 Search по вмісту
2. Індексація
3. Необхідно стороннє ПО, могло второпати PDF-формат
4. Особливості роботи Windows 7 Search

При роботі з великою кількістю фалів і папок, що містять текстову інформацію, користувачеві ПК неодноразово доводилося стикатися з такою ситуацією: не вдається знайти на комп'ютері потрібний файл, невідомо де і коли його зберегли, яке ім'я було присвоєно при збереженні, не запам'яталося в якому форматі він був - офісному, текстовому або графічному. А в цьому файлі містяться дані, які саме зараз вкрай необхідні. На комп'ютері стільки багато всього накопичилося, що на пошук потрібного файлу відкриттям переглядом всіх файлів підряд може піти не одну годину.

У даній статті ми розглянемо питання створення архіву документів в форматі PDF і можливість простий організації пошуку по тексту, що міститься в цих документах.

Portable Document Format (PDF) - міжплатформений формат електронних документів, розроблений в 1993 році компанією Adobe Systems з використанням ряду можливостей мови PostScript. В першу чергу призначений для подання поліграфічної продукції в електронному вигляді. Для перегляду файлів даного формату існує офіційна програма Adobe Reader , А так само безліч програм сторонніх розробників.

Після того, як Adobe випустила безкоштовну версію Acrobat Reader (пізніше перейменовану в Adobe Reader) для читання PDF-документів, популярність цього формату стала зростати. Формат PDF-файлів кілька разів змінювався і продовжує еволюціонувати. Існує кілька специфікацій формату, послідовно розширюють один одного.

Формат PDF з 1 липня 2008 року є відкритим стандартом ISO 32000.

Різні специфікації формату

PDF / X-1a - це стандартний формат файлів, спеціально призначений для обміну готовими до друку документами (для передачі в друкарню) у вигляді електронних даних, при якому відправнику і одержувачу не потрібно додаткової домовленості для обробки інформації і отримання необхідних результатів в накладі. Застосування PDF / X-1a усуває найпоширеніші помилки при підготовці файлів для друку.

PDF / A - стандарт ISO 19005-1: 2005 (опублікований 1 жовтня 2005 року) для довгострокового архівного зберігання електронних документів та базується на описі стандарту PDF версії 1.4 від Adobe Systems (використовувався в Adobe Acrobat 5). Насправді, PDF / A є підмножиною формату PDF, з якого виключені деякі особливості, що не підходять для довгострокового архівного зберігання.

Чому для архівації зручніше вибирати саме PDF-формат

Однією з проблем, з якою стикаються великі промислові підприємства, державні установи, страхові компанії, видавництва і архіви, є надійна архівація великих обсягів даних.

Традиційні способи, наприклад, зберігання інформації на папері або мікрофільмах, безнадійно застаріли, так як вони не забезпечують компактності даних, а також можливостей ефективного пошуку і передачі інформації. Тому в останні роки для архівації використовуються цифрові формати представлення даних. Одним з таких популярних графічних форматів став TIFF.

TIFF (англ. Tagged Image File Format) - формат зберігання растрових графічних зображень. TIFF став популярним форматом для зберігання зображень з великою глибиною кольору. Він використовується при скануванні, надсилання факсимільних повідомлень, розпізнаванні тексту, в поліграфії, широко підтримується графічними додатками.

Однак формат TIFF в свою чергу має істотні недоліки - неможливість пошуку текстової інформації без застосування засобів розпізнавання знаків (OCR), а також потреба у великих обсягах пам'яті для зберігання ТIFF- файлів. Формат PDF позбавлений цих недоліків - файли мають компактний розмір, можливий пошук по тексту, забезпечується висока якість візуалізації як графічних, так і текстових даних. З цієї причини для створення електронних архівів доцільно використовувати формат PDF, зокрема специфікацію PDF / A. Саме з цього стандартизувати PDF / А було запропоновано ще в 2002 р

Поняття Searchable PDF і OCR

Searchable PDF (так само іноді називають PDF + text) - файли формату PDF з включеним розпізнаним текстовим шаром з можливістю пошуку по тексту. Саме файли такого формату цікаві для створення архіву документів, адже в разі відсутності тексту в документі пошук по вмісту просто втрачає сенс. Текстовий шар в файлі створюється безпосереднім включенням тексту з текстового редактора, або методом OCR.

OCR (optical character recognition) - оптичне розпізнавання символів, механічний або електронний переказ зображень рукописного, машинописного або друкованого тексту в текстові дані - послідовність кодів, що використовуються для представлення символів в комп'ютері (наприклад, в текстовому редакторі). Розпізнавання широко використовується для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі або для публікації тексту на веб-сторінці. Оптичне розпізнавання тексту дозволяє редагувати текст, здійснювати пошук слова або фрази, зберігати його в більш компактній формі, демонструвати або роздруковувати матеріал, не втрачаючи якості, аналізувати інформацію, а також застосовувати до тексту електронний переказ, форматування або перетворення в мова.

Традиційним способом створення PDF-документів є віртуальний принтер, тобто документ як такий готується в своїй спеціалізованій програмі - графічній програмі або текстовому редакторі, САПР і т. Д., А потім експортується в формат PDF для поширення в електронному вигляді, передачі в друкарню і т. п.

Сучасні офісні пакети (наприклад Microsoft Office) вміють зберігати файли у форматі PDF безпосередньо, без використання віртуального принтера. Весь міститься в документі текст при збереженні в форматі PDF включається у вигляді текстового шару (Searchable PDF - з можливістю пошуку по тексту.)

Існує безліч спеціалізованих програм для створення Searchable PDF. В основному це програми, що мають функції отримання зображення документа (робота зі сканером, імпорт зображення з файлу), опції, оптимізації, поліпшення якості зображення, функції OCR, функції збереження, експорту в популярні текстові редактори.

Як приклад таких програм можна привести ABBYY FineReader, IRIS Readiris.

Сучасна версія платного пакету Adobe Acrobat XI так само має вбудовану функцію оптичного розпізнавання тексту і включення в файл текстового шару. Підтримується більше 40 мов, включаючи Російську.

Сьогодні сканування документів у виробничому масштабі з використанням поточних сканерів здійснюється за допомогою спеціально розроблених програмних систем для швидкісного сканування і обробки документів. Дане ПО дозволяє виконувати такі операції як поділ об'єкту сканування потоку на окремі документи (за різними ознаками), класифікацію (визначення типу) документа і подальшу його обробку, збереження або перенаправлення, в залежності від встановлених дій для кожного типу. Дане ПО, як правило, досить дороге і вимагає спеціалізованих навичок (а часто і сертифікованих фахівців) для його налаштування і роботи. Безсумнівно, застосування подібного роду рішень доцільно і виправдано тільки при досить значних масштабах системи документообігу і великих обсягах оброблюваних документів.

Але що робити користувачам, чиї обсяги документації не настільки значні і застосування дорогих спеціалізованих рішень не рентабельно, а завдання створення структурованого сховища з можливістю пошуку актуальна і повинна як то вирішуватися.

Виробники поточних сканерів поступово почали усвідомлювати потребу своїх клієнтів, які набувають сканери початкового рівня. Сучасні потокові сканери поставляються не тільки у вигляді «заліза» і драйверів, а й включають в комплект поставки програмне забезпечення для сканування. І ці програми останнім часом здатне надавати користувачеві не тільки засіб для виконання базових операцій по скануванню, а й вельми просунуті функції, для виконання яких раніше потрібно було купувати додаткове ПЗ, або розширену версію ПО йде в комплекті.

Таким чином, сучасний потоковий сканер - це як правило комплексне, готове апаратно-програмне рішення, яке є самодостатнім інструментом для вирішення широкого кола завдань.

До таких завдань належить і сканування документа в PDF-файл з розпізнаним текстом. Сучасні новинки від провідних виробників мають, як правило, все необхідне для вирішення даного завдання в комплекті. Причому включається можливість розпізнавання широкого набору мов. До слова, не так давно засобів отримання OCR (оптичного розпізнавання тексту) безпосередньо «з коробки» сканера виробниками не надавалося (за винятком, хіба що, поставок-бандлів, тобто комплектів включають стороннє ПО для розпізнавання на OEM основі).

Розглянемо один з таких прикладів - новинка від компанії Kodak Alaris: персональний сканер документів Kodak S can M ate i1150 (вийшов у 2-му кварталі 2014 року). Детальний опис сканера дивіться тут .

Вхідний в комплект поставки стандартний новий менеджер профілів Kodak SmartTouch дозволяє налаштувати профіль сканування в формат PDF з включенням функції оптичного розпізнавання тексту (можливий вибір більше 40 мов включаючи Російську). ПО так само здатне розпізнавати штрих-кодів, що зустрічаються на сторінках документів, розділяти потік сторінок на окремі документи і називати файли відповідно до даних, витягнутими з штрих-коду. Можуть бути виявлені наступні штрих-коди: Interleaved 2 з 5; Код 3 з 9; Код 128; Codabar; UPC-A; UPC-E; EAN-13; EAN-8; PDF417. Програма розпізнає тільки перший штрих-код, який зустрівся на аркуші. Причому розташування штрих-коду (під нахилом, вертикально або перевернутий по відношенню до орієнтації тексту) на якість виявлення не впливає, штрих-код розпізнається стабільно.

SmartTouch підтримує збереження в форматі PDF специфікації PDF / A.

Таким чином, встановивши пачку листів в приймальний лоток автоподатчика сканера Kodak S can M ate i1150, вибравши на панелі сканера попередньо налаштований профіль і натиснувши кнопку запуску сканування ми отримуємо на комп'ютері в зазначеному місці (диску або папці) належним чином пойменований набір PDF-файлів, містять відскановані документи, з можливістю пошуку по вмісту документа. Ніяких додаткових дій не потрібно.

Погодьтеся, рішення задачі отримання searchable PDF ніколи не було на стільки простим. У цьому світлі завдання створення електронного архіву (сховища) документів у форматі PDF з можливістю пошуку так само не виглядає складною.

З питань придбання новинки від Kodak Alaris, а так само інших документних сканерів провідних виробників ви завжди можете звернутися в компанію ПІРИТ, що є офіційним дистриб'ютором сканерів Canon, Kodak, Fujitsu, Avision на території Росії. Сайт відділу сканерів: http://www.docscan.ru .

Отже, тепер ми з вами знаємо як створити систему файлів і папок, що містять наш архів файлів PDF. Тепер з'ясуємо, яким нескладним чином можна здійснювати пошук необхідної нам інформації по вмісту файлів (за словами), що перебувають в цьому архіві.

На сьогоднішній день, незважаючи на відносно недавній (2012 р) вихід системи Windows 8, найбільш поширеною в середньостатистичних офісах є ОС Windows 7 (редакцію згадувати тут не будемо, тому що для наших цілей це не принципово). Подекуди, звичайно, ще залишається в роботі перевірена роками старенька XP, але все таки з початком епохи бездротових мереж в кінці 2000-х дана ОС поступово (і повсюдно) відходить у минуле.

Тому розглянемо як справи з пошукової підсистемою в ОС Windows 7.

Щоб Операційна система Windows 7 змогла знайти файл по його вмісту, спершу необхідно включити дану опцію в налаштуваннях ОС.

1. Включення пошуку в Windows 7 Search по вмісту

За замовчуванням ОС Windows 7 налаштована на пошук тільки по іменах файлів. Для включення можливості пошуку по вмісту потрібно в Провіднику Windows вибрати метод -> Параметри папок і пошуку. Закладка Пошук - вибрати ДРУГИЙ варіант пошуку «Завжди шукати по іменах файлів і вмісту».

Тепер при пошуку система буде переглядати не тільки імена файлів, але і їх вміст, якщо для даного типу файлів вказана можливість пошуку по вмісту (про це дізнаємося в наступному розділі статті).

2. Індексація

Далі необхідно проіндексувати файли і папки, в яких передбачається здійснювати пошук. Пошук в проіндексованих папках здійснюється значно швидше.

Для того щоб ваш ПК проіндексував папки вашого архіву, необхідно в параметрах індексування додати в список місць індексування папку (папки) де будуть зберігатися PDF-файли, або вказати букву диска, якщо точне місцезнаходження архіву не визначено.

Крім того, за замовчуванням, для пошуку по вмісту, в індексі включені тільки популярні формати файлів, всі інші файли треба активувати вручну.

У нашій редакції Windows 7 формат файлів PDF вже виявився включений для пошуку по вмісту. У вашій версії можливий інший варіант, за цим ось докладна інструкція щодо вирішення цієї проблеми (Російська версія Windows 7).

ПУСК (Start). (Нижній, лівий кут, Прапорець)
Внизу, в поле: «Знайти програми та файли» (Run) вписуємо цей рядок: «Параметри індексування» (Enter)
У віконці, що з'явилося переконайтеся, що буква диска, на якому знаходяться файли вашого архіву, присутній в списку «Включені розташування». Якщо немає, потрібно додати потрібний диск (або вказати певну папку або кілька папок, де будуть зберігатися файли PDF-архіву), натиснувши кнопку «Змінити».
Далі, тиснемо кнопку «Додатково», закладка «Типи файлів».
У списку знаходимо і встановлюємо курсор на розширення того файлу, яке часто шукайте: в нашому випадку *. PDF.
Зверніть увагу, для більшості розширень в області «Як треба проіндексувати такі файли?» Обрана опція «Чи індексувати тільки властивості». Для потрібних нам файлів нам необхідно встановити нижню опцію: «Чи індексувати властивості і вміст файлів». Встановіть для типу PDF дану опцію (або переконайтеся що вона вже встановлена).

Встановіть для типу PDF дану опцію (або переконайтеся що вона вже встановлена)

Настійно НЕ рекомендується вибирати багато типів файлів для індексації вмісту, а тільки ті, що точно необхідно для майбутнього пошуку.

При цьому всі зміни в налаштуваннях індексації файлів робіть перед періодом простою комп'ютера, наприклад на ніч (звичайно, в тому випадку якщо ваш ПК на ніч не відключається), інакше в процесі роботи ви відчуєте загальмованість вашого комп'ютера: процес індексації вельми ресурсномісткий, не дивлячись на то, що система і буде намагатися давати вам пріоритет у вашій активності.

3. Необхідно стороннє ПО, могло второпати PDF-формат

На вашому ПК повинен бути встановлений Adobe Reader актуальною (або не дуже старої) версії. Adobe Reader поширюється безкоштовно. Так само у Adobe є більш просунутий продукт для роботи з PDF - Adobe Acrobat (платний). Крім програмного забезпечення Adobe існує безліч PDF-редакторів сторонніх розробників (як безкоштовних так і розповсюджуються на платній основі). У будь-якому випадку - вибір залишається за користувачем.

Наявність ПО, що працює з форматом PDF дозволить ОС Windows 7 «розпізнавати» і відкривати файли PDF-формату. За замовчуванням Windows даний формат не розуміє.

Якщо ви є власником 64-бітної редакції Windows 7, необхідно додатково завантажити і встановите пакет PDF iFilter 64 ( PDFFilter64Setup.msi ) З сайту Adobe. Буде потрібно перезавантажити ПК.

Без даного пакета пошук по вмісту PDF-файлів в 64-бітної системі працювати не буде.

Після проведення даної підготовки на вашому ПК повинен працювати пошук по вмісту PDF безпосередньо з Провідника для поточної папки. Якщо потрібно провести пошук по всьому ПК - відкриваємо діалог Пошуку (Кнопка WIN + f).

4. Особливості роботи Windows 7 Search

Пошук по вмісту в сімці незалежно від того, проіндексовані файли чи ні здійснюється цілими словами чи фразами, а не за фрагментами тексту. Це пояснюється тим, що проіндексувати фрагмент тексту неможливо, тому що індекс створюється заздалегідь, а знати заздалегідь, з якого символу ти будеш шукати і якої довжини буде шукана стрічка, програма не може. У 7-ке пошук по вмісту спочатку заявлявся для проіндексованих файлів як швидкий, а значить розробникам потрібно виконувати обіцянку хорошій швидкості "індексованого" пошуку, яку пошук по фрагменту не може досягти.

Текстові файли з різними розширеннями

Система не може визначати тип файлів інакше, крім як по їх розширенням. З цього для того щоб будь-які текстові файли індексувалися без перейменування в txt, потрібно зареєструвати потрібні розширення. Вручну в налаштуваннях служби індексування, або внесенням змін безпосередньо в реєстрі.

Тепер, прочитавши Цю статтю, ви без зусіль зможете організуваті PDF-архів и простий поиск по тексту. Природно, це найпростіший варіант пошуку «за словами» (в якості розширеного доступний тільки фільтр по: Виду файлу, Даті зміни, Типу, Розміром і Імені).

Природно, це найпростіший варіант пошуку «за словами» (в якості розширеного доступний тільки фільтр по: Виду файлу, Даті зміни, Типу, Розміром і Імені)

Для організації розширеного пошуку із застосуванням різних фільтрів, з урахуванням морфології і т.п. необхідно використовувати окреме ПО. Наприклад програма Архіваріус 3000.

Програма Архіваріус 3000 - це пошук документів і поштових повідомлень у Вашому комп'ютері, в локальній мережі і в знімних дисках (CD, DVD та ін.). Пошук проводиться по вмісту документів, з урахуванням морфології (розумовий пошук з морфологією на 18 мовах).

Детально про програму Архіваріус і аналогічних можна прочитати на просторах інтернету, а в даній статті ми обмежимося розглядом простого пошукового рішення стандартними засобами Windows, що не потребує додаткових вкладень.

25.09.2014 Смирнов А.В., пірит

Зверніть увагу, для більшості розширень в області «Як треба проіндексувати такі файли?

Статьи