- Різні специфікації формату
- Чому для архівації зручніше вибирати саме PDF-формат
- Поняття Searchable PDF і OCR
- 1. Включення пошуку в Windows 7 Search по вмісту
- 2. Індексація
- 3. Необхідно стороннє ПО, могло второпати PDF-формат
- 4. Особливості роботи Windows 7 Search
При роботі з великою кількістю фалів і папок, що містять текстову інформацію, користувачеві ПК неодноразово доводилося стикатися з такою ситуацією: не вдається знайти на комп'ютері потрібний файл, невідомо де і коли його зберегли, яке ім'я було присвоєно при збереженні, не запам'яталося в якому форматі він був - офісному, текстовому або графічному. А в цьому файлі містяться дані, які саме зараз вкрай необхідні. На комп'ютері стільки багато всього накопичилося, що на пошук потрібного файлу відкриттям переглядом всіх файлів підряд може піти не одну годину.
У даній статті ми розглянемо питання створення архіву документів в форматі PDF і можливість простий організації пошуку по тексту, що міститься в цих документах.
Portable Document Format (PDF) - міжплатформений формат електронних документів, розроблений в 1993 році компанією Adobe Systems з використанням ряду можливостей мови PostScript. В першу чергу призначений для подання поліграфічної продукції в електронному вигляді. Для перегляду файлів даного формату існує офіційна програма Adobe Reader , А так само безліч програм сторонніх розробників.
Після того, як Adobe випустила безкоштовну версію Acrobat Reader (пізніше перейменовану в Adobe Reader) для читання PDF-документів, популярність цього формату стала зростати. Формат PDF-файлів кілька разів змінювався і продовжує еволюціонувати. Існує кілька специфікацій формату, послідовно розширюють один одного.
Формат PDF з 1 липня 2008 року є відкритим стандартом ISO 32000.
Різні специфікації формату
PDF / X-1a - це стандартний формат файлів, спеціально призначений для обміну готовими до друку документами (для передачі в друкарню) у вигляді електронних даних, при якому відправнику і одержувачу не потрібно додаткової домовленості для обробки інформації і отримання необхідних результатів в накладі. Застосування PDF / X-1a усуває найпоширеніші помилки при підготовці файлів для друку.
PDF / A - стандарт ISO 19005-1: 2005 (опублікований 1 жовтня 2005 року) для довгострокового архівного зберігання електронних документів та базується на описі стандарту PDF версії 1.4 від Adobe Systems (використовувався в Adobe Acrobat 5). Насправді, PDF / A є підмножиною формату PDF, з якого виключені деякі особливості, що не підходять для довгострокового архівного зберігання.
Чому для архівації зручніше вибирати саме PDF-формат
Однією з проблем, з якою стикаються великі промислові підприємства, державні установи, страхові компанії, видавництва і архіви, є надійна архівація великих обсягів даних.
Традиційні способи, наприклад, зберігання інформації на папері або мікрофільмах, безнадійно застаріли, так як вони не забезпечують компактності даних, а також можливостей ефективного пошуку і передачі інформації. Тому в останні роки для архівації використовуються цифрові формати представлення даних. Одним з таких популярних графічних форматів став TIFF.
TIFF (англ. Tagged Image File Format) - формат зберігання растрових графічних зображень. TIFF став популярним форматом для зберігання зображень з великою глибиною кольору. Він використовується при скануванні, надсилання факсимільних повідомлень, розпізнаванні тексту, в поліграфії, широко підтримується графічними додатками.
Однак формат TIFF в свою чергу має істотні недоліки - неможливість пошуку текстової інформації без застосування засобів розпізнавання знаків (OCR), а також потреба у великих обсягах пам'яті для зберігання ТIFF- файлів. Формат PDF позбавлений цих недоліків - файли мають компактний розмір, можливий пошук по тексту, забезпечується висока якість візуалізації як графічних, так і текстових даних. З цієї причини для створення електронних архівів доцільно використовувати формат PDF, зокрема специфікацію PDF / A. Саме з цього стандартизувати PDF / А було запропоновано ще в 2002 р
Поняття Searchable PDF і OCR
Searchable PDF (так само іноді називають PDF + text) - файли формату PDF з включеним розпізнаним текстовим шаром з можливістю пошуку по тексту. Саме файли такого формату цікаві для створення архіву документів, адже в разі відсутності тексту в документі пошук по вмісту просто втрачає сенс. Текстовий шар в файлі створюється безпосереднім включенням тексту з текстового редактора, або методом OCR.
OCR (optical character recognition) - оптичне розпізнавання символів, механічний або електронний переказ зображень рукописного, машинописного або друкованого тексту в текстові дані - послідовність кодів, що використовуються для представлення символів в комп'ютері (наприклад, в текстовому редакторі). Розпізнавання широко використовується для конвертації книг і документів в електронний вигляд, для автоматизації систем обліку в бізнесі або для публікації тексту на веб-сторінці. Оптичне розпізнавання тексту дозволяє редагувати текст, здійснювати пошук слова або фрази, зберігати його в більш компактній формі, демонструвати або роздруковувати матеріал, не втрачаючи якості, аналізувати інформацію, а також застосовувати до тексту електронний переказ, форматування або перетворення в мова.
Традиційним способом створення PDF-документів є віртуальний принтер, тобто документ як такий готується в своїй спеціалізованій програмі - графічній програмі або текстовому редакторі, САПР і т. Д., А потім експортується в формат PDF для поширення в електронному вигляді, передачі в друкарню і т. п.
Сучасні офісні пакети (наприклад Microsoft Office) вміють зберігати файли у форматі PDF безпосередньо, без використання віртуального принтера. Весь міститься в документі текст при збереженні в форматі PDF включається у вигляді текстового шару (Searchable PDF - з можливістю пошуку по тексту.)
Існує безліч спеціалізованих програм для створення Searchable PDF. В основному це програми, що мають функції отримання зображення документа (робота зі сканером, імпорт зображення з файлу), опції, оптимізації, поліпшення якості зображення, функції OCR, функції збереження, експорту в популярні текстові редактори.
Як приклад таких програм можна привести ABBYY FineReader, IRIS Readiris.
Сучасна версія платного пакету Adobe Acrobat XI так само має вбудовану функцію оптичного розпізнавання тексту і включення в файл текстового шару. Підтримується більше 40 мов, включаючи Російську.
Сьогодні сканування документів у виробничому масштабі з використанням поточних сканерів здійснюється за допомогою спеціально розроблених програмних систем для швидкісного сканування і обробки документів. Дане ПО дозволяє виконувати такі операції як поділ об'єкту сканування потоку на окремі документи (за різними ознаками), класифікацію (визначення типу) документа і подальшу його обробку, збереження або перенаправлення, в залежності від встановлених дій для кожного типу. Дане ПО, як правило, досить дороге і вимагає спеціалізованих навичок (а часто і сертифікованих фахівців) для його налаштування і роботи. Безсумнівно, застосування подібного роду рішень доцільно і виправдано тільки при досить значних масштабах системи документообігу і великих обсягах оброблюваних документів.
Але що робити користувачам, чиї обсяги документації не настільки значні і застосування дорогих спеціалізованих рішень не рентабельно, а завдання створення структурованого сховища з можливістю пошуку актуальна і повинна як то вирішуватися.
Виробники поточних сканерів поступово почали усвідомлювати потребу своїх клієнтів, які набувають сканери початкового рівня. Сучасні потокові сканери поставляються не тільки у вигляді «заліза» і драйверів, а й включають в комплект поставки програмне забезпечення для сканування. І ці програми останнім часом здатне надавати користувачеві не тільки засіб для виконання базових операцій по скануванню, а й вельми просунуті функції, для виконання яких раніше потрібно було купувати додаткове ПЗ, або розширену версію ПО йде в комплекті.
Таким чином, сучасний потоковий сканер - це як правило комплексне, готове апаратно-програмне рішення, яке є самодостатнім інструментом для вирішення широкого кола завдань.
До таких завдань належить і сканування документа в PDF-файл з розпізнаним текстом. Сучасні новинки від провідних виробників мають, як правило, все необхідне для вирішення даного завдання в комплекті. Причому включається можливість розпізнавання широкого набору мов. До слова, не так давно засобів отримання OCR (оптичного розпізнавання тексту) безпосередньо «з коробки» сканера виробниками не надавалося (за винятком, хіба що, поставок-бандлів, тобто комплектів включають стороннє ПО для розпізнавання на OEM основі).
Розглянемо один з таких прикладів - новинка від компанії Kodak Alaris: персональний сканер документів Kodak S can M ate i1150 (вийшов у 2-му кварталі 2014 року). Детальний опис сканера дивіться тут .
Вхідний в комплект поставки стандартний новий менеджер профілів Kodak SmartTouch дозволяє налаштувати профіль сканування в формат PDF з включенням функції оптичного розпізнавання тексту (можливий вибір більше 40 мов включаючи Російську). ПО так само здатне розпізнавати штрих-кодів, що зустрічаються на сторінках документів, розділяти потік сторінок на окремі документи і називати файли відповідно до даних, витягнутими з штрих-коду. Можуть бути виявлені наступні штрих-коди: Interleaved 2 з 5; Код 3 з 9; Код 128; Codabar; UPC-A; UPC-E; EAN-13; EAN-8; PDF417. Програма розпізнає тільки перший штрих-код, який зустрівся на аркуші. Причому розташування штрих-коду (під нахилом, вертикально або перевернутий по відношенню до орієнтації тексту) на якість виявлення не впливає, штрих-код розпізнається стабільно.
SmartTouch підтримує збереження в форматі PDF специфікації PDF / A.
Таким чином, встановивши пачку листів в приймальний лоток автоподатчика сканера Kodak S can M ate i1150, вибравши на панелі сканера попередньо налаштований профіль і натиснувши кнопку запуску сканування ми отримуємо на комп'ютері в зазначеному місці (диску або папці) належним чином пойменований набір PDF-файлів, містять відскановані документи, з можливістю пошуку по вмісту документа. Ніяких додаткових дій не потрібно.
Погодьтеся, рішення задачі отримання searchable PDF ніколи не було на стільки простим. У цьому світлі завдання створення електронного архіву (сховища) документів у форматі PDF з можливістю пошуку так само не виглядає складною.
З питань придбання новинки від Kodak Alaris, а так само інших документних сканерів провідних виробників ви завжди можете звернутися в компанію ПІРИТ, що є офіційним дистриб'ютором сканерів Canon, Kodak, Fujitsu, Avision на території Росії. Сайт відділу сканерів: http://www.docscan.ru .
Отже, тепер ми з вами знаємо як створити систему файлів і папок, що містять наш архів файлів PDF. Тепер з'ясуємо, яким нескладним чином можна здійснювати пошук необхідної нам інформації по вмісту файлів (за словами), що перебувають в цьому архіві.
На сьогоднішній день, незважаючи на відносно недавній (2012 р) вихід системи Windows 8, найбільш поширеною в середньостатистичних офісах є ОС Windows 7 (редакцію згадувати тут не будемо, тому що для наших цілей це не принципово). Подекуди, звичайно, ще залишається в роботі перевірена роками старенька XP, але все таки з початком епохи бездротових мереж в кінці 2000-х дана ОС поступово (і повсюдно) відходить у минуле.
Тому розглянемо як справи з пошукової підсистемою в ОС Windows 7.
Щоб Операційна система Windows 7 змогла знайти файл по його вмісту, спершу необхідно включити дану опцію в налаштуваннях ОС.
1. Включення пошуку в Windows 7 Search по вмісту
За замовчуванням ОС Windows 7 налаштована на пошук тільки по іменах файлів. Для включення можливості пошуку по вмісту потрібно в Провіднику Windows вибрати метод -> Параметри папок і пошуку. Закладка Пошук - вибрати ДРУГИЙ варіант пошуку «Завжди шукати по іменах файлів і вмісту».
Тепер при пошуку система буде переглядати не тільки імена файлів, але і їх вміст, якщо для даного типу файлів вказана можливість пошуку по вмісту (про це дізнаємося в наступному розділі статті).
2. Індексація
Далі необхідно проіндексувати файли і папки, в яких передбачається здійснювати пошук. Пошук в проіндексованих папках здійснюється значно швидше.
Для того щоб ваш ПК проіндексував папки вашого архіву, необхідно в параметрах індексування додати в список місць індексування папку (папки) де будуть зберігатися PDF-файли, або вказати букву диска, якщо точне місцезнаходження архіву не визначено.
Крім того, за замовчуванням, для пошуку по вмісту, в індексі включені тільки популярні формати файлів, всі інші файли треба активувати вручну.
У нашій редакції Windows 7 формат файлів PDF вже виявився включений для пошуку по вмісту. У вашій версії можливий інший варіант, за цим ось докладна інструкція щодо вирішення цієї проблеми (Російська версія Windows 7).
- ПУСК (Start). (Нижній, лівий кут, Прапорець)
- Внизу, в поле: «Знайти програми та файли» (Run) вписуємо цей рядок: «Параметри індексування» (Enter)
- У віконці, що з'явилося переконайтеся, що буква диска, на якому знаходяться файли вашого архіву, присутній в списку «Включені розташування». Якщо немає, потрібно додати потрібний диск (або вказати певну папку або кілька папок, де будуть зберігатися файли PDF-архіву), натиснувши кнопку «Змінити».
- Далі, тиснемо кнопку «Додатково», закладка «Типи файлів».
- У списку знаходимо і встановлюємо курсор на розширення того файлу, яке часто шукайте: в нашому випадку *. PDF.
- Зверніть увагу, для більшості розширень в області «Як треба проіндексувати такі файли?» Обрана опція «Чи індексувати тільки властивості». Для потрібних нам файлів нам необхідно встановити нижню опцію: «Чи індексувати властивості і вміст файлів». Встановіть для типу PDF дану опцію (або переконайтеся що вона вже встановлена).
Настійно НЕ рекомендується вибирати багато типів файлів для індексації вмісту, а тільки ті, що точно необхідно для майбутнього пошуку.
При цьому всі зміни в налаштуваннях індексації файлів робіть перед періодом простою комп'ютера, наприклад на ніч (звичайно, в тому випадку якщо ваш ПК на ніч не відключається), інакше в процесі роботи ви відчуєте загальмованість вашого комп'ютера: процес індексації вельми ресурсномісткий, не дивлячись на то, що система і буде намагатися давати вам пріоритет у вашій активності.
3. Необхідно стороннє ПО, могло второпати PDF-формат
На вашому ПК повинен бути встановлений Adobe Reader актуальною (або не дуже старої) версії. Adobe Reader поширюється безкоштовно. Так само у Adobe є більш просунутий продукт для роботи з PDF - Adobe Acrobat (платний). Крім програмного забезпечення Adobe існує безліч PDF-редакторів сторонніх розробників (як безкоштовних так і розповсюджуються на платній основі). У будь-якому випадку - вибір залишається за користувачем.
Наявність ПО, що працює з форматом PDF дозволить ОС Windows 7 «розпізнавати» і відкривати файли PDF-формату. За замовчуванням Windows даний формат не розуміє.
Якщо ви є власником 64-бітної редакції Windows 7, необхідно додатково завантажити і встановите пакет PDF iFilter 64 ( PDFFilter64Setup.msi ) З сайту Adobe. Буде потрібно перезавантажити ПК.
Без даного пакета пошук по вмісту PDF-файлів в 64-бітної системі працювати не буде.
Після проведення даної підготовки на вашому ПК повинен працювати пошук по вмісту PDF безпосередньо з Провідника для поточної папки. Якщо потрібно провести пошук по всьому ПК - відкриваємо діалог Пошуку (Кнопка WIN + f).
4. Особливості роботи Windows 7 Search
Пошук по вмісту в сімці незалежно від того, проіндексовані файли чи ні здійснюється цілими словами чи фразами, а не за фрагментами тексту. Це пояснюється тим, що проіндексувати фрагмент тексту неможливо, тому що індекс створюється заздалегідь, а знати заздалегідь, з якого символу ти будеш шукати і якої довжини буде шукана стрічка, програма не може. У 7-ке пошук по вмісту спочатку заявлявся для проіндексованих файлів як швидкий, а значить розробникам потрібно виконувати обіцянку хорошій швидкості "індексованого" пошуку, яку пошук по фрагменту не може досягти.
Текстові файли з різними розширеннями
Система не може визначати тип файлів інакше, крім як по їх розширенням. З цього для того щоб будь-які текстові файли індексувалися без перейменування в txt, потрібно зареєструвати потрібні розширення. Вручну в налаштуваннях служби індексування, або внесенням змін безпосередньо в реєстрі.
Тепер, прочитавши Цю статтю, ви без зусіль зможете організуваті PDF-архів и простий поиск по тексту. Природно, це найпростіший варіант пошуку «за словами» (в якості розширеного доступний тільки фільтр по: Виду файлу, Даті зміни, Типу, Розміром і Імені).
Для організації розширеного пошуку із застосуванням різних фільтрів, з урахуванням морфології і т.п. необхідно використовувати окреме ПО. Наприклад програма Архіваріус 3000.
Програма Архіваріус 3000 - це пошук документів і поштових повідомлень у Вашому комп'ютері, в локальній мережі і в знімних дисках (CD, DVD та ін.). Пошук проводиться по вмісту документів, з урахуванням морфології (розумовий пошук з морфологією на 18 мовах).
Детально про програму Архіваріус і аналогічних можна прочитати на просторах інтернету, а в даній статті ми обмежимося розглядом простого пошукового рішення стандартними засобами Windows, що не потребує додаткових вкладень.
25.09.2014 Смирнов А.В., пірит
Зверніть увагу, для більшості розширень в області «Як треба проіндексувати такі файли?