Энциклопедия по печатным средствам информации стр.319

Указания по оформлению текста должны быть ограничены в рукописи характеристиками заголовков, абзацев, порядком расположения иллюстраций, если они помещаются в определенном месте текста, а также необходимой разметкой начала новой страницы (предпочтительнее - правой).

Автор может передать текст издательству или типографии через сеть данных (например, по электронной почте через сеть ISDN). Это экономит время и повышает актуальность информации. Коммуникации служат, главным образом, для общения автора и издательства. Для этого определяются форматы данных, протоколы и интерфейсы взаимодействия.

Ввод при помощи оптических методов (OCR)

С помощью технологии OCR (Optical Character Recognition - оптическое распознавание знаков) текст, представленный в рукописной или машинописной форме, преобразуется в цифровую форму и тем самым становится пригодным для обработки. Сначала в «процессе отображения» документа, находящегося на бумаге, осуществляется его ввод оптоэлектронными считывающими системами. Документ предстает в виде битовой карты. В дальнейшем битовая структура знака конвертируется в текстовый код [3.1-2].

В процессе считывания документ сканируется и описывается определенной матричной структурой. Значения яркости и цвета каждой точки матрицы записываются в цифровой форме. Черно-белые документы при сканировании описываются одним битом информации на точку изображения. При сканировании цветных оригиналов с разложением на 4 краски необходимо использовать до 32 бит на точку. Разрешение устройств, осуществляющих сканирование, определяет, насколько точно считанное изображение соответствует оригиналу. Для большинства текстовых оригиналов разрешение 300 dpi позволяет получить высокую надежность распознавания знаков при использовании процессов OCR (кегль шрифта, начиная примерно с 4 мм, в зависимости от четкости начертания элементов шрифта). Иллюстрации и текст, набранный шрифтами малых кеглей, требуют разрешения считывания 600 dpi. Для цифрового представления изображения обычно используют формат TIFF (Tagged-Image File Format). Процесс OCR охватывает 5 этапов:

• идентификация текстовых и иллюстрационных блоков с исключением последних;

• распознавание знака при помощи анализа его формы и сравнения с характерными признаками эталона;

• идентификация слова с помощью массивов словарей;

• корректура нераспознанных слов или знаков путем отображения их на экране с подтверждением или исправлением оператором;

• форматирование данных в одном из форматов для вывода, например, ASCII, Word, RTF или PDF, а также запись данных для сохранения (форматы данных, раздел 3.2.9).

В результате использования способа OCR текстовая информация преобразуется в цифровые данные, пригодные для последующей компьютерной обработки, подобно тексту, введенному с клавиатуры.

Технология OCR чаще всего используется для распознавания машинописных авторских оригиналов, для создания банков данных переиздаваемых книг, доступных только в виде предыдущих изданий. Доля ошибок оборудования OCR составляет менее 1%. При загрязнении оригинала, плохо пропечатанных знаках или наличии пятен на оригинале количество ошибок увеличивается. В таких случаях более эффективным может оказаться клавиатурный ввод. Критериями выбора того или иного метода распознавания являются шрифты оригинала, необходимая скорость распознавания, объем и качество словаря, используемые форматы данных и, естественно, цена.


⇐ вернуться к прочитанному| |перейти на следующую страницу ⇒