Гипермаркет знаний>>Информатика>>Информатика 10 класс. Полные уроки>>Информатика: Системы оптического распознавания документов.
Тема
Цель
Ход урокаСистемы распознавания текстаДля создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов (Optical Character Recognition, OCR). С помощью сканера можно получить изображение страницы с текстом в графическом формате. Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение Текст можно будет читать, распечатывать, но только не редактировать.
Программное обеспечение для распознавания текстаПреобразование графического изображения в текст занимаются программы, используюшие принцип оптического распознавания. Современные программы с OCR умеют:
В процессе распознавания документов в плохом качестве (машинописный текст, факс) используется метод распознавания символов по наличию определенных структурных элементов - отрезков, колец, дуг. Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.
ABBYY Finereader является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами. Одним из козырей FineReader является поддержка огромного (для таких программ) количества языков распознавания - более 176 (экзотические, древние языки, популярные языки программирования) Для запуска процесса распознавания достаточно положить лист бумаги в сканер и нажать кнопку Scan & Read на панели инструментов. Все остальные операции (сканирование, разбивка изображения на части, распознавание текста) выполнятся автоматически. Параметры сканированияКачество распознавания зависит от качества сканированного изображения.
Сканирование в режиме «серого» является оптимальным режимом для системы распознавания, так как в нем происходит автоматический подбор яркости. Самым практичным разрешением для сканирования текстов - 300 dpi, для текстов, набранных мелким шрифтом - 400-600 dpi. Рис. Окно программы Cuneiform Завершение распознаванияРаспознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)или сохранить текст в форматы - от документов Microsoft Office до HTML и PDF. При распознавании FineReader сохраняет все параметры форматирования документа с его графическим оформлением.
Вопросы1.Зачем нужны программы распознавания текста? 2. Что такое OCR? 3. Как происходит распознавание текста? 4. Какие программы распознания текста вы знаете? Список использованных источников1. Урок на тему: "Распознавания текста с изображений", Прокопенко А. П., г. Волгоград.
Прокопенко А. П. Соловьев М. С.
|
Авторські права | Privacy Policy |FAQ | Партнери | Контакти | Кейс-уроки
© Автор системы образования 7W и Гипермаркета Знаний - Владимир Спиваковский
При использовании материалов ресурса
ссылка на edufuture.biz обязательна (для интернет ресурсов -
гиперссылка).
edufuture.biz 2008-© Все права защищены.
Сайт edufuture.biz является порталом, в котором не предусмотрены темы политики, наркомании, алкоголизма, курения и других "взрослых" тем.
Ждем Ваши замечания и предложения на email:
По вопросам рекламы и спонсорства пишите на email: