Гіпермаркет Знань>>Інформатика>>Інформатика 11 клас. Повні уроки>> Інформатика: Системи оптичного розпізнавання тексту.
Тема
Мета
Хід урокуСистеми розпізнавання текстуДля створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (Optical Character Recognition, OCR). За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі. Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення. Текст можна буде читати, роздруковувати, але тільки не редагувати.
Програмне забезпечення для розпізнавання текстуПеретворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання. Сучасні програми з OCR вміють:
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word. У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо. Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.
FineReader є омнифонтовою системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами. Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо). Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично. Параметри скануванняЯкість розпізнавання залежить від якості сканованого зображення.
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість). Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості. Найпрактичнішим розширенням для сканування текстів є 300 dpi, для текстів, набраних дрібним шрифтом, - 400-600 dpi.
Мал. Вікно програми Cuneiform
Завершення розпізнаванняРозпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів Microsoft Office до HTML і PDF. При розпізнаванні FineReader зберігає усі параметри форматування документу з його графічним оформленням.
Самоконтроль1.Навіщо потрібні програми розпізнавання тексту? 2. Що таке OCR? 3. Як відбувається процес розпізнавання тексту? 4. Які програми розпізнавання тексту ви знаєте?
Cписок використаної літератури1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.
Бегаль Ю. В. Соловйов М. С.
Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на Образовательном форуме, где на международном уровне собирается образовательный совет свежей мысли и действия. Создав блог, Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. Гильдия Лидеров Образования открывает двери для специалистов высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ. |
Авторські права | Privacy Policy |FAQ | Партнери | Контакти | Кейс-уроки
© Автор системы образования 7W и Гипермаркета Знаний - Владимир Спиваковский
При использовании материалов ресурса
ссылка на edufuture.biz обязательна (для интернет ресурсов -
гиперссылка).
edufuture.biz 2008-© Все права защищены.
Сайт edufuture.biz является порталом, в котором не предусмотрены темы политики, наркомании, алкоголизма, курения и других "взрослых" тем.
Ждем Ваши замечания и предложения на email:
По вопросам рекламы и спонсорства пишите на email: