'''Мета:''' Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм
+
==Мета==
+
*Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм
-
<br>'''Хід уроку:'''<br>
+
==Хід уроку==
+
+
===Системи розпізнавання тексту===
-
<br>
+
Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів ('''Optical Character Recognition, OCR''').
-
+
-
'''Системи розпізнавання тексту.'''
+
-
Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (''Optical Character Recognition, OCR'').<br>За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.
+
За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.
Строка 21:
Строка 23:
<br>
<br>
-
<br>
+
[[Image:Ocr1.jpg|400px|OCR-програми]]
-
+
-
[[Image:Ocr1.jpg]]
+
<br>
<br>
-
<br>
+
===Програмне забезпечення для розпізнавання тексту===
-
'''Програмне забезпечення для розпізнавання тексту.'''<br> Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.
+
Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.
-
<u>Сучасні програми з OCR вміють:</u>
+
'''Сучасні програми з OCR вміють:'''
*розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
*розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
Строка 42:
Строка 42:
{{#ev:youtube|Jh9xo_Cb3cM}}
{{#ev:youtube|Jh9xo_Cb3cM}}
-
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.<br><br>У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.<br>Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.
+
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.
+
+
У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.
+
+
Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.
<br>{{#ev:youtube|J5h6bBDIcis}}
<br>{{#ev:youtube|J5h6bBDIcis}}
-
<br>Найпоширеніші системи оптичного розпізнавання тексту - ''ABBYY FineReader і CuneiForm.''
+
<br>Найпоширеніші системи оптичного розпізнавання тексту - '''ABBYY FineReader і CuneiForm.'''
-
<br> [[Image:Аштуыа.jpg]]
+
<br> [[Image:Аштуыа.jpg|400px|ABBYY FineReader]]
<br>
<br>
-
FineReader є ''омнифонтовою'' системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.<br>Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).<br> Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.<br><br>'''Параметри сканування.'''<br>Якість розпізнавання залежить від якості сканованого зображення.
+
FineReader є '''омнифонтовою''' системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.
+
+
Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).
+
+
Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.
+
+
===Параметри сканування===
+
+
Якість розпізнавання залежить від якості сканованого зображення.
<br>
<br>
Строка 62:
Строка 74:
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).
-
Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.<br>Найпрактичнішим розширенням для сканування текстів є ''300 dpi'', для текстів, набраних дрібним шрифтом, - ''400-600 dpi.''
+
Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.
+
+
Найпрактичнішим розширенням для сканування текстів є '''300 dpi''', для текстів, набраних дрібним шрифтом, - '''400-600 dpi.'''
<br>
<br>
-
[[Image:Cureittt.jpg|692x477px|Cureittt.jpg]]
+
[[Image:Cureittt.jpg|400px|Вікно програми Cuneiform]]
''Мал. Вікно програми Cuneiform''
''Мал. Вікно програми Cuneiform''
-
<br>
-
'''Завершення розпізнавання.'''<br>Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга)<br>
+
===Завершення розпізнавання===
-
чи зберегти текст у формати - від документів ''Microsoft Office до HTML і PDF.''<br>
+
Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів '''Microsoft Office до HTML і PDF.'''<br>
-
<br>
+
При розпізнаванні FineReader зберігає усі параметри форматування документу з його графічним оформленням.
<br>
<br>
-
<br>При розпізнаванні FineReader зберігає усі параметри форматування документу з його графічним оформленням.
+
==Самоконтроль==
-
<br>
+
''1.Навіщо потрібні програми розпізнавання тексту? ''
+
+
''2. Що таке OCR?''
-
'''Самоконтроль:'''<br> 1.Навіщо потрібні програми розпізнавання тексту?
+
''3. Як відбувається процес розпізнавання тексту?''
-
2. Що таке OCR?<br> 3. Як відбувається процес розпізнавання тексту?<br>4. Які програми розпізнавання тексту ви знаєте?
+
''4. Які програми розпізнавання тексту ви знаєте? ''
<br>
<br>
-
''Cписок використаної літератури:''<br>1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.<br>2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. <br>3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom<br><br>
+
==Cписок використаної літератури==
+
+
''1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.<br>2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. <br>3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom''<br>
+
+
----
<br> ''Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.''
<br> ''Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.''
Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм
Хід уроку
Системи розпізнавання тексту
Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (Optical Character Recognition, OCR).
За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.
Текст можна буде читати, роздруковувати, але тільки не редагувати. Для перекладу графічного документу в текстовий файл необхідно провести розпізнавання тексту.
Програмне забезпечення для розпізнавання тексту
Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.
Сучасні програми з OCR вміють:
розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
коректно працювати з текстами, які містять слова на декількох мовах
розпізнавати таблиці
розпізнавати нечітко набрані чи написані тексти
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.
У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.
Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.
Найпоширеніші системи оптичного розпізнавання тексту - ABBYY FineReader і CuneiForm.
FineReader є омнифонтовою системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.
Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).
Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.
Параметри сканування
Якість розпізнавання залежить від якості сканованого зображення.
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).
Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.
Найпрактичнішим розширенням для сканування текстів є 300 dpi, для текстів, набраних дрібним шрифтом, - 400-600 dpi.
Мал. Вікно програми Cuneiform
Завершення розпізнавання
Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів Microsoft Office до HTML і PDF.
При розпізнаванні FineReader зберігає усі параметри форматування документу з його графічним оформленням.
Самоконтроль
1.Навіщо потрібні програми розпізнавання тексту?
2. Що таке OCR?
3. Як відбувається процес розпізнавання тексту?
4. Які програми розпізнавання тексту ви знаєте?
Cписок використаної літератури
1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ. 2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. 3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г. 4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6. 5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ. 6. www.free-ocr.сom
Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.
Над уроком працювали
Бегаль Ю. В.
Соловйов М. С.
Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на Образовательном форуме, где на международном уровне собирается образовательный совет свежей мысли и действия. Создав блог, Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. Гильдия Лидеров Образования открывает двери для специалистов высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.