KNOWLEDGE HYPERMARKET


Системи оптичного розпізнавання тексту. Повні уроки
 
Строка 3: Строка 3:
<metakeywords>Інформатика, клас, урок, на тему, 11 клас, Системи оптичного розпізнавання тексту. .</metakeywords>  
<metakeywords>Інформатика, клас, урок, на тему, 11 клас, Системи оптичного розпізнавання тексту. .</metakeywords>  
-
==Тема==
+
== Тема ==
-
*'''Системи оптичного розпізнавання тексту.'''<br>
+
-
==Мета==
+
*'''Системи оптичного розпізнавання тексту.'''<br>
-
*Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм
+
-
==Хід уроку==
+
== Мета ==
-
   
+
-
===Системи розпізнавання тексту===
+
-
Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів ('''Optical Character Recognition, OCR''').
+
*Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями [http://xvatit.com/it/fishki-ot-itshki/ OCR-програм]
 +
 
 +
== Хід уроку  ==
 +
 
 +
=== Системи розпізнавання тексту  ===
 +
 
 +
Для створення електронних [[Бібліотеки, енциклопедії і словники в Інтернеті. Повні уроки|бібліотек]], архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів ('''Optical Character Recognition, OCR''').  
За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.  
За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.  
Строка 19: Строка 21:
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.  
Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.  
-
Текст можна буде читати, роздруковувати, але тільки не редагувати.<br>Для перекладу графічного документу в текстовий файл необхідно провести розпізнавання тексту.  
+
Текст можна буде читати, роздруковувати, але тільки не редагувати.<br>Для перекладу графічного документу в текстовий файл необхідно провести [[Практична робота. Сканування «паперового» і розпізнавання електронного текстового документу. Повні уроки|розпізнавання]] тексту.  
<br>  
<br>  
Строка 27: Строка 29:
<br>  
<br>  
-
===Програмне забезпечення для розпізнавання тексту===
+
=== Програмне забезпечення для розпізнавання тексту ===
-
Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.  
+
Перетворення графічного зображення в текст займаються [[Програми браузери. Повні уроки|програми]], які використовують принцип оптичного розпізнавання.  
'''Сучасні програми з OCR вміють:'''  
'''Сучасні програми з OCR вміють:'''  
Строка 42: Строка 44:
{{#ev:youtube|Jh9xo_Cb3cM}}  
{{#ev:youtube|Jh9xo_Cb3cM}}  
-
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.
+
Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад [[Презентация на тему: Работа с таблицами в текстовом редакторе Microsoft Word|Microsoft Word]].  
-
У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.
+
У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.  
Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.  
Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.  
Строка 50: Строка 52:
<br>{{#ev:youtube|J5h6bBDIcis}}  
<br>{{#ev:youtube|J5h6bBDIcis}}  
-
<br>Найпоширеніші системи оптичного розпізнавання тексту - '''ABBYY FineReader і CuneiForm.'''  
+
<br>Найпоширеніші системи оптичного розпізнавання тексту - '''[[Система перевода и распознавания текстов. Полные уроки|ABBYY Finereader]] і CuneiForm.'''  
<br> [[Image:Аштуыа.jpg|400px|ABBYY FineReader]]  
<br> [[Image:Аштуыа.jpg|400px|ABBYY FineReader]]  
Строка 56: Строка 58:
<br>  
<br>  
-
FineReader є '''омнифонтовою''' системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.
+
FineReader є '''омнифонтовою''' системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.  
-
Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).
+
Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).  
-
Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan &amp; Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.
+
Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan &amp; Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.  
-
===Параметри сканування===
+
=== Параметри сканування ===
Якість розпізнавання залежить від якості сканованого зображення.  
Якість розпізнавання залежить від якості сканованого зображення.  
Строка 74: Строка 76:
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).  
Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).  
-
Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.
+
[[Практическая работа. Сканирование «бумажного» и распознавание электронного текстового документа|Сканування]] в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.  
Найпрактичнішим розширенням для сканування текстів є '''300 dpi''', для текстів, набраних дрібним шрифтом, - '''400-600 dpi.'''  
Найпрактичнішим розширенням для сканування текстів є '''300 dpi''', для текстів, набраних дрібним шрифтом, - '''400-600 dpi.'''  
Строка 84: Строка 86:
''Мал. Вікно програми Cuneiform''  
''Мал. Вікно програми Cuneiform''  
 +
<br>
-
===Завершення розпізнавання===
+
=== Завершення розпізнавання ===
-
Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів '''Microsoft Office до HTML і PDF.'''<br>  
+
Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів '''Microsoft Office до [[Вступление в HTML. Полные уроки|HTML]] і PDF.'''<br>  
При розпізнаванні&nbsp; FineReader зберігає усі параметри форматування документу з його графічним оформленням.  
При розпізнаванні&nbsp; FineReader зберігає усі параметри форматування документу з його графічним оформленням.  
Строка 93: Строка 96:
<br>  
<br>  
-
==Самоконтроль==
+
== Самоконтроль ==
-
''1.Навіщо потрібні програми розпізнавання тексту? ''
+
''1.Навіщо потрібні програми розпізнавання тексту? ''  
-
''2. Що таке OCR?''
+
''2. Що таке OCR?''  
-
''3. Як відбувається процес розпізнавання тексту?''
+
''3. Як відбувається процес розпізнавання тексту?''  
-
''4. Які програми розпізнавання тексту ви знаєте? ''
+
''4. Які програми розпізнавання тексту ви знаєте? ''  
<br>  
<br>  
-
==Cписок використаної літератури==
+
== Cписок використаної літератури ==
-
''1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.<br>2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. <br>3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom''<br>
+
''1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.<br>2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г. <br>3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom''<br>  
----
----
Строка 117: Строка 120:
----
----
-
 
+
<br> '''Над уроком працювали'''  
-
'''Над уроком працювали'''  
+
Бегаль Ю. В.  
Бегаль Ю. В.  
Строка 124: Строка 126:
Соловйов М. С.  
Соловйов М. С.  
 +
<br>
----
----

Текущая версия на 11:07, 8 февраля 2013

Гіпермаркет Знань>>Інформатика>>Інформатика 11 клас. Повні уроки>> Інформатика: Системи оптичного розпізнавання тексту.

Содержание

Тема

  • Системи оптичного розпізнавання тексту.

Мета

  • Отримати загальні знання про систему розпізнавання тексту OCR. Ознайомитися з можливостями OCR-програм

Хід уроку

Системи розпізнавання тексту

Для створення електронних бібліотек, архівів шляхом перекладу книг і документів у цифровий варіант використовуються спеціальні системи розпізнавання символів (Optical Character Recognition, OCR).

За допомогою сканера можна отримати зображення сторінки з текстом у графічному форматі.

Але працювати з цим текстом неможливо, тому що будь-яке сканування - це усього лише зображення.

Текст можна буде читати, роздруковувати, але тільки не редагувати.
Для перекладу графічного документу в текстовий файл необхідно провести розпізнавання тексту.


OCR-програми


Програмне забезпечення для розпізнавання тексту

Перетворення графічного зображення в текст займаються програми, які використовують принцип оптичного розпізнавання.

Сучасні програми з OCR вміють:

  • розпізнавати тексти, набрані не лише різними шрифтами, але написані екзотичними, у тому числі і рукописними
  • коректно працювати з текстами, які містять слова на декількох мовах
  • розпізнавати таблиці
  • розпізнавати нечітко набрані чи написані тексти



Звісно, розпізнати текст - це лише півсправи. Після цього треба забезпечити збереження результату у файл текстового формату, наприклад Microsoft Word.

У процесі розпізнавання документів поганої якості (машинописний текст, факс) використовується метод розпізнавання символів за наявністю певних структурних елементів - відрізків, кіл, дуг тощо.

Будь-який символ легко описується за допомогою набору значень, що визначають розташування на папері його окремих частин. Наприклад, обидві букви «Н» і «И» складаються з трьох відрізків. Два з них розташовані паралельно один одному, а третій їх сполучає. А відмінність лише у величині кутів відрізків.



Найпоширеніші системи оптичного розпізнавання тексту - ABBYY Finereader і CuneiForm.


ABBYY FineReader


FineReader є омнифонтовою системою розпізнавання текстів. Це означає, що вона дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами.

Одним із козирів FineReader є підтримка величезної кількості мов розпізнавання - більше 176 (екзотичні, древні мови, популярні мови програмування тощо).

Для запуску процесу розпізнавання досить покласти аркуш паперу в сканер і натиснути кнопку Scan & Read на панелі інструментів. Усі інші операції (сканування, розбиття зображення на частини, розпізнавання тексту) виконаються автоматично.

Параметри сканування

Якість розпізнавання залежить від якості сканованого зображення.




Його можна регулювати установками параметрів сканування (тип зображення, графічний дозвіл, яскравість).

Сканування в режимі «сірого» є оптимальним режимом для системи розпізнавання, оскільки в ньому відбувається автоматичний підбір яскравості.

Найпрактичнішим розширенням для сканування текстів є 300 dpi, для текстів, набраних дрібним шрифтом, - 400-600 dpi.


Вікно програми Cuneiform

Мал. Вікно програми Cuneiform


Завершення розпізнавання

Розпізнавши сторінки, FineReader запропонує сканувати і розпізнавати далі (якщо сканується книга) чи зберегти текст у формати - від документів Microsoft Office до HTML і PDF.

При розпізнаванні  FineReader зберігає усі параметри форматування документу з його графічним оформленням.


Самоконтроль

1.Навіщо потрібні програми розпізнавання тексту?

2. Що таке OCR?

3. Як відбувається процес розпізнавання тексту?

4. Які програми розпізнавання тексту ви знаєте?


Cписок використаної літератури

1. Урок на тему: "Системи розпізнавання тексту", Бегаль Ю. В., м. Київ.
2. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.
3. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006 г.
4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.
5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.
6. www.free-ocr.сom



Скомпоновано та надіслано викладачем Київського національного університету імені Тараса Шевченка Соловйовим М. С.




Над уроком працювали

Бегаль Ю. В.

Соловйов М. С.




Поставить вопрос о современном образовании, выразить идею или решить назревшую проблему Вы можете на Образовательном форуме, где на международном уровне собирается образовательный совет свежей мысли и действия. Создав блог, Вы не только повысите свой статус, как компетентного преподавателя, но и сделаете весомый вклад в развитие школы будущего. Гильдия Лидеров Образования открывает двери для специалистов  высшего ранга и приглашает к сотрудничеству в направлении создания лучших в мире школ.

Предмети > Інформатика > Інформатика 11 клас