KNOWLEDGE HYPERMARKET


Система перевода и распознавания текстов. Полные уроки
Строка 1: Строка 1:
-
'''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика]]&gt;&gt;[[Информатика 8 класс. Полные уроки]]&gt;&gt;Информатика: Работа с текстовым редактором.''' <br><metakeywords>Информатика, класс, урок, на тему, 8 класс, Система перевода и распознавания текстов.</metakeywords><br>'''17. Система перевода и распознавания текстов.'''<br>'''Цель:&nbsp; '''получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы<br><br>'''Системы распознавания текста'''.<br>Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов.<br>С помощью сканера можно получить изображение страницы с текстом в графическом формате.  
+
'''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика]]&gt;&gt;[[Информатика 8 класс. Полные уроки]]&gt;&gt;Информатика: Работа с текстовым редактором.''' <br><metakeywords>Информатика, класс, урок, на тему, 8 класс, Система перевода и распознавания текстов.</metakeywords><br>'''Тема:&nbsp; Система перевода и распознавания текстов.'''<br>'''Цель:&nbsp; '''получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы<br><br>'''Системы распознавания текста'''.<br>Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов.<br>С помощью сканера можно получить изображение страницы с текстом в графическом формате.  
{{#ev:youtube|7ZaLaI9PI80}}  
{{#ev:youtube|7ZaLaI9PI80}}  
Строка 30: Строка 30:
[[Image:Cureittt.jpg|692x477px|Cureittt.jpg]]  
[[Image:Cureittt.jpg|692x477px|Cureittt.jpg]]  
-
'''Завершение распознавания.'''<br>Распознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)<br>
+
'''Завершение распознавания.'''<br>Распознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)<br>  
-
или сохранить текст в форматы - от документов Microsoft Office до HTML и PDF.<br>
+
или сохранить текст в форматы - от документов Microsoft Office до HTML и PDF.<br>  
-
[[Image:Пробрро.gif]] <br>
+
[[Image:Пробрро.gif]] <br>  
<br>При распознавании&nbsp; FineReader сохраняет все параметры форматирования документа с его графическим оформлением.  
<br>При распознавании&nbsp; FineReader сохраняет все параметры форматирования документа с его графическим оформлением.  
-
<br>
+
<br>  
----
----
-
 
+
<br> '''Системы перевода.'''  
-
'''Системы перевода.'''
+
Иногда он будет полезен и другим членам семьи при переводе электронного письма от знакомого из-за рубежа, или каких-либо инструкций к технике. <br>Итак, для домашнего применения можно выделить следующие системы: Magic Gooddy, "Сократ Персональный" и Pragma. Первая была специально разработана для перевода электронных текстов, вторая стала популярна благодаря своей компактности и простоте в использовании, последняя владеет широкими возможностями и вариантами перевода. [[Image:Sxemma.gif]]  
Иногда он будет полезен и другим членам семьи при переводе электронного письма от знакомого из-за рубежа, или каких-либо инструкций к технике. <br>Итак, для домашнего применения можно выделить следующие системы: Magic Gooddy, "Сократ Персональный" и Pragma. Первая была специально разработана для перевода электронных текстов, вторая стала популярна благодаря своей компактности и простоте в использовании, последняя владеет широкими возможностями и вариантами перевода. [[Image:Sxemma.gif]]  
Строка 54: Строка 53:
*&nbsp;точность
*&nbsp;точность
-
Оперативность заключается в возможности постоянного обновления словарного запаса и тематических разделов.<br>Гибкость рассчитана на конкретную предметную область.<br>Скорость - возможность автоввода и обработки текстовой информации с бумаги. Одна такая система (OCR-System) ежедневно заменяет больше десяти опытных машинисток. <br>Точность&nbsp; заключается грамотности и адекватной передачи смысла переводимого текста на язык перевода.
+
Оперативность заключается в возможности постоянного обновления словарного запаса и тематических разделов.<br>Гибкость рассчитана на конкретную предметную область.<br>Скорость - возможность автоввода и обработки текстовой информации с бумаги. Одна такая система (OCR-System) ежедневно заменяет больше десяти опытных машинисток. <br>Точность&nbsp; заключается грамотности и адекватной передачи смысла переводимого текста на язык перевода.  
[[Image:Dsfsdg.gif]]  
[[Image:Dsfsdg.gif]]  
-
<br>'''Улучшение качества перевода'''.<br><u>Существуют способы улучшения результатов машинного перевода:</u><br>1.&nbsp;&nbsp;&nbsp; Перед началом перевода, нужно определить тип текста, то есть из какой области жизнедеятельности человека он представлен (экономика, спорт, наука и т.д.). Ведь каждая сфера имеет свои нюансы и термины. <br>2. Часто причиной неправильного перевода являются опечатки переводимом тексте. Это касается и распознанных текстов. Слова с ошибками помечаются переводчиками как незнакомые, потому что в таком виде их нет в словарях. Хуже, если есть ошибки в пунктуации - одна неправильно поставленная запятая способна исказить перевод всего предложения. <br>5. Работайте с фрагментами текста. Никогда не переводите весь текст сразу. В нем всегда найдутся слова, отсутствующих в словаре и такие, которые система переводит неправильно. <br><br>'''Вопросы:'''<br>1.&nbsp;&nbsp;&nbsp; Зачем нужны программы распознавания текста?<br>2.&nbsp;&nbsp;&nbsp; Как происходит распознавание текста?<br>3.&nbsp;&nbsp;&nbsp; Какие программы распознания текста вы знаете?<br>4.&nbsp;&nbsp;&nbsp; Требования к параметрам машинных переводчиков.<br>5.&nbsp;&nbsp;&nbsp; Методы улучшения качества перевода текста<br><br>''Список использованных источников:''<br>1. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М.: Наука, 2005. - Вып. 33. С. 5-68<br>2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006. – 80 с.<br>3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom<br>7. img2txt.ru<br>8. www.translate.ru
+
<br>'''Улучшение качества перевода'''.<br><u>Существуют способы улучшения результатов машинного перевода:</u><br>1.&nbsp;&nbsp;&nbsp; Перед началом перевода, нужно определить тип текста, то есть из какой области жизнедеятельности человека он представлен (экономика, спорт, наука и т.д.). Ведь каждая сфера имеет свои нюансы и термины. <br>2. Часто причиной неправильного перевода являются опечатки переводимом тексте. Это касается и распознанных текстов. Слова с ошибками помечаются переводчиками как незнакомые, потому что в таком виде их нет в словарях. Хуже, если есть ошибки в пунктуации - одна неправильно поставленная запятая способна исказить перевод всего предложения. <br>5. Работайте с фрагментами текста. Никогда не переводите весь текст сразу. В нем всегда найдутся слова, отсутствующих в словаре и такие, которые система переводит неправильно. <br><br>'''Вопросы:'''<br>1.&nbsp;&nbsp;&nbsp; Зачем нужны программы распознавания текста?<br>2.&nbsp;&nbsp;&nbsp; Как происходит распознавание текста?<br>3.&nbsp;&nbsp;&nbsp; Какие программы распознания текста вы знаете?<br>4.&nbsp;&nbsp;&nbsp; Требования к параметрам машинных переводчиков.<br>5.&nbsp;&nbsp;&nbsp; Методы улучшения качества перевода текста<br>'''<br>Список использованных источников:'''<br>1. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М.: Наука, 2005. - Вып. 33. С. 5-68<br>2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006. – 80 с.<br>3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.<br>4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.<br>5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.<br>6. www.free-ocr.сom<br>7. img2txt.ru<br>8. www.translate.ru  
<br><br>''Отредактировано и выслано Соловьевым М. С.''<br><br>Если у вас есть исправления или предложения к данному уроку, [http://xvatit.com/index.php?do=feedback напишите нам].<br>Если вы хотите увидеть другие корректировки и пожелания к урокам, смотрите здесь - [http://xvatit.com/forum/ Образовательный форум].<br><br>Информатика_8_класс
<br><br>''Отредактировано и выслано Соловьевым М. С.''<br><br>Если у вас есть исправления или предложения к данному уроку, [http://xvatit.com/index.php?do=feedback напишите нам].<br>Если вы хотите увидеть другие корректировки и пожелания к урокам, смотрите здесь - [http://xvatit.com/forum/ Образовательный форум].<br><br>Информатика_8_класс

Версия 13:29, 27 октября 2010

Гипермаркет знаний>>Информатика>>Информатика 8 класс. Полные уроки>>Информатика: Работа с текстовым редактором.

Тема:  Система перевода и распознавания текстов.
Цель:  получить представление об OCR – программах распознавания текста, познакомиться с возможностями данных программы

Системы распознавания текста.
Для создания электронных библиотек и архивов путем перевода книг и документов в цифровой вариант и при необходимости редактирования полученного по факсу документа используются специальные системы распознавания символов.
С помощью сканера можно получить изображение страницы с текстом в графическом формате.


Но работать с этим текстом невозможно, потому что любое сканирование – это всего лишь изображение

Текст можно будет читать, распечатывать, но только не редактировать.
Для перевода графического документа в текстовый файл необходимо провести распознавание текста.
Преобразование графического изображения в текст занимаются программы оптического распознавания текста (Optical Character Recognition, OCR).

Современные OCR умеют:

  • распознавать тексты, набранные не только разными шрифтами, но и самыми экзотическими, в том числе и рукописных
  • корректно работать с текстами, содержащими слова на нескольких языках
  • распознавать таблицы
  • распознавать нечетко набранные или написанные тексты


Само собой, распознать текст - это еще полдела. После этого нужно обеспечить сохранение результата в файле текстового формата, например Microsoft Word.

В процессе распознавания документов в плохом качестве (машинописный текст, факс) используется метод распознавания символов по наличию определенных структурных элементов - отрезков, колец, дуг.
Любой символ легко описывается с помощью набора значений, определяющих расположение его частей. Например, обе буквы «Н» и буква «И» состоят из трех отрезков. Два из них расположены параллельно друг другу, а третий их соединяет. А различие – лишь в величине углов отрезков.


Самые распространенные системы оптического распознавания текста - ABBYY FineReader и CuneiForm.


Аштуыа.jpg


FineReader является омнифонтовой системой распознавания текстов. Это значит, что она позволяет распознавать тексты, набранные практически любыми шрифтами.
Одним из козырей FineReader является поддержка огромного (для таких программ) количества языков распознавания - более 176 (экзотические, древние языки, популярные языки программирования)
Для запуска процесса распознавания достаточно положить лист бумаги в сканер и нажать кнопку Scan & Read на панели инструментов. Все остальные операции (сканирование, разбивка изображения на части, распознавание текста) выполнятся автоматически.

Параметры сканирования.
Качество распознавания зависит от качества сканированного изображения.

Его можно регулировать установками параметров сканирования (тип изображения, разрешения, яркости, и т. д.).

Сканирование в режиме «серого» является оптимальным режимом для системы распознавания, так как в нем происходит автоматический подбор яркости.
Самым практичным разрешением для сканирования текстов - 300 dpi, для текстов, набранных мелким шрифтом - 400-600 dpi.

Окно

Cureittt.jpg

Завершение распознавания.
Распознав страницы, FineReader предложит сканировать и распознавать дальше (если сканируется книга)

или сохранить текст в форматы - от документов Microsoft Office до HTML и PDF.

Файл:Пробрро.gif


При распознавании  FineReader сохраняет все параметры форматирования документа с его графическим оформлением.




Системы перевода.

Иногда он будет полезен и другим членам семьи при переводе электронного письма от знакомого из-за рубежа, или каких-либо инструкций к технике.
Итак, для домашнего применения можно выделить следующие системы: Magic Gooddy, "Сократ Персональный" и Pragma. Первая была специально разработана для перевода электронных текстов, вторая стала популярна благодаря своей компактности и простоте в использовании, последняя владеет широкими возможностями и вариантами перевода. Файл:Sxemma.gif


Параметры машинных переводчиков должны удовлетворять четырем основным требованиям:

  • оперативность
  • гибкость
  • скорость
  •  точность

Оперативность заключается в возможности постоянного обновления словарного запаса и тематических разделов.
Гибкость рассчитана на конкретную предметную область.
Скорость - возможность автоввода и обработки текстовой информации с бумаги. Одна такая система (OCR-System) ежедневно заменяет больше десяти опытных машинисток.
Точность  заключается грамотности и адекватной передачи смысла переводимого текста на язык перевода.

Файл:Dsfsdg.gif


Улучшение качества перевода.
Существуют способы улучшения результатов машинного перевода:
1.    Перед началом перевода, нужно определить тип текста, то есть из какой области жизнедеятельности человека он представлен (экономика, спорт, наука и т.д.). Ведь каждая сфера имеет свои нюансы и термины.
2. Часто причиной неправильного перевода являются опечатки переводимом тексте. Это касается и распознанных текстов. Слова с ошибками помечаются переводчиками как незнакомые, потому что в таком виде их нет в словарях. Хуже, если есть ошибки в пунктуации - одна неправильно поставленная запятая способна исказить перевод всего предложения.
5. Работайте с фрагментами текста. Никогда не переводите весь текст сразу. В нем всегда найдутся слова, отсутствующих в словаре и такие, которые система переводит неправильно.

Вопросы:
1.    Зачем нужны программы распознавания текста?
2.    Как происходит распознавание текста?
3.    Какие программы распознания текста вы знаете?
4.    Требования к параметрам машинных переводчиков.
5.    Методы улучшения качества перевода текста

Список использованных источников:

1. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М.: Наука, 2005. - Вып. 33. С. 5-68
2. Растригин Л. А., Эренштейн Р. Х. Метод коллективного распознавания. 79 с. ил. 20 см., М. Энергоиздат, 2006. – 80 с.
3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007 г.
4. А. Васильев. Компьютер на месте переводчика // Подводная лодка. – № 6.
5. Система перевода текста PROMT Internet. Руководство пользователя. — С.-Петербург, фирма "ПРОМТ.
6. www.free-ocr.сom
7. img2txt.ru
8. www.translate.ru



Отредактировано и выслано Соловьевым М. С.

Если у вас есть исправления или предложения к данному уроку, напишите нам.
Если вы хотите увидеть другие корректировки и пожелания к урокам, смотрите здесь - Образовательный форум.

Информатика_8_класс