KNOWLEDGE HYPERMARKET


Системы оптического распознавания документов
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
'''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика|Информатика]]&gt;&gt;[[Информатика 10 класс|Информатика 10 класс]]&gt;&gt;Информатика: Системы оптического распознавания документов''' <metakeywords>Системы, оптического, распознавания, документов</metakeywords>  
+
<metakeywords>Информатика, класc, урок, на тему, 10 класc, Системы, оптического, распознавания, документов, библиотеки, базы данных</metakeywords>  
-
'''Системы оптического распознавания символов.''' При создании электронных библиотек и архивов путем перевода книг и документов&nbsp;в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости&nbsp;отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате&nbsp;текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в&nbsp;последовательности текстовых символов.
+
'''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика|Информатика]]&gt;&gt;[[Информатика 10 класс|Информатика 10 класс]]&gt;&gt;Информатика: Системы оптического распознавания документов'''
-
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее&nbsp;выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или&nbsp;исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы&nbsp;разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся&nbsp;в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.
+
<br>
-
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания&nbsp;символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через&nbsp;набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов,&nbsp;которые составляет третий отрезок с двумя другими.
+
'''Системы оптического распознавания документов'''
-
При распознавании структурным методом в искаженном символьном изображении&nbsp;выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для&nbsp;которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптическог о распознавания символов используют как растровый, так и структурный метод&nbsp;распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают&nbsp;соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
+
<br>
-
'''Системы оптического распознавании форм.''' При проведении Единого государственного экзамена, при заполнении налоговых&nbsp;деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами&nbsp;от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных&nbsp;людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст. '''Системы распознавания рукописного текста.''' С появлением первого карманного компьютера в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера&nbsp;специальной ручкой, в текстовый компьютерный документ.&nbsp;<br>
+
'''Системы оптического распознавания символов.'''  
-
'''Контрольные вопросы'''  
+
При создании электронных '''[[Бібліотеки, енциклопедії і словники в Інтернеті. Повні уроки|библиотек]]''' и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.
-
1. B чем состоят различия п технологиях распознавания документов типографского качества и с низким качеством печати? <br>  
+
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача '''[[Практическая работа. Сканирование «бумажного» и распознавание электронного текстового документа|распознавания]]''' решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.
 +
 
 +
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов, которые составляет третий отрезок с двумя другими.
 +
 
 +
При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптического распознавания символов используют как растровый, так и структурный метод распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
 +
 
 +
<br>
 +
 
 +
'''Системы оптического распознавании форм.'''
 +
 
 +
При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные '''[[Создание и заполнение баз данных|базы данных]]'''. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.
 +
 
 +
<br>
 +
 
 +
'''Системы распознавания рукописного текста.'''
 +
 
 +
С появлением первого карманного [http://xvatit.com/it '''компьютера'''] в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.&nbsp;
 +
 
 +
<br> '''Контрольные вопросы'''
 +
 
 +
''1. B чем состоят различия и технологиях распознавания документов типографского качества и с низким качеством печати? ''<br>
 +
 
 +
<br>
 +
 
 +
<br>  
<br> ''Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович''<br> <br>  
<br> ''Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович''<br> <br>  
  '''<u>Содержание урока</u>'''
  '''<u>Содержание урока</u>'''
-
  '''[[Image:1236084776 kr.jpg|10x10px]] конспект урока                      '''
+
  '''[[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] конспект урока                      '''
-
  [[Image:1236084776 kr.jpg|10x10px]] опорный каркас   
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] опорный каркас   
-
  [[Image:1236084776 kr.jpg|10x10px]] презентация урока
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] презентация урока
-
  [[Image:1236084776 kr.jpg|10x10px]] акселеративные методы  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] акселеративные методы  
-
  [[Image:1236084776 kr.jpg|10x10px]] интерактивные технологии  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] интерактивные технологии  
   
   
  '''<u>Практика</u>'''
  '''<u>Практика</u>'''
-
  [[Image:1236084776 kr.jpg|10x10px]] задачи и упражнения  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] задачи и упражнения  
-
  [[Image:1236084776 kr.jpg|10x10px]] самопроверка
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] самопроверка
-
  [[Image:1236084776 kr.jpg|10x10px]] практикумы, тренинги, кейсы, квесты
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] практикумы, тренинги, кейсы, квесты
-
  [[Image:1236084776 kr.jpg|10x10px]] домашние задания
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] домашние задания
-
  [[Image:1236084776 kr.jpg|10x10px]] дискуссионные вопросы
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] дискуссионные вопросы
-
  [[Image:1236084776 kr.jpg|10x10px]] риторические вопросы от учеников
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] риторические вопросы от учеников
-
 
+
  '''<u>Иллюстрации</u>'''
  '''<u>Иллюстрации</u>'''
-
  '''[[Image:1236084776 kr.jpg|10x10px]] аудио-, видеоклипы и мультимедиа '''
+
  '''[[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] аудио-, видеоклипы и мультимедиа '''
-
  [[Image:1236084776 kr.jpg|10x10px]] фотографии, картинки  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] фотографии, картинки  
-
  [[Image:1236084776 kr.jpg|10x10px]] графики, таблицы, схемы
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] графики, таблицы, схемы
-
  [[Image:1236084776 kr.jpg|10x10px]] юмор, анекдоты, приколы, комиксы
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] юмор, анекдоты, приколы, комиксы
-
  [[Image:1236084776 kr.jpg|10x10px]] притчи, поговорки, кроссворды, цитаты
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] притчи, поговорки, кроссворды, цитаты
   
   
  '''<u>Дополнения</u>'''
  '''<u>Дополнения</u>'''
-
  '''[[Image:1236084776 kr.jpg|10x10px]] рефераты'''
+
  '''[[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] рефераты'''
-
  [[Image:1236084776 kr.jpg|10x10px]] статьи  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] статьи  
-
  [[Image:1236084776 kr.jpg|10x10px]] фишки для любознательных  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] фишки для любознательных  
-
  [[Image:1236084776 kr.jpg|10x10px]] шпаргалки  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] шпаргалки  
-
  [[Image:1236084776 kr.jpg|10x10px]] учебники основные и дополнительные
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] учебники основные и дополнительные
-
  [[Image:1236084776 kr.jpg|10x10px]] словарь терминов                           
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] словарь терминов                           
-
  [[Image:1236084776 kr.jpg|10x10px]] прочие  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] прочие  
   
   
  <u>Совершенствование учебников и уроков
  <u>Совершенствование учебников и уроков
-
  </u>'''[[Image:1236084776 kr.jpg|10x10px]] исправление ошибок в учебнике'''
+
  </u>'''[[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] исправление ошибок в учебнике'''
-
  [[Image:1236084776 kr.jpg|10x10px]] обновление фрагмента в учебнике  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] обновление фрагмента в учебнике  
-
  [[Image:1236084776 kr.jpg|10x10px]] элементы новаторства на уроке  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] элементы новаторства на уроке  
-
  [[Image:1236084776 kr.jpg|10x10px]] замена устаревших знаний новыми  
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] замена устаревших знаний новыми  
-
 
+
  '''<u>Только для учителей</u>'''
  '''<u>Только для учителей</u>'''
-
  '''[[Image:1236084776 kr.jpg|10x10px]] идеальные уроки '''
+
  '''[[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] идеальные уроки '''
-
  [[Image:1236084776 kr.jpg|10x10px]] календарный план на год   
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] календарный план на год   
-
  [[Image:1236084776 kr.jpg|10x10px]] методические рекомендации   
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] методические рекомендации   
-
  [[Image:1236084776 kr.jpg|10x10px]] программы
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] программы
-
  [[Image:1236084776 kr.jpg|10x10px]] обсуждения
+
  [[Image:1236084776 kr.jpg|10x10px|1236084776 kr.jpg]] обсуждения
   
   
   
   

Текущая версия на 20:06, 4 июля 2012

Гипермаркет знаний>>Информатика>>Информатика 10 класс>>Информатика: Системы оптического распознавания документов


Системы оптического распознавания документов


Системы оптического распознавания символов.

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.

При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов, которые составляет третий отрезок с двумя другими.

При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптического распознавания символов используют как растровый, так и структурный метод распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.


Системы оптического распознавании форм.

При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.


Системы распознавания рукописного текста.

С появлением первого карманного компьютера в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ. 


Контрольные вопросы

1. B чем состоят различия и технологиях распознавания документов типографского качества и с низким качеством печати?




Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович

Содержание урока
1236084776 kr.jpg конспект урока                       
1236084776 kr.jpg опорный каркас  
1236084776 kr.jpg презентация урока
1236084776 kr.jpg акселеративные методы 
1236084776 kr.jpg интерактивные технологии 

Практика
1236084776 kr.jpg задачи и упражнения 
1236084776 kr.jpg самопроверка
1236084776 kr.jpg практикумы, тренинги, кейсы, квесты
1236084776 kr.jpg домашние задания
1236084776 kr.jpg дискуссионные вопросы
1236084776 kr.jpg риторические вопросы от учеников

Иллюстрации
1236084776 kr.jpg аудио-, видеоклипы и мультимедиа 
1236084776 kr.jpg фотографии, картинки 
1236084776 kr.jpg графики, таблицы, схемы
1236084776 kr.jpg юмор, анекдоты, приколы, комиксы
1236084776 kr.jpg притчи, поговорки, кроссворды, цитаты

Дополнения
1236084776 kr.jpg рефераты
1236084776 kr.jpg статьи 
1236084776 kr.jpg фишки для любознательных 
1236084776 kr.jpg шпаргалки 
1236084776 kr.jpg учебники основные и дополнительные
1236084776 kr.jpg словарь терминов                          
1236084776 kr.jpg прочие 

Совершенствование учебников и уроков
1236084776 kr.jpg исправление ошибок в учебнике
1236084776 kr.jpg обновление фрагмента в учебнике 
1236084776 kr.jpg элементы новаторства на уроке 
1236084776 kr.jpg замена устаревших знаний новыми 

Только для учителей
1236084776 kr.jpg идеальные уроки 
1236084776 kr.jpg календарный план на год  
1236084776 kr.jpg методические рекомендации  
1236084776 kr.jpg программы
1236084776 kr.jpg обсуждения


Интегрированные уроки


Если у вас есть исправления или предложения к данному уроку, напишите нам.

Если вы хотите увидеть другие корректировки и пожелания к урокам, смотрите здесь - Образовательный форум.