Системы оптического распознавания документов

KNOWLEDGE HYPERMARKET

 		Версия 19:57, 4 июля 2012 (просмотреть исходный код)
User16  (Обсуждение | вклад)
← Предыдущая правка
		Текущая версия на 20:06, 4 июля 2012 (просмотреть исходный код)
User16  (Обсуждение | вклад) 
 
		
Строка 1:
Строка 1:
- <metakeywords>Информатика, класc, урок, на тему, 10 класc, Системы, оптического, распознавания, документов</metakeywords>   + <metakeywords>Информатика, класc, урок, на тему, 10 класc, Системы, оптического, распознавания, документов, библиотеки, базы данных</metakeywords>  
  
 '''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика|Информатика]]&gt;&gt;[[Информатика 10 класс|Информатика 10 класс]]&gt;&gt;Информатика: Системы оптического распознавания документов'''    '''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика|Информатика]]&gt;&gt;[[Информатика 10 класс|Информатика 10 класс]]&gt;&gt;Информатика: Системы оптического распознавания документов'''  
Строка 5:
Строка 5:
 <br>    <br>  
  
- '''Системы оптического распознавания документов''' + '''Системы оптического распознавания документов'''  
-   + 
  
  + <br> 
  
 '''Системы оптического распознавания символов.'''    '''Системы оптического распознавания символов.'''  
  
- При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.   + При создании электронных '''[[Бібліотеки, енциклопедії і словники в Інтернеті. Повні уроки|библиотек]]''' и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.  
  
- Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее&nbsp;выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.   + Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача '''[[Практическая работа. Сканирование «бумажного» и распознавание электронного текстового документа|распознавания]]''' решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.  
  
- При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания&nbsp;символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через&nbsp;набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов,&nbsp;которые составляет третий отрезок с двумя другими. + При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов, которые составляет третий отрезок с двумя другими.  
-   + 
- При распознавании структурным методом в искаженном символьном изображении&nbsp;выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для&nbsp;которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптическог о распознавания символов используют как растровый, так и структурный метод&nbsp;распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают&nbsp;соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.   + 
  
  + При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптического распознавания символов используют как растровый, так и структурный метод распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают. 
  
  + <br> 
  
 '''Системы оптического распознавании форм.'''    '''Системы оптического распознавании форм.'''  
  
- При проведении Единого государственного экзамена, при заполнении налоговых&nbsp;деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами&nbsp;от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных&nbsp;людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.   + При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные '''[[Создание и заполнение баз данных|базы данных]]'''. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.  
-   + 
  
  + <br> 
  
 '''Системы распознавания рукописного текста.'''    '''Системы распознавания рукописного текста.'''  
  
- С появлением первого карманного [http://xvatit.com/it '''компьютера'''] в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера&nbsp;специальной ручкой, в текстовый компьютерный документ.&nbsp; + С появлением первого карманного [http://xvatit.com/it '''компьютера'''] в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.&nbsp;  
  
 <br> '''Контрольные вопросы'''    <br> '''Контрольные вопросы'''  
Строка 35:
Строка 35:
 ''1. B чем состоят различия и технологиях распознавания документов типографского качества и с низким качеством печати? ''<br>    ''1. B чем состоят различия и технологиях распознавания документов типографского качества и с низким качеством печати? ''<br>  
  
  + <br> 
  
-   + <br> 
-   + 
  
 <br> ''Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович''<br> <br>    <br> ''Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович''<br> <br>  

Текущая версия на 20:06, 4 июля 2012
 
Гипермаркет знаний>>Информатика>>Информатика 10 класс>>Информатика: Системы оптического распознавания документов 

 
Системы оптического распознавания документов 

 
Системы оптического распознавания символов. 
При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов. 
Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения. 
При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов, которые составляет третий отрезок с двумя другими. 
При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптического распознавания символов используют как растровый, так и структурный метод распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают. 

 
Системы оптического распознавании форм. 
При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст. 

 
Системы распознавания рукописного текста. 
С появлением первого карманного компьютера в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.  

 Контрольные вопросы 
1. B чем состоят различия и технологиях распознавания документов типографского качества и с низким качеством печати? 
 

 

 

 Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович
 
 

Содержание урока
 конспект урока                       
 опорный каркас  
 презентация урока
 акселеративные методы 
 интерактивные технологии 

Практика
 задачи и упражнения 
 самопроверка
 практикумы, тренинги, кейсы, квесты
 домашние задания
 дискуссионные вопросы
 риторические вопросы от учеников

Иллюстрации
 аудио-, видеоклипы и мультимедиа 
 фотографии, картинки 
 графики, таблицы, схемы
 юмор, анекдоты, приколы, комиксы
 притчи, поговорки, кроссворды, цитаты

Дополнения
 рефераты
 статьи 
 фишки для любознательных 
 шпаргалки 
 учебники основные и дополнительные
 словарь терминов                          
 прочие 

Совершенствование учебников и уроков
 исправление ошибок в учебнике
 обновление фрагмента в учебнике 
 элементы новаторства на уроке 
 замена устаревших знаний новыми 

Только для учителей
 идеальные уроки 
 календарный план на год  
 методические рекомендации  
 программы
 обсуждения


Интегрированные уроки



 
Если у вас есть исправления или предложения к данному уроку, напишите нам. 
Если вы хотите увидеть другие корректировки и пожелания к урокам, смотрите здесь - Образовательный форум.

Источник — «http://edufuture.biz/index.php?title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%BE%D0%BF%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2»
@@ Строка 1: / Строка 1: @@
-<metakeywords>Информатика, класc, урок, на тему, 10 класc, Системы, оптического, распознавания, документов</metakeywords>
+<metakeywords>Информатика, класc, урок, на тему, 10 класc, Системы, оптического, распознавания, документов, библиотеки, базы данных</metakeywords>
 '''[[Гипермаркет знаний - первый в мире!|Гипермаркет знаний]]&gt;&gt;[[Информатика|Информатика]]&gt;&gt;[[Информатика 10 класс|Информатика 10 класс]]&gt;&gt;Информатика: Системы оптического распознавания документов'''
@@ Строка 5: / Строка 5: @@
 <br>
 '''Системы оптического распознавания документов'''
+<br>
 '''Системы оптического распознавания символов.'''
-При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.
+При создании электронных '''[[Бібліотеки, енциклопедії і словники в Інтернеті. Повні уроки|библиотек]]''' и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов. С помощью сканера несложно получить изображение страницы текста в графическом файле. Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.
-Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее&nbsp;выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.
+Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Если исходный документ имеет типографское качество (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача '''[[Практическая работа. Сканирование «бумажного» и распознавание электронного текстового документа|распознавания]]''' решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.
-При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания&nbsp;символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через&nbsp;набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов,&nbsp;которые составляет третий отрезок с двумя другими.
+При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами — в величине углов, которые составляет третий отрезок с двумя другими.
-При распознавании структурным методом в искаженном символьном изображении&nbsp;выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для&nbsp;которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптическог о распознавания символов используют как растровый, так и структурный метод&nbsp;распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают&nbsp;соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
+При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу. Наиболее распространенные системы оптического распознавания символов используют как растровый, так и структурный метод распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретное документа они создают соответствующий набор шаблонов символов), поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.
+<br>
 '''Системы оптического распознавании форм.'''
-При проведении Единого государственного экзамена, при заполнении налоговых&nbsp;деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами&nbsp;от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных&nbsp;людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.
+При проведении Единого государственного экзамена, при заполнении налоговых деклараций и т. д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные '''[[Создание и заполнение баз данных|базы данных]]'''. Сложность состоит в том, что необходимо распознавать символы, написанные от руки, а они довольно сильно различаются у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.
+<br>
 '''Системы распознавания рукописного текста.'''
-С появлением первого карманного [http://xvatit.com/it '''компьютера'''] в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера&nbsp;специальной ручкой, в текстовый компьютерный документ.&nbsp;
+С появлением первого карманного [http://xvatit.com/it '''компьютера'''] в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.&nbsp;
 <br> '''Контрольные вопросы'''
@@ Строка 35: / Строка 35: @@
 ''1. B чем состоят различия и технологиях распознавания документов типографского качества и с низким качеством печати? ''<br>
+<br>
+<br>
 <br> ''Информатика и ИКТ: Учебник для 10 кл. Н.Д. Угринович''<br> <br>

При использовании материалов ресурса
ссылка на edufuture.biz обязательна (для интернет ресурсов - гиперссылка).
edufuture.biz 2008-© Все права защищены.
Сайт edufuture.biz является порталом, в котором не предусмотрены темы политики, наркомании, алкоголизма, курения и других "взрослых" тем.

Разработка - Гипермаркет знаний 2008-

Ждем Ваши замечания и предложения на email:
По вопросам рекламы и спонсорства пишите на email: