Мәтінді оптикалық тану
ҚАЗАҚ ТІЛІНІҢ ЛАТЫН ӘЛІПБИІНДЕГІ
ГРАФИКАЛЫҚ МӘТІНДЕРІН ТАНУ
тақырыбына жазылған
ДИПЛОМДЫҚ ЖҰМЫС
Мамандығы 5В070300 - Ақпараттық жүйелер
Түйіндеме
Дипломдық жұмыс 55 беттен, 25 суреттен, 17 пайдаланылған әдебиеттер тізімінен тұрады.
Кілттік сөздер: оптикалық тану, сканерлеу, мәтіндерді тану, тану аймағы, интернет, жасанды интеллект, автоматтандырылған жүйе, тестілеу жүйелері, бағалау құралдары, графикалық мәтін.
Зерттеу нысаны: графикалық мәтіндерді тану.
Жұмыстың мақсаты: қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін танитын бағдарламалық қосымша құру.
Зерттеу әдістері: Латын әліпбиінде берілген мәтіндерді тану үшін символдарды оптикалық тану жүйелерін қолдану. Х-code бағдарламалық ортасында Swift тілін қолдану арқылы мәтіндерді кириллицаға аудару.
Қолдану аймағы: автоматты жүйелер, бағдарламалау сабақтары, нейрондық желілер, интеллектуалды жүйелер.
Жұмыстың маңыздылығы: жасалған жүйе бойынша кез-келген графикалық мәтіндерді танып, жұмыс жасауды жеңілдету.
Нәтижелері:
графикалық тану бағдарламалары толығымен зерттелді;
болашақта жасалынған жұмысты латын және киррилица әліпбиінде графикалық тануға болады;
қазіргі таңда дамып келе жатқан Swift программалық тілінің функциялары толығымен қарастырылып, қосымша жасалды.
РЕФЕРАТ
Дипломная работа состоит из 55 страниц, 25 рисунков, 17 источников.
Ключевые слова: оптическое распознавание, сканирование, распознавание текстов, область распознавания, интернет, искусственный интеллект, автоматизированная система, тестирующие системы, средства оценки, графический текст.
Объект исследования: распознавание графических текстов.
Цель работы: создание программного приложения для распознавания графических текстов казахского языка на латинском алфавите.
Методы исследования: Использование систем оптического распознавания символов для распознавания текстов, заданных на латинском алфавите. Перевод текстов на кириллицу с использованием языка Swift в программной среде Х-code.
Область применения: автоматические системы, уроки программирования, нейронные сети, интеллектуальные системы.
Значимость работы: облегчение работы по распознанию любых графических текстов по разработанной системе.
Результаты:
:: полностью изучены программы графического распознавания;
:: в будущем будет проводиться графическое опознавание, в каком алфавите находится казахский язык;
:: в настоящее время полностью рассматриваются функции развивающегося программного языка Swift и разработаны приложения.
ABSTRACT
Diploma work consists of 55 pages, 25 pictures, 17 sources.
Keywords: optical recognition, scanning, text recognition, recognition area, Internet, artificial intelligence, automated system, testing systems, evaluation tools, graphic text.
Object of research: recognition of graphic texts.
Purpose of a work: creation of software application for recognition of graphic texts of the Kazakh language in the Latin alphabet.
Field of application: The use of optical character recognition systems for recognition of texts specified in the Latin alphabet. Translation of texts into Cyrillic using Swift language in X-code software environment.
Methods of research: automatic systems, programming lessons, neural networks, intelligent systems.
Importance of work: simplification of work on recognition of any graphic texts on the developed system.
Results:
:: fully studied by optical character recognition software;
:: in the future, there will be a graphical identification of the alphabet in which the Kazakh language is;
:: the functions of the evolving Swift programming language are now fully explored and applications developed.
Анықтамалаp
OCR (Optical Character Recognition) - мәтіндік редакторда көрсету үшін қолданылатын кодтар тізбегіне символдың кескіндерінің бірізділігін аудару.
Abbyy FineReader - бұл осы топ ішіндегі ең сапалы және көпфункционалды софт.
OCR Cunei Form - ең функционалдық және ыңғайлы бағдарламалардың бірі.
Readiris Pro - тестті тану және редакциялау бойынша әртүрлі және тұрақты жұмысты қамтамасыз ететін тағы бір ақылы софт.
OCR Freemore - тегін таратылады және тегін софт үшін өте қолайлы, базалық функционалы бар. Жұмыс сапасы өте жоғары
Abbyy Screenshot Reader - топтағы алғашқы софт сияқты әзірлеушіден арнайы бағдарлама.
Google Text Recognition API - суреттер мен бейне ағындардағы мәтінді анықтау және ондағы мәтінді тану процесі.
Anyline көпплатформалы SDK ұсынады, ол әзірлеушілерге OCR функциясын қолданбаға оңай біріктіруге мүмкіндік береді. Бұл OCR кітапхана бізді тану параметрлерін баптаудың көптеген мүмкіндіктерімен және нақты қолданбалы міндеттерді шешу үшін берілетін модельдермен тартты. Айта кету керек, кітапхана ақылы және коммерциялық пайдалануға арналған.
Tesseract - түрлі операциялық жүйелер үшін ашық бастапқы коды бар OCR кітапхана.
Нopмативтi сiлтeмeлep
Диплoмдық жұмыcта кeлeci cтандаpт аттаpы пайдаланылады:
КCТ жoбалаy құжаттамаcы үшiн 2.105-95 бipыңғай жүйeci. Мәтiндiк құжаттаp үшiн жалпы талаптаp;
КCТ 7.1-84 ақпаpат, кiтапxана жәнe баcпа cтандаpттаpы. Құжаттың библиoгpафикалық cипаттамаcы. Жалпы epeжeлep мeн нopмалаp;
КCТ 7.9-95 ақпаpат, кiтапxана жәнe баcпа cтандаpттаpы.
Жиынтық жәнe дepeкciз. Жалпы талаптаp;
КCТ 8.417-81 бipлiк мeмлeкeттiк жүйeciн қамтамаcыз eтy мақcатында. Дeнe бipлiк;
КCТ 15.011-81 дамытy жәнe жаңа өнiмдepдi eнгiзy. Патeнттiк зepттeyлep тәpтiбi
КCТ 9327-60 қағаз жәнe қағаз өнiмдepi. Тұтынy фopматтаpы
Мазмұны
Кіріспе 5
Ақпараттық технологиялар саласындағы мәтінді тану теориясына жалпылама шолу 8
1.1. Мәтінді тану теориясының тенденциясы 8
1.2. Мәтінді тану теориясына ғылыми шолу және оның даму тарихы 12
Символдарды тану әдістері 15
2.1. Символдарды оптикалық тану технологиясы 16
2.2. Персептрон әдісі арқылы мәтінді тану 20
2.3. Символдарды тану үшін Хэммминг метрика әдісі 22
2.4. Нейрондық желі арқылы символдарды тану 26
2.5. Виола-Джонс әдісі ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... .28
Мәтінді тану бағдарламалары 30
3.1. Графикалық мәтінді тануға арналған бағдарламалар 30
3.2. Символдарды тану жүйелерінің мүмкіндіктерін салыстырмалы талдау. 38
Қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін тану бағдарламасын жүзеге асыру 42
4.1. Графикалық мәтінді тану комплексін құру жолы 42
4.2. Бағдарламаның жұмыс жасау принципі 49
Қорытынды 53
Пайдаланылған әдебиеттер 55
Кіріспе
Соңғы жылдары бейнелерді тану күнделікті өмірде көбірек қолданылады. Сөйлеуді және қолжазба мәтінін тану адамның компьютермен өзара іс-қимылын едәуір жеңілдетеді, баспа мәтінін тану құжаттарды электрондық нысанға аудару үшін пайдаланылады.
Толыққанды суреттерді тану ерекше атап өту керек. Осы бөлімнің қолда-нылу саласы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау көбінесе жарамсыз деп танылған тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда да қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аймағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Дегенмен, компьютерлердің көмегімен суреттерді интеллектуалды талдау мүмкіндігі жақсы қалады. Құжаттар мен мәтіндердегі әріптер мен сандарды танудағы, сондай-ақ арнайы түрдегі бейнелерді талдаудағы табыстарды ғана сеніммен атап өтуге болады. Зерттеу бір онжылдықта емес, әмбебап әдістерге ие болғанша, текстураларды тану сияқты сала.
Тану әдістерін іске асыру криминалистикада, медицинада, әскери істе пайдалануға арналған автоматтандырылған жүйелерде қажет.Толыққанды суреттерді тану ерекше атап өту керек. Осы бөлімнің қолданылу саласы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау көбінесе жарамсыз деп танылған тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда да қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аймағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Дегенмен, компьютерлердің көмегімен суреттерді интеллектуалды талдау мүмкіндігі жақсы қалады. Құжаттар мен мәтіндердегі әріптер мен сандарды танудағы, сондай-ақ арнайы түрдегі бейнелерді талдаудағы табыстарды ғана сеніммен атап өтуге болады. Зерттеу бір онжылдықта емес, әмбебап әдістерге ие болғанша, текстураларды тану сияқты сала.
Бейнелерді тану міндеті жүйенің кіруіне берілген суреттің кейбір сипатта - масын алуға немесе бұл суретті белгілі бір класқа жатқызуға мүмкіндік беретін әдістерді қолдану болып табылады. Тану рәсімі кейбір бейнеге қолданы-лады және оны кейбір абстрактілі сипаттамаға түрлендіруді қамтамасыз етеді: сандар жиынтығы, символдар тізбегі немесе бағандар. Мұндай сипаттаманы кейінгі өңдеу бастапқы суретті бірнеше сыныптардың біріне жатқызуға мүмкіндік береді.
Бірақ бірқатар қиындықтар мен проблемалар туындайды. Көбінесе бұл бейнелердің күрделі фонда немесе ЭТАЛОН бейнесінде көрсетілуіне және кіріс бейнелерінің көру өрісіндегі жағдайымен ерекшеленуіне байланысты немесе кіріс бейнелері кездейсоқ кедергілер есебінен эталондарға сәйкес келмейді. Қазіргі заманғы мәтінді тану технологиялары жұмыс істейдіжоғары баспа құжаттары үшін өте жақсырұқсатпен. Салынған мәтінді танукүрделі фоны бар суреттер мәтіннен басқа нысандар - ағаштар, үйлер бар,адамдар және т. б.) әлі де қиын шешілетін міндет.Арнайы OCR бағдарламалары баркоммерциялық өнім ретінде қол жетімдіжоғары сканерленген құжаттарды танутаңбаларды тану және
қолжазба рәміздер . Бірақ бұл бағдарламалар әдетте,көптеген қоршаған суреттер үшін қол жетімді емесортаның. Бұл келесі қиындықтарға байланысты,
бейнедегі мәтінді тану кезінде пайда болатын: сурет ажыратымдылығы төмен,
күрделі және құрылымдалған фон, бұл символдар мен фон арасындағы сенімді айырмашылық болуы мүмкін, әр түрлі мәтіндік шрифттар мен өлшемдер.
Бейнелердегі объектілерді тану міндеті тану міндеттерінің ішіндегі ең өзекті мәселелердің бірі болып табылады. Мұндай міндеттерді сапалы шеше білу маңызды мәтіндерді тану, саусақтардың іздерін салыстыру, қорғау жүйелері, жылдамдықты арттырғаны үшін айыппұлдарды автоматты түрде жазу жүйелері және т.б. көптеген пәндік салалар бар. Тану ең күрделі процесс, өйткені бейнені алдын ала өңдеу әдістерімен тығыз байланысты. Көбінесе тану сапасы бейнені енгізу процесінен бастап және объектінің белгілерін қалыптастырумен аяқталатын көптеген процестердің тиімділігіне байланысты. Тану кезінде ең маңызды міндет объектіні кейіннен сәйкестендіру үшін дескриптор-объектінің қасиеттерін сипаттау міндеті болып табылады. Техникалық жүйелер өнеркә - сіптің көптеген салаларында, сыртқы түрі бойынша әр түрлі бөлшектер мен бұйымдарды бақылау және бракқа шығару, өңдеу станоктарын конвейерлерден бөлшектермен тиеу, бөлшектер мен дайындамаларды, оның ішінде конвейер бойынша ретсіз қозғалатын немесе ыдыста үйіп түсетін бөлшектер мен дайындамаларды сұрыптау және кассеталарға бағдарланған салу, тораптарды құрастыру және жинақтау, электрондық тораптарды монтаждау, техникалық өлшеу жүйелері, медициналық диагностикалық жүйелер сияқты операцияларда кеңінен және табысты қолданылады. Тану міндетімен тікелей объектілерді сәйкестендіру міндеті пайда болады - тану процесінен алынған барлық ақпаратты объектіні жіктеу мақсатында біртұтас тұтастыққа біріктіруден тұратын айырумен тығыз байланысты процесс. Объектілерді автоматты тану үлкен практикалық мәнге ие. Ол алғаш рет қолжазба сандарды машинамен оқу үшін қолданылды
Жұмыстың мақсаты. Дипломдық жұмыстың мақсаты қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін танитын бағдарламалық қосымша құру.
Қойылған мақсатқа қол жеткізу үшін келесідей негізгі мәселелер шешілді:
1) графикалық танудың Swift бағдарламасында жасалу үлгісі көрсетілді;
2) ақпараттық технологиялар саласында қазақ тіліндегі графикалық танитын қосымшаның құрылымын дамыту;
3) басқа бағдарламаларға қарағанда ерекшелігі тегін түрде жұмыс жасау ;
Жұмыстың өзектілігі. жасалған жүйе бойынша кез-келген графикалық мәтіндерді танып, жұмыс жасауды жеңілдету.
Зерттеу әдістері. пайдаланушыларға OCR-тану бағдарламалары туралы түсінік алуға көмектесубағдарламаның мүмкіндіктерімен танысу, тануды үйрету
сканерленген мәтін, оны Word-ға жіберу және өңдеу.
Ғылыми жаңалығы. Дипломдық жұмыста ғылыми жаңалықтармен сипатталатын келесі нәтижелер алынды:
1) алғаш қазақ тіліндегі графикалық мәтіндерді танитын бағдарламалық қосымша құру;
2) символдарды оптикалық тану жүйесін құру үшін қолданыстағы бағдарламалық құралдарды қарастыру;
3) олардың кемшіліктерін анықтау үшін осы әдістерге негізделген баспа символдары мен бағдарламалық шешімдерді тану бойынша қолданыстағы әдістерді зерделеу және талдау;
Жұмыстың практикалық құндылығы. Жүргізілген зерттеулер нәтижесінде бағдарламалық комплексте жүзеге асырылған, бағдарламалық қосымша құрудың теориялық негізі даярланды. Модельдер мен алгоритмдер түрінде алынатын нәтижелер пайдаланушының бағдарламалық қосымшаны оңай әрі тегін түрде пайдалануы болып табылады.
Осы дипломдық жұмыс қазіргі таңдағы актуалды мәселелерді шешуге, сондай-ақ қазақ тіліндегі графикалық тану жүйесін тікелей дамытуға арналған. Сонымен қатар, Swift бағдарламалық ортасының қысқаша құрылымдық сипаттамасы жəне ол ортада жұмыс жасау əдістері қарастырылған.
Ақпараттық технологиялар саласындағы мәтінді тану теориясына жалпылама шолу
Бұл тарауда тану теориясының бір бөлігі мәтінді танудың ақпараттық технологиялар саласндағы алатын жалпылама орны мен оның даму негізі қарастырылады. Мәтінді тану саласының қалыптасу жолы және оның негізінде алынған нәтижелер зерттеліп, сипатталды. Ақпараттық технологиялар саласында қолдану үшін мәтінді тану теориясы негізінде қолдануға болатын бағдарламалық жасақтамалар ұсынылып, олардың ерекшеліктері көрсетіледі.
Интернеттің дамуымен қағазға басылған кітаптарды, брошюраларды, бланкілерді және әр түрлі құжаттарды электрондық нысанға өзгерту кеңінен қолданыла бастады. Ол үшін сканерлер сияқты құрылғылар қолданылады.
Сканер сканер сканерленетін қағаз беттердің барлық мазмұны - суреттері, мәтіні (қолжазба, машинамен басылған немесе баспа), кестелері және т. б. бар дәл көшірмесін жасайды.
Кейде мұндай түрлендіру құжаттарды электрондық түрде сақтау үшін жеткілікті. Бірақ көбінесе сканерленген құжаттарда жасау мүмкін емес мәтінді редакциялау мүмкіндігі болуы қажет (өйткені ондағы мәтін - бұл суреттің бөлігі).
Суреттен мәтінді шығару тапсырмасын шешу үшін. символдарды оптикалық тану бағдарламаларын қолданады (OCR - ағылш. (optical character recognition).
OCR бағдарламалары жиі сканермен байланыстыруда жұмыс істейді. Сканер бет суретін жасайды, OCR бағдарламасы осы суреттен мәтінді шығарады (рас, бұл операция кезінде беттің қалған барлық безендірілуі жоғалады).
Мәтінді сурет ретінде тек сканерлерден ғана емес, кез келген жерден алуға болады (мысалы - көшедегі баспа хабарландыруынан). Ол үшін фотоаппарат немесе фотокамера жеткілікті.
Мәтінді бір тілден басқа тілге аудару қажет болған кезде жиі мәтін шығару қолданылады.Кейбір OCR бағдарламалары мәтін шығару және аударма функцияларын біріктіреді.
Символдарды оптикалық тану мәтінді редакциялауға, сөздерді немесе фразаларды іздестіруге, мәтінді жинақы түрде сақтауға, сапасын жоғалтпай материалды көрсетуге немесе басып шығаруға, ақпаратты талдауға, сондай-ақ мәтінге электрондық аударманы, форматтауды немесе сөзге түрлендіруді қолдануға мүмкіндік береді. Әдетте OCR бағдарламалары мәтін баспаханалық жолмен басылған және қапрғазбен айқын контрасты (мысалы. ақ қағаздағы қара түсті мәтін).
Мәтін көп түсті фонда таңбада орналасқан кезде, немесе мәтін машинамен басылған, немесе баспаханалық, бірақ өте ескі. Тану сапасын, сондай-ақ, бағамдық және асты сызылған шрифттар сияқты, қаралатын құжаттарда пайдаланылатын шрифттар қоспасын да төмендетеді.Жалпы алғанда, қолжазба мәтінін тану және шығару. Қазіргі уақытта бұл тапсырманы қанағаттанарлық орындаған OCR бағдарламасы табылуы екіталай.Бұл шолуда мәтінді тану бағдарламаларының кейбірі бар [1].
1.1 Мәтінді тану теориясының үрдістері
Графикалық мәтіндерді тану - қолжазба, машинамен басылған немесе баспа мәтіндерінің бейнелерін компьютерде (мысалы, мәтіндік редакторда) символдарды көрсету үшін қолданылатын мәтіндік деректерге механикалық немесе электрондық аудару. Тану кітаптар мен құжаттарды электрондық түрге түрлендіру үшін, бизнестегі есепке алу жүйесін автоматтандыру үшін немесе Веб-беттегі мәтінді жариялау үшін кеңінен қолданылады. Символдарды оптикалық тану мәтінді редакциялауға, сөздерді немесе сөздерді іздестіруді жүзеге асыруға, оны ықшам түрде сақтауға, сапасын жоғалтпай материалды көрсетуге немесе басып шығаруға, ақпаратты талдауға, сондай-ақ мәтінге электрондық аударманы, форматтауды немесе сөзге түрлендіруді қолдануға мүмкіндік береді. Электрондық құжаттар мәтінді оптикалық тану бейнелерді тану, жасанды интеллект пен компьютерлік көру салаларында зерттелетін проблема болып табылады. Толық бейнелерді тануды қолдану аймағы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақы - лау ақауды кесетін тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аумағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді.Таңбаларды тану-мәтіндік ақпаратты графикалық деректер форматтарынан мәтіндік деректер форматтарына түрлендіру опера - ция - сы. Мәтіндерді баспа немесе қолжазба материалдарын сканерлеу арқылы компьютерге енгізу үшін қолданылады.
Мәтінді тану бейнелерді тану бағыттарының бірі болып табылады. Бейнелерді тану теориялық және практикалық ойларда өте күрделі міндет болып табылады, онымен көптеген тірі организмдер мен адамдардың оңай жеңе алатынына қарамастан. Бұл процесті тиімді орындау үшін жасанды жүйені құру және оны техникалық іске асыру өте қиын. Бұл жағдайда тану деп объектінің бейнесінің, оның бейнесінің, белгілер жиынтығының объектінің өзіне арақатынасы түсініледі [2].
Бейнелерді тану жүйелерінің мысалдары мен қосымшалары мәтінді жалпы және оның жекелеген нышандарын тану, сөзді, адам тұлғасын, адамның биометриялық деректерін, өнімдердің штрих-кодтарын, машиналар мен т.б. нөмірлерін тану болып табылады. Мәтінді тану мысалдары мыналар болып табылады: мәтіннің бейнелерін (сканерленген кітаптар, мақалалар, журналдар) одан әрі сандық аналогпен жұмыс істеу үшін цифрлау, сауалнамалық бланкілерді өңдеу, нысандар мен т.б. жазбалардың нөмірлері мен нөмірлерін тану. Мәтінді тану жүйесі кіруде мәтіні бар суреттің (графикалық файлдың деректер форматында) болуын болжайды. Жүйенің шығуында осы бейнеден бөлінген мәтін қалыптасуы керек.
Қазір интернетте қолайлы ақпаратты табуға болады, бірақ бұл ақпарат кітапта болған кезде не істеу керек, ал мәтінді қолмен таңдау керек емес пе? Өйткені, алынған материалды бірден сканерлеу, электрондық түрге ауыстыру керек. Содан кейін ДК жылжыту, мәтінді тану бағдарламасын табу, қалған қателерді қолмен өңдеу. Және бұл қиын. Кәсіби мамандарға сеніңіз, ауладағы жаз, ал бізбен жұмыс. Тану үшін жақсы бағдарламаны табу оңай емес, негізінен, Егер бағдарлама жақсы болса, коммерциялық негізде. Біз кітаптарды, фотосуреттерді, бейнелері бар мәтінді, түрлі форматтағы баспа парақтарын танимыз. Мәтінді теру процедурасынан өтіп - қағаздан компьютерге.
Мәтінді оптикалық тану-мәтінді мәтіндік таңбаларға аудару. Тану мәтінді жариялау үшін жиі қолданылады. Бұл ретте мәтінді редакциялауға, деректерді талдауға, сөзді немесе сөйлемді іздеуге, мәтінге форматтауды, электрондық аударманы қолдануға болады.Мәтінді тану жүйесі суреттерде бейнеленген әр түрлі қаріптермен, символдармен жұмыс істеу үшін бапталуы тиіс; бағандарды, суреттерді және басқа да компоненттерді қоса алғанда, мәтінді бастапқы пішімдеуді қалпына келтіруге тиіс.100% мәтінді тану-99% сканерленген материалдың нақты бейнесі және 1% адамның қолмен өңдеуі. Сондай-ақ, жақсы сапалы қолжазба мәтінін да тануға болады [3].
Символдарды тану кезінде екі салыстыру әдісі қолданылады: белгілер мен үлгімен.Мәтінді тануды қиындататын нәрсе:
- кір және дақ;
- бет дұрыс емес;
- суреттердегі мәтін;
- көп беттік құжаттар;
- тарспециалды сөздер;
- кестелер;
- түсті фон немесе сурет;
- Математикалық, химиялық формулалар;
- ұсақ сәндік қаріптер.
OCR мәтінін тану бағдарламасы тек сұр түсті градациялардағы бейнелермен және түрлі-түсті диаграммалармен ғана жұмыс істейді, суреттер танымайды. Қиғаш немесе жоғары аяқпен орналасқан мәтін мәтін мәтін мәтін бойынша қатаң көлденең орналасқан қателері бар үлкен дәрежемен анықталады.
ABBYY OCR мәтінді тану технологияларының Жоғары сапасы қағаз құжаттардың (сканердің, фотосуреттердің) және кез келген түрдегі PDF-құжаттардың өңделетін форматтарға дәл айырбасталуын қамтамасыз етеді. Қазіргі заманғы OCR-технологияларды қолдану кез келген құжаттармен жұмыс істеу кезінде көп күш пен уақытты үнемдеуге мүмкіндік береді. ABBYY FineReader OCR бірге сіз қағаз құжаттарды сканерлеуге және оларды өңдеуге болады. Сіз кітаптар мен журналдардан дәйексөздер алып, оларды қайта баспаусыз пайдалануға болады. Сандық фотокамералар мен ABBYY FineReader OCR көмегімен сіз бірден көрген постерді, баннерді, сондай-ақ құжаттың немесе кітаптың суретін жасай аласыз. Сонымен қатар, ABBYY FineReader OCR іздеу мүмкіндігі бар PDF құжаттар мұрағатын жасау үшін пайдалануға болады.
Бұл міндетті шешу үшін шартты түрде үш санатқа бөлуге болатын бірқатар Алгоритмдер қолданылады:
-үлгіні салыстыруға негізделген Алгоритмдер;
-шешім теориясының әдістеріне негізделген Алгоритмдер;
-нейрондық желілерді қолданатын Алгоритмдер.
Жоғарыда аталған алгоритмдердің барлық топтары, тұтастай алғанда, бірдей құрылымы бар және мұндай блоктарды қамтиды:
-болашақта жүйе танылатын бейнелер жиынтығындағы жүйені оқыту блогы. Оқу аяқталғаннан кейін оның нәтижелері сақталады;
-оқыту кезеңінде алынған ақпаратты пайдалана отырып тану блогы бейтаныс бейнені белгілі бір математикалық аппараттың (классификатордың) көмегімен сыныптардың біріне жатқызады. Мысалы, бұл әдіс, оның қатаңдығына (қаріпке, масштабқа, символдардың көлбеуіне) байланысты осы міндетті жалпы шешу үшін сәйкес келмейді, алайда өзінің қарапайымдылығына, аз ресурсты сыйымдылығына, аз есептеуіш шығындарына байланысты олар белгілі бір модификациялары бар жеке тану есептерін шешу кезінде жиі пайдаланылады .
Жасанды интеллекттің кейбір принциптерін пайдаланатын нейрондық желілер әдісі символдарды айырудың қазіргі заманғы жүйелерінің көпшілігінде кеңінен қолданылады. Оның артықшылықтарының арасында әмбебаптықты, сондай-ақ нейросетей ерекшеліктеріне байланысты алгоритмдерді жобалауға қойылатын болмашы талаптарды ескеру қажет. Осы әдістің кемшіліктері оқыту процесін ұйымдастыру үшін қажетті есептеу ресурстарының едәуір көлемі, сондай-ақ тану нәтижелерінің нашар болжамдылығы болып табылады. Мұндай әдістердің ең үлкен артықшылығы танудың жоғары дәлдігі болып табылады.
Шешім теориясының әдістеріне негізделген Алгоритмдер оқыту процесін бірнеше рет жеңілдетеді, бірақ олардың дәлдігі нейрожелілік алгоритмдердің дәлдігінен едәуір төмен. Осы алгоритмдердің маңызды артықшылығы векторлық формада (сипаттамалар жиынтығы түрінде) символдарды ұсыну болып табылады, ал нейрожелілік алгоритмдердің көпшілігі растрлық бейнемен жұмыс істейді. Шешім теориясының кейбір классификаторларын пайдаланған кезде тану нәтижелерінің жоғары болжамдылығына қол жеткізуге болады.
Бұдан әрі баламалы тану алгоритмін құру үшін пайдаланылатын жоғарыда сипатталған алгоритмдердің кейбір блоктары егжей-тегжейлі қарастырылады [4].
Мәтінді тану тақырыбы бейнелерді тану бөлімінің астына түседі. Және алдымен бейнелерді тану туралы қысқа. Бейнелерді тану немесе бейнелерді тану теориясы бұл кейбір қасиеттер мен белгілердің соңғы жиынтығымен сипатталатын заттарды, құбылыстарды, процес - - терді, сигналдарды, жағдайларды және т.б. жіктеу және иденти - фика - циялау негіздері мен әдістерін дамытатын информатика және аралас пәндер бөлімі. Сондай-ақ, екі негізгі бағытты атап өтуге болады.
Тірі тіршілік ететін тану қабілетін зерттеу, оларды түсіндіру және модельдеу;
Қолданбалы мақсатта жеке есептерді шешуге арналған құрылғыларды тұрғызу теориясы мен әдістерін дамыту.
1.1-сурет. Оптикалық символдарды тану принципі
1.2 Мәтінді тану теориясына ғылыми шолу және оның даму тарихы
Тану теориясының даму процессі бірнеше кезеңдерден өткен. Олардың әрқайсысының өз кезеңдеріне сипаттаманы ашып көрсетуге болады. Төменде даму проесстері жал бойынша жіктеліп сипатталады.
Густав Таукек Германияда мәтінді оптикалық тану әдісіне патент алды, одан кейін Гендель, 1933 жылы АҚШ-та өз әдісіне патент алды. 1935 жылы Таушек өз әдісіне АҚШ патентін алды. Таушек машинасы үлгілер мен фотодетекторды пайдаланған механикалық құрылғы болды.
1950 жылы Дэвид Х. Шепард, Құрама Штаттардың Қарулы Күштерінің қауіпсіздік агенттігінен криптоаналитик, баспа хабарламаларын компьютерді өңдеу үшін машиналық тілге түрлендіру міндетін талдап, осы тапсырманы шешетін машина құрастырды. Ол АҚШ патентін алғаннан кейін, ол бұл туралы "Вашингтон Дэйли Ньюз" (27 сәуір 1951) және "Нью-Йорк Таймс" (26 желтоқсан 1953) хабарлады. Содан кейін Шепард символдарды оптикалық танудың әлемде алғашқы коммерциялық жүйелерін шығарған зияткерлік машиналарды әзірлейтін компанияны құрды.
Бірінші коммерциялық жүйе "Ридерс Дайджест" 1955 жылы орнатылды. Екінші жүйе чектермен жұмыс істеу үшін несие карталарын оқу үшін "Стандарт Ойл" компаниясына сатылды. Шепарда компаниясы беретін басқа жүйелер 1950 жылдардың соңында сатылды, соның ішінде АҚШ-тың ұлттық әуе күштеріне арналған сканер, машинкамен басылған хабарламаларды телетайп арқылы оқуға және беруге арналған. IBM кейінірек Шепард патенттерін пайдалануға лицензия алды [5].
"Ридерс Дайджест" және "Ар-Си-Эй" жарнамалық хабарландырулардан оралған "Ридерс Дайджест" купондарының сериялық нөмірлерін цифрлауға арналған мәтінді оптикалық тануды пайдаланатын құжаттарды оқуға арналған машинаны құру мақсатында ынтымақтастықты бастады. Құжаттарды оқуға арналған Машина тікелей RCA 301 (алғашқы жартылай өткізгіш компьютер) компьютерімен жұмыс істеді. Машина жұмысының жылдамдығы минутына 1500 құжат болды: ол әр құжатты тексеріп, оны дұрыс өңдей алмаған.
Құрама Штаттардың пошта қызметі поштаны сұрыптау үшін зерттеуші Яков Рабиновпен әзірленген технологиялар негізінде жасалған мәтінді оптикалық тану принципі бойынша жұмыс істейтін машиналарды пайдаланады. Еуропада мәтінді оптикалық тану машинасын пайдаланатын бірінші ұйым Британ поштасы болды. Канада поштасы таңбаларды оптикалық тану жүйесін пайдаланады. Бірінші кезеңде символдарды оптикалық тану жүйесін сұрыптау орталығында алушының аты мен мекен-жайын оқып, конвертте штрих-кодты басып - - - - - шығарады. Ол ультракүлгін жарықта анық көрінетін арнайы сиямен жағылады. Бұл конвертте кез келген жерде болуы мүмкін адам толтырылған мекен-жай өрісі бар шатастырмау үшін жасалады [6].
Рэй Курцвейл "Курцвейл компьютер Продактс" компаниясын құрды және кез келген шрифтпен басылған мәтінді тануға қабілетті символдарды оптикалық танудың бірінші жүйесін дамыту бойынша жұмыс істей бастады. Курцвейл бұл технологияны ең жақсы қолдану -- соқыр адамдарға мәтінді дауыстап оқи алатын компьютер алуға мүмкіндік беретін соқырларға арналған оқу машинасын жасау деп санайды. Бұл құрылғы мәтінді сөзге түрлендіретін планшеттік сканер мен синтезатордың бірден екі технологиялы өнертабысын талап етті. Соңғы өнімді Курцвейл және Ұлттық зағиптар федерациясының басшылары басқаратын баспасөз конференциясы кезінде ұсынылды.
"Курцвейл Компьютер Продактс" компаниясы символдарды оптикалық тану компьютерлік бағдарламасының коммерциялық нұсқасын сатуды бастады. Екі жылдан кейін Курцвейл өз компаниясын "Ксерокс" корпорациясына сатты, ол мәтінді тану жүйелерін одан әрі коммерцияландыруға мүдделі болды. "Курцвейл Компьютер Продактс" "Скансофт" ретінде танымал "Ксерокс" еншілес компаниясы болды.
Кириллицаны танитын алғашқы коммерциялық табысты бағдарлама ресейлік "ОКРУС" компаниясының "AutoR" бағдарламасы болды, DOS операциялық жүйесінің басқаруында жұмыс істеді және 4,77 МГц тактілік жиілігі кезінде Intel 8088 процессоры бар IBM PCXT дербес компьютерлерінде де жылдамдық пен сапа жағынан қолайлы тануды қамтамасыз етті. 90-шы жылдардың басында Hewlett-Packard компаниясы өз сканерлерін "AutoR" бағдарламасымен бірге ресейлік нарыққа жеткізді. "AutoR" алгоритмі жинақы, жылдам және толық көлемде "интеллектуалды", яғни шын мәнінде шрифттан тәуелді болды. Бұл алгоритмді екі жас биофизика, МФТИ түлектері - Г.М.Зенкин және А.П.Петров жасады және сынақтан өтті. Олар өз тану әдісін "Биофизика" журналында жариялады. Қазіргі уақытта Зенкин-Петров алгоритмі графикалық символдарды тану міндетін шешетін бірнеше қолданбалы жүйелерде пайдаланады. Алгоритм негізінде Paragon Software Group компаниясы құрылды. Г.М.Зенкин Paragon Software Group компаниясында PenReader технологиясы бойынша жұмысты жалғастырды. Технология компанияның аттас өнімінде қолданылады [7].
Ресейлік ABBYY компаниясының мәтіндерін тану технологиясы шықты. Оның негізінде жаппай пайдаланушылар үшін бірқатар корпоративтік шешімдер мен бағдарламалар құрылды. Атап айтқанда, ABBYY FineReader мәтіндерін тануға арналған бағдарлама, ұялы құрылғылардан мәтіндік ақпаратты тануға арналған қосымшалар, ABBYY FlexiCapture құжаттар мен деректерді ағындық енгізу жүйесі. ABBYY OCR мәтіндерін тану технологиясы Fujitsu, Panasonic, Xerox, Samsung, EMC және т.б. сияқты халықаралық ат компанияларын лицензиялайды [8].
Мәтінді тану мысалдары мыналар болып табылады: мәтіннің бейнелерін (сканерленген кітаптар, мақалалар, журналдар) одан әрі сандық аналогпен жұмыс істеу үшін цифрлау, сауалнамалық бланкілерді өңдеу, нысандар мен т.б. жазбалардың нөмірлері мен нөмірлерін тану. Мәтінді тану жүйесі кіруде мәтіні бар суреттің (графикалық файлдың деректер форматында) болуын болжайды. Жүйенің шығуында осы бейнеден бөлінген мәтін қалыптасуы керек.
Мәтінді тану келесі тапсырыстарды және ішкі үрдістерді қамтиды:
1. Жүйенің кіруіне түсетін кескін шудан тазартылып, символдарды тиімді бөліп алуға және оларды тануға мүмкіндік беретін түрге келтірілуі тиіс.
2. Жүйе бірнеше бағандар бойынша түзету және бөлу ерекшеліктеріне негізделе отырып, суретті мәтін блоктарына бөлуі тиіс.
3. Мәтінмен сурет жолдар бейнелеріне, одан кейін әрбір таңбаны бөлек өңдеу үшін символдардың бейнелеріне бөлінуі тиіс. Осы қадамнан кейін әртүрлі тану жүйелері өзінің арнайы алгоритмдері бойынша жұмыс істейді.
4. Таңбаның бейнесі тұтастай өңделуі мүмкін, ол бар үлгілермен салыстырылады. Басқа нұсқа бейнеленетін символдың сипаттамаларын бөлу болып табылады: сипатты белгілерді іріктеу және осы белгілерді жүйеде бар өлшемдер бойынша жіктеу.Төртінші қадамның шығуында әріптің мүмкін нұсқасы пайда болады. Алайда, әдетте бұл жүйелер тоқтамайды және алынған нәтижені нақтылай отырып, басқа әдістердің негізінде жұмысын жалғастырады.
5. Тану нәтижесі қанағаттанарлық емес болуы мүмкін. Жақсы нәтижелер алу үшін жүйеде оқу блогы кіріктірілуі мүмкін. Осы блоктың көмегімен жүйеге әр түрлі әріптерді осы шрифтпен сызу мысалдарын орнатуға болады. Оқу процесінен кейін мәтінді тану жақсы сапасы болжанады. Мәтінді тану жүйесі барлық сипатталған қадамдарды әрдайым ұстануға тиіс емес, бірақ тану процесінің негізгі әрекеттері кез келген алгоритм үшін ортақ болып табылады [9].
2. Символдарды тану әдістері
Бұл тарау барысында графикалық мәтінді тану әдістері жеке-жеке толық сипатталады. Қолданыстағы тану әдістері жеке ерекшеліктері мен кемшілік-теріне байланысты өзара салыстырылады. Нәтижесінде тиімді бағдарламалық қамтама мен тану әдістері таңдалынып, қызметі жағынан қарастырылады.
2.1 Символдарды оптикалық тану технологиясы
Символдарды оптикалық тану технологиясы мәтінді тану үшін бірнеше түрлі кезеңдерден өтеді. Алдымен сканерленіп, содан соң сегментация процессі жүреді. Келесіде фильтрация және өңдеу орын алады.
Компьютерлік баспа жүйелерін пайдалану кезінде OCR-ге қойылатын негізгі технологиялық талаптар:
-жеке таңбалардың басы мен аяқталуын анықтай білу, өйткені сканердің өзі суретті тек цифрлайды және көптеген шрифттар пропорционалды болып табылады;
-құжаттарды полиграфиялық ресімдеу кезінде пайдаланылуы мүмкін гарнитуралардың, кегльдердің, шрифттардің сызбаларының үлкен ауқымымен жұмыс істеу мүмкіндігі;
-әртүрлі сападағы түпнұсқалармен (оның ішінде баспаханалық тәсілмен немесе лазерлік принтерде жасалған) жұмыс істеу мүмкіндігі);
-көп жолақты мәтінді тану мүмкіндігі;
-кестелер мен суреттері бар мәтінді тану мүмкіндігі;
-айырудың жеткілікті жоғары шынайылығы (кемінде 90-96 %).
OCR бағдарламаларының оқитын пакеттері алғашқы әзірлемелердің көпшілігін құрады. Мұндай пакеттер кез-келген гарнитураның кез-келген символдарын тануды теориялық үйренеді. Нақты гарнитура бағдарламасын оқыту үшін эталондық бейнені сканерлеу қажет. Бұл өте ұзақ процедура, алайда, егер бұл гарнитура үнемі пайдаланылса, оқуға бірнеше сағат жұмсауға тұрарлық. Мұндай түрдегі бағдарламалар әрбір жеке бет символын оқу процесінде құрылған анықтамалық кестелердегі символдармен салыстырады, бұл ретте мәтіндік файлды құрайды. Бұл бағдарламаның жұмысын жақсартуға, оны құжатта пайдаланылатын гарнитуралардың барлық символдар жинағына үйретуге болатынын білдіреді. Бағдарлама енді әрбір символдың нысанын білетіндіктен, форманы табу бойынша ең аз жұмыс істеуінен қате ықтималдығы азаяды[10].
OCR зияткерлік пакеттері оқытуды қажет етпейді және пайдаланылатын гарнитураға қарамастан символдар түрлерін түсіндіре алады. Бұл бағдарламалардың жұмысы үлкен әсер етеді: құжат сканер арқылы өткізіледі, нәтижесі мәтіндік файл бере отырып, OCR интеллектуалды бағдарламасымен өңделеді. А4 форматының беті үшін барлық рәсім бір минуттан артық уақыт алады. Жоғары дәлдікпен бұл қолмен енгізу жылдамырақ.
Бір минут ішінде зияткерлік пакет көлемі 1200 таңбалы мәтінді сканерлеуге және тануға мүмкіндік береді. Бұл ретте жасалған мәтіндік файлда әдетте екі қате таңбадан артық емес -- 99.83% тану шынайылығы бар. Мұндай пакеттердің кемшіліктері арасында мыналарды атап өткен жөн. Олардың кейбіреулері нақты гарнитураларды оқуға оқи алмайтындықтан, тиісті икемділіктің болмауы оларға ерекше түрдегі гарнитураларды тануға мүмкіндік бермеуі мүмкін.
Жұмыстың түпкі нәтижесі пакетін OCR қарамастан, оның типін білдіреді, файл форматы ASCII (немесе ANSI), ал кейбір жағдайларда тіпті отформатированный файл үшін осындай танымал мәтіндік процессорлар Microsoft Word. Жаңа бағдарламалар бір файлға бірнеше тізбекті беттердің мәтінін жазып, уақытты үнемдеуге мүмкіндік береді. Сонымен қатар, жеке парақтарды автоматты түрде беру механизмі бар Сканерді пайдалану көп бетті құжатты үздіксіз енгізуді ұйымдастыруға мүмкіндік береді.
OCR бағдарламаларының жұмыс сапасы бірқатар негізгі факторларға байланысты:
-түпнұсқаның ең жақсы сапасы қажет. Сапасыз суреттер жағдайда зияткерлік пакеттер бірдеңе жасауға тырысады, бірақ нәтиже Сізді таң қалдырады. Оқитын бағдарламалар көп жағдайда ғана жұмыс істемейді;
-ең жақсы нәтижелерге қол жеткізу үшін шамамен 600-800 нүктені дюймге ажыратумен бейнелерді цифрлау қажет, бұл символдардың жиектерін жоғары дәлдікпен анықтауға мүмкіндік береді және OCR бағдарламасын жеке әріптердің пішінін айыруды жеңілдетеді;
-жоғары өнімді жабдықты пайдалану қажет. Символдарды оптикалық тану процесінде үлкен деректер массиві жасалады. Табысты жұмыс істеу үшін бағдарламалар OCR қажет қуатты компьютер үлкен көлемді жедел және дисковой жад, ол білдіреді бірге құны бағдарламалық қамтамасыз ету аз шығындар;
-ерекше гарнитурамен басылған мәтіннің үлкен көлемін енгізу қажет болса, оқитын пакетті пайдаланған дұрыс [11].
Сканерлеу технологиясы. Сканерлеу - деп аталатын арнайы құрылғының көмегімен аналогты бейнені (құжат, фотосурет, иллюстрация, слайд) цифрлау процесі. Сканерлеу түпнұсқаның негізінде компьютерлік өңдеуге жарамды оның цифрлық "портретін" алу үшін жүргізіледі.
Компьютерге графикалық бейнелерді енгізуге арналған сканер-оптико-электрондық құрылғы. Сканер құжаттың цифрланған бейнесін жасайды және оны компьютер жадына салады.
Мұрағат құжаттарымен жұмыс істеу үшін қазіргі уақытта негізінен қара-АҚ және жартылай тонды монохромды сканерлер пайдаланылады. Бұл бірінші кезекте, мұрағаттық құжаттың басым түрі жазу машинкасында немесе монохромды принтерде басылған, қолжазба толтырылған немесе қара сиямен түзету және эпизодтық баспа, суреттер, схемалар немесе қара-ақ фотосуреттерді қамтитын мәтіндік құжат болып табылатындығымен байланысты.
Алдымен беттегі мәтінді орналастыру құрылымын тану қажет: бағандарды, кестелерді, суреттерді және т.б. бөлу. Одан әрі беттің графикалық кескінінің бөлінген мәтіндік фрагменттерін мәтінге түрлендіру қажет.
Егер бастапқы құжаттың типографиялық сапасы болса (жеткілікті үлкен қаріп, нашар басылған таңбалардың немесе түзетулердің болмауы), онда тану міндеті растр үлгісімен салыстыру әдісімен шешіледі. Алдымен бет кескіні жеке таңбалардың бейнелеріне бөлінеді. Содан кейін олардың әрқайсысы жүйенің жадында бар символдардың үлгілеріне тізбектеледі және кіріс суретінен ерекшеленетін нүктелердің ең аз саны бар шаблон таңдалады. Басып шығару сапасы төмен құжаттарды тану кезінде (машинкамен басылған мәтін, факс және тағы басқа) оларда белгілі бір құрылымдық элементтердің (кесінділердің, сақиналардың, доғалардың және тағы басқа) болуы бойынша символдарды тану әдісі пайдаланылады.Кез келген таңбаны оның элементтерінің өзара орналасуын анықтайтын параметрлер жиынтығы арқылы сипаттауға болады. Мысалы, "Н" әрпі мен "және" әрпі үш бөліктен тұрады, олардың екеуі бір-біріне параллель орналасқан, ал үшіншісі осы бөліктерді қосады. Бұл әріптердің арасындағы айырмашылық-екі басқа бөлікт құрайды. Құрылымдық әдіспен тану кезінде бұрмаланған символдық бейнеде тән бөлшектер ерекшеленеді және символдардың құрылымдық үлгілерімен салыстырылады. Нәтижесінде барлық құрылымдық элементтердің жиынтығы және олардың орналасуы танылатын символға ең көп сәйкес келетін таңба таңдалады [12].
Тану процесінің мәні. Қағаз құжаттарын электрондық түрге автоматты немесе автоматты түрде аударуды жүзеге асыру үшін қағаз құжаттарын сканерлеу және олардың мазмұнын символдарды оптикалық тану жүйелері (Optical Character Recognition-OCR) деп аталатын арнайы бағдарламалардың көмегімен тану қажет. Символдарды оптикалық тану жүйелері баспа құжаттарын компьютерге автоматты түрде енгізуге арналған. OCR-жүйесінің суретін өңдеу сканермен берілген графикалық бейнені талдауды және әрбір символды тануды қамтиды.
Сегментация. Алдын ала өңдеуден кейін тану процесінде кескінді сегменттеу болады. Тағы да, анықтау кезеңі төмен болғандықтан, сегменттеу процесі үшін келесі эвристика қабылданды. Мәтіннің ұсыныстары көлденең орналасқан және бір-бірімен қиылыспайды деп болжанады. Сонда сегменттеу міндеті қиын емес. Сөздегі екі әріп арасындағы қашықтықтың орташа мәні қойылады. Осыдан кейін сурет толық ақ жолақтарды іздеу жолымен жолдарға бөлінеді. Одан әрі бұл жолақтар белгілі бір ендегі ақ жолақтарды іздеу арқылы сөздерге бөлінеді. Осыдан кейін бөлінген сөздер қорытынды кезеңге беріледі және олар әріптерге бөлінеді.Осылайша, сегментация Модулінің шығуында біз осы мәтіннің әріптері бейнеленген барлық мәтін бар [13].
2.1-сурет. Мәтінді оптикалық тану
Тікелей тану алдында сурет қалыпқа келтіріледі және алдын ала дайындалған үлгілердің өлшемдеріне дейін келтіріледі. Ары қарай тану процесі басталады. Пайдаланушы үшін екі таңдау бар, метрик және нейрондық желі арқылы.
Фильтр және өңдеу. Анықтау кезеңі түсіріліп, алдын ала өңдеу кезеңі орнатылғандықтан, сурет көбінесе былайша көрінеді.Бұл өңдеу екі сүзгішпен өңделеді. Мысты және монохромды. Қолданба қызыл компонент мәнін арттырумен өзгертілген медиа сүзгісінің нұсқасы пайдаланылды.
Медиа фильтр. Бұл сүзгі шуды азайту және әріптердің үшкір шеттерін майлау үшін қолданылады. Осыдан кейін сурет монохромды өңдейді. Яғни, анық бинаризация болады, бұл ретте әріптердің шекаралары анық белгіленеді.
Бет макетін талдау процестері:
1. тану аймағын анықтау
2. кестелерді анықтау
3. суретті анықтау
4. мәтінде жолдар мен жеке таңбаларды таңдау.
OCR-жүйелер әдеттегі шрифттарден жасалған таза бейнелер үшін 99,9% - дан жоғары танудың ең жақсы дәлдігіне (дұрыс танылған таңбалардың пайызы) жетуі мүмкін. Бір қарағанда, тану дәлдігі мінсіз болып көрінеді, бірақ қателер деңгейі әлі де артады, өйткені егер бетте шамамен 1500 таңба бар болса, онда 99,9% табысты тану коэффициенті кезінде бетке бір немесе екі қате шығады. Мұндай жағдайларда сөздік бойынша тексеру әдісі көмекке келеді. Яғни, егер сөздікте жүйе болмаса, онда ол арнайы ережелер бойынша ұқсас табуға тырысады. Бірақ бұл әлі де 100% қателіктерді түзетуге мүмкіндік бермейді, бұл адам нәтижелерін бақылауды талап етеді.
Тану дәлдігі тану қателіктері есебінен анықталады. Тану дәлдігін арттыру қателіктердің себептерін жоюға көмектеседі.Рұқсат (Resolution) - ұзындық немесе аудан бірлігіне бейне қалыптасатын нүктелер немесе растрлық ұяшықтар саны. Құрылғының ажыратымдылығы неғұрлым көп болса, ұсақ бөлшектер ойнатылуы мүмкін. "Квадрат дюйм нүктелерінде" (DPI, dots per inch) өлшенеді. Өнеркәсіптік сканерлердің типтік рұқсаты - 200-300 DPI [14].
Түстің разрядтылығы (түс тереңдігі) - сандық бейнедегі әрбір пиксельдің разрядтарының саны, соның ішінде сканермен берілетін. Сканер 2 Сан ретінде ойнайтын түстердің ең көп санын сипаттайды. Бір разрядқа қара-ақ сурет, 8-сұр жартылай тонды, 16 - түсті, 24 - түрлі түсті сурет, адам қабылдауға ең жақын (RGB моделі), 36bit және одан да көп-кәсіби жұмыс үшін арналған, ең жиі баспа ісінде жоғары шынайы түс беретін толық түсті сурет сәйкес келеді. Типтік мәндер сканерлердің әр түрлі типтері үшін әрқалай болады.
OCR жүйелері аппараттық немесе бағдарламалық іске асыруды көздейтін мынадай негізгі блоктардан тұрады:
-мәтін элементтерін сегменттеу (оқшаулау және бөлу) блогы;
-суретті өңдеу блогы;
-белгілерді бөлу блогы;
-таңбаларды тану блогы;
-тану нәтижелерін қайта өңдеу блогы.
Бұл алгоритмдік блоктар тізбектей орындалатын суреттерді өңдеу және талдау қадамдарына сәйкес келеді. Алдымен мәтіндік салаларды, жолдарды бөлу және байланыс мәтіндік жолдарды жеке таныстарға бөлу жүзеге асырылады, олардың әрқайсысы бір мәтіндік символға сәйкес келеді.Бөлшектенгеннен кейін (кейде бөлшектенуге дейін немесе процесінде) пикселдердің екі өлшемді матрицалары түрінде ұсынылған ... жалғасы
ГРАФИКАЛЫҚ МӘТІНДЕРІН ТАНУ
тақырыбына жазылған
ДИПЛОМДЫҚ ЖҰМЫС
Мамандығы 5В070300 - Ақпараттық жүйелер
Түйіндеме
Дипломдық жұмыс 55 беттен, 25 суреттен, 17 пайдаланылған әдебиеттер тізімінен тұрады.
Кілттік сөздер: оптикалық тану, сканерлеу, мәтіндерді тану, тану аймағы, интернет, жасанды интеллект, автоматтандырылған жүйе, тестілеу жүйелері, бағалау құралдары, графикалық мәтін.
Зерттеу нысаны: графикалық мәтіндерді тану.
Жұмыстың мақсаты: қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін танитын бағдарламалық қосымша құру.
Зерттеу әдістері: Латын әліпбиінде берілген мәтіндерді тану үшін символдарды оптикалық тану жүйелерін қолдану. Х-code бағдарламалық ортасында Swift тілін қолдану арқылы мәтіндерді кириллицаға аудару.
Қолдану аймағы: автоматты жүйелер, бағдарламалау сабақтары, нейрондық желілер, интеллектуалды жүйелер.
Жұмыстың маңыздылығы: жасалған жүйе бойынша кез-келген графикалық мәтіндерді танып, жұмыс жасауды жеңілдету.
Нәтижелері:
графикалық тану бағдарламалары толығымен зерттелді;
болашақта жасалынған жұмысты латын және киррилица әліпбиінде графикалық тануға болады;
қазіргі таңда дамып келе жатқан Swift программалық тілінің функциялары толығымен қарастырылып, қосымша жасалды.
РЕФЕРАТ
Дипломная работа состоит из 55 страниц, 25 рисунков, 17 источников.
Ключевые слова: оптическое распознавание, сканирование, распознавание текстов, область распознавания, интернет, искусственный интеллект, автоматизированная система, тестирующие системы, средства оценки, графический текст.
Объект исследования: распознавание графических текстов.
Цель работы: создание программного приложения для распознавания графических текстов казахского языка на латинском алфавите.
Методы исследования: Использование систем оптического распознавания символов для распознавания текстов, заданных на латинском алфавите. Перевод текстов на кириллицу с использованием языка Swift в программной среде Х-code.
Область применения: автоматические системы, уроки программирования, нейронные сети, интеллектуальные системы.
Значимость работы: облегчение работы по распознанию любых графических текстов по разработанной системе.
Результаты:
:: полностью изучены программы графического распознавания;
:: в будущем будет проводиться графическое опознавание, в каком алфавите находится казахский язык;
:: в настоящее время полностью рассматриваются функции развивающегося программного языка Swift и разработаны приложения.
ABSTRACT
Diploma work consists of 55 pages, 25 pictures, 17 sources.
Keywords: optical recognition, scanning, text recognition, recognition area, Internet, artificial intelligence, automated system, testing systems, evaluation tools, graphic text.
Object of research: recognition of graphic texts.
Purpose of a work: creation of software application for recognition of graphic texts of the Kazakh language in the Latin alphabet.
Field of application: The use of optical character recognition systems for recognition of texts specified in the Latin alphabet. Translation of texts into Cyrillic using Swift language in X-code software environment.
Methods of research: automatic systems, programming lessons, neural networks, intelligent systems.
Importance of work: simplification of work on recognition of any graphic texts on the developed system.
Results:
:: fully studied by optical character recognition software;
:: in the future, there will be a graphical identification of the alphabet in which the Kazakh language is;
:: the functions of the evolving Swift programming language are now fully explored and applications developed.
Анықтамалаp
OCR (Optical Character Recognition) - мәтіндік редакторда көрсету үшін қолданылатын кодтар тізбегіне символдың кескіндерінің бірізділігін аудару.
Abbyy FineReader - бұл осы топ ішіндегі ең сапалы және көпфункционалды софт.
OCR Cunei Form - ең функционалдық және ыңғайлы бағдарламалардың бірі.
Readiris Pro - тестті тану және редакциялау бойынша әртүрлі және тұрақты жұмысты қамтамасыз ететін тағы бір ақылы софт.
OCR Freemore - тегін таратылады және тегін софт үшін өте қолайлы, базалық функционалы бар. Жұмыс сапасы өте жоғары
Abbyy Screenshot Reader - топтағы алғашқы софт сияқты әзірлеушіден арнайы бағдарлама.
Google Text Recognition API - суреттер мен бейне ағындардағы мәтінді анықтау және ондағы мәтінді тану процесі.
Anyline көпплатформалы SDK ұсынады, ол әзірлеушілерге OCR функциясын қолданбаға оңай біріктіруге мүмкіндік береді. Бұл OCR кітапхана бізді тану параметрлерін баптаудың көптеген мүмкіндіктерімен және нақты қолданбалы міндеттерді шешу үшін берілетін модельдермен тартты. Айта кету керек, кітапхана ақылы және коммерциялық пайдалануға арналған.
Tesseract - түрлі операциялық жүйелер үшін ашық бастапқы коды бар OCR кітапхана.
Нopмативтi сiлтeмeлep
Диплoмдық жұмыcта кeлeci cтандаpт аттаpы пайдаланылады:
КCТ жoбалаy құжаттамаcы үшiн 2.105-95 бipыңғай жүйeci. Мәтiндiк құжаттаp үшiн жалпы талаптаp;
КCТ 7.1-84 ақпаpат, кiтапxана жәнe баcпа cтандаpттаpы. Құжаттың библиoгpафикалық cипаттамаcы. Жалпы epeжeлep мeн нopмалаp;
КCТ 7.9-95 ақпаpат, кiтапxана жәнe баcпа cтандаpттаpы.
Жиынтық жәнe дepeкciз. Жалпы талаптаp;
КCТ 8.417-81 бipлiк мeмлeкeттiк жүйeciн қамтамаcыз eтy мақcатында. Дeнe бipлiк;
КCТ 15.011-81 дамытy жәнe жаңа өнiмдepдi eнгiзy. Патeнттiк зepттeyлep тәpтiбi
КCТ 9327-60 қағаз жәнe қағаз өнiмдepi. Тұтынy фopматтаpы
Мазмұны
Кіріспе 5
Ақпараттық технологиялар саласындағы мәтінді тану теориясына жалпылама шолу 8
1.1. Мәтінді тану теориясының тенденциясы 8
1.2. Мәтінді тану теориясына ғылыми шолу және оның даму тарихы 12
Символдарды тану әдістері 15
2.1. Символдарды оптикалық тану технологиясы 16
2.2. Персептрон әдісі арқылы мәтінді тану 20
2.3. Символдарды тану үшін Хэммминг метрика әдісі 22
2.4. Нейрондық желі арқылы символдарды тану 26
2.5. Виола-Джонс әдісі ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... .28
Мәтінді тану бағдарламалары 30
3.1. Графикалық мәтінді тануға арналған бағдарламалар 30
3.2. Символдарды тану жүйелерінің мүмкіндіктерін салыстырмалы талдау. 38
Қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін тану бағдарламасын жүзеге асыру 42
4.1. Графикалық мәтінді тану комплексін құру жолы 42
4.2. Бағдарламаның жұмыс жасау принципі 49
Қорытынды 53
Пайдаланылған әдебиеттер 55
Кіріспе
Соңғы жылдары бейнелерді тану күнделікті өмірде көбірек қолданылады. Сөйлеуді және қолжазба мәтінін тану адамның компьютермен өзара іс-қимылын едәуір жеңілдетеді, баспа мәтінін тану құжаттарды электрондық нысанға аудару үшін пайдаланылады.
Толыққанды суреттерді тану ерекше атап өту керек. Осы бөлімнің қолда-нылу саласы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау көбінесе жарамсыз деп танылған тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда да қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аймағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Дегенмен, компьютерлердің көмегімен суреттерді интеллектуалды талдау мүмкіндігі жақсы қалады. Құжаттар мен мәтіндердегі әріптер мен сандарды танудағы, сондай-ақ арнайы түрдегі бейнелерді талдаудағы табыстарды ғана сеніммен атап өтуге болады. Зерттеу бір онжылдықта емес, әмбебап әдістерге ие болғанша, текстураларды тану сияқты сала.
Тану әдістерін іске асыру криминалистикада, медицинада, әскери істе пайдалануға арналған автоматтандырылған жүйелерде қажет.Толыққанды суреттерді тану ерекше атап өту керек. Осы бөлімнің қолданылу саласы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау көбінесе жарамсыз деп танылған тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда да қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аймағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Дегенмен, компьютерлердің көмегімен суреттерді интеллектуалды талдау мүмкіндігі жақсы қалады. Құжаттар мен мәтіндердегі әріптер мен сандарды танудағы, сондай-ақ арнайы түрдегі бейнелерді талдаудағы табыстарды ғана сеніммен атап өтуге болады. Зерттеу бір онжылдықта емес, әмбебап әдістерге ие болғанша, текстураларды тану сияқты сала.
Бейнелерді тану міндеті жүйенің кіруіне берілген суреттің кейбір сипатта - масын алуға немесе бұл суретті белгілі бір класқа жатқызуға мүмкіндік беретін әдістерді қолдану болып табылады. Тану рәсімі кейбір бейнеге қолданы-лады және оны кейбір абстрактілі сипаттамаға түрлендіруді қамтамасыз етеді: сандар жиынтығы, символдар тізбегі немесе бағандар. Мұндай сипаттаманы кейінгі өңдеу бастапқы суретті бірнеше сыныптардың біріне жатқызуға мүмкіндік береді.
Бірақ бірқатар қиындықтар мен проблемалар туындайды. Көбінесе бұл бейнелердің күрделі фонда немесе ЭТАЛОН бейнесінде көрсетілуіне және кіріс бейнелерінің көру өрісіндегі жағдайымен ерекшеленуіне байланысты немесе кіріс бейнелері кездейсоқ кедергілер есебінен эталондарға сәйкес келмейді. Қазіргі заманғы мәтінді тану технологиялары жұмыс істейдіжоғары баспа құжаттары үшін өте жақсырұқсатпен. Салынған мәтінді танукүрделі фоны бар суреттер мәтіннен басқа нысандар - ағаштар, үйлер бар,адамдар және т. б.) әлі де қиын шешілетін міндет.Арнайы OCR бағдарламалары баркоммерциялық өнім ретінде қол жетімдіжоғары сканерленген құжаттарды танутаңбаларды тану және
қолжазба рәміздер . Бірақ бұл бағдарламалар әдетте,көптеген қоршаған суреттер үшін қол жетімді емесортаның. Бұл келесі қиындықтарға байланысты,
бейнедегі мәтінді тану кезінде пайда болатын: сурет ажыратымдылығы төмен,
күрделі және құрылымдалған фон, бұл символдар мен фон арасындағы сенімді айырмашылық болуы мүмкін, әр түрлі мәтіндік шрифттар мен өлшемдер.
Бейнелердегі объектілерді тану міндеті тану міндеттерінің ішіндегі ең өзекті мәселелердің бірі болып табылады. Мұндай міндеттерді сапалы шеше білу маңызды мәтіндерді тану, саусақтардың іздерін салыстыру, қорғау жүйелері, жылдамдықты арттырғаны үшін айыппұлдарды автоматты түрде жазу жүйелері және т.б. көптеген пәндік салалар бар. Тану ең күрделі процесс, өйткені бейнені алдын ала өңдеу әдістерімен тығыз байланысты. Көбінесе тану сапасы бейнені енгізу процесінен бастап және объектінің белгілерін қалыптастырумен аяқталатын көптеген процестердің тиімділігіне байланысты. Тану кезінде ең маңызды міндет объектіні кейіннен сәйкестендіру үшін дескриптор-объектінің қасиеттерін сипаттау міндеті болып табылады. Техникалық жүйелер өнеркә - сіптің көптеген салаларында, сыртқы түрі бойынша әр түрлі бөлшектер мен бұйымдарды бақылау және бракқа шығару, өңдеу станоктарын конвейерлерден бөлшектермен тиеу, бөлшектер мен дайындамаларды, оның ішінде конвейер бойынша ретсіз қозғалатын немесе ыдыста үйіп түсетін бөлшектер мен дайындамаларды сұрыптау және кассеталарға бағдарланған салу, тораптарды құрастыру және жинақтау, электрондық тораптарды монтаждау, техникалық өлшеу жүйелері, медициналық диагностикалық жүйелер сияқты операцияларда кеңінен және табысты қолданылады. Тану міндетімен тікелей объектілерді сәйкестендіру міндеті пайда болады - тану процесінен алынған барлық ақпаратты объектіні жіктеу мақсатында біртұтас тұтастыққа біріктіруден тұратын айырумен тығыз байланысты процесс. Объектілерді автоматты тану үлкен практикалық мәнге ие. Ол алғаш рет қолжазба сандарды машинамен оқу үшін қолданылды
Жұмыстың мақсаты. Дипломдық жұмыстың мақсаты қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін танитын бағдарламалық қосымша құру.
Қойылған мақсатқа қол жеткізу үшін келесідей негізгі мәселелер шешілді:
1) графикалық танудың Swift бағдарламасында жасалу үлгісі көрсетілді;
2) ақпараттық технологиялар саласында қазақ тіліндегі графикалық танитын қосымшаның құрылымын дамыту;
3) басқа бағдарламаларға қарағанда ерекшелігі тегін түрде жұмыс жасау ;
Жұмыстың өзектілігі. жасалған жүйе бойынша кез-келген графикалық мәтіндерді танып, жұмыс жасауды жеңілдету.
Зерттеу әдістері. пайдаланушыларға OCR-тану бағдарламалары туралы түсінік алуға көмектесубағдарламаның мүмкіндіктерімен танысу, тануды үйрету
сканерленген мәтін, оны Word-ға жіберу және өңдеу.
Ғылыми жаңалығы. Дипломдық жұмыста ғылыми жаңалықтармен сипатталатын келесі нәтижелер алынды:
1) алғаш қазақ тіліндегі графикалық мәтіндерді танитын бағдарламалық қосымша құру;
2) символдарды оптикалық тану жүйесін құру үшін қолданыстағы бағдарламалық құралдарды қарастыру;
3) олардың кемшіліктерін анықтау үшін осы әдістерге негізделген баспа символдары мен бағдарламалық шешімдерді тану бойынша қолданыстағы әдістерді зерделеу және талдау;
Жұмыстың практикалық құндылығы. Жүргізілген зерттеулер нәтижесінде бағдарламалық комплексте жүзеге асырылған, бағдарламалық қосымша құрудың теориялық негізі даярланды. Модельдер мен алгоритмдер түрінде алынатын нәтижелер пайдаланушының бағдарламалық қосымшаны оңай әрі тегін түрде пайдалануы болып табылады.
Осы дипломдық жұмыс қазіргі таңдағы актуалды мәселелерді шешуге, сондай-ақ қазақ тіліндегі графикалық тану жүйесін тікелей дамытуға арналған. Сонымен қатар, Swift бағдарламалық ортасының қысқаша құрылымдық сипаттамасы жəне ол ортада жұмыс жасау əдістері қарастырылған.
Ақпараттық технологиялар саласындағы мәтінді тану теориясына жалпылама шолу
Бұл тарауда тану теориясының бір бөлігі мәтінді танудың ақпараттық технологиялар саласндағы алатын жалпылама орны мен оның даму негізі қарастырылады. Мәтінді тану саласының қалыптасу жолы және оның негізінде алынған нәтижелер зерттеліп, сипатталды. Ақпараттық технологиялар саласында қолдану үшін мәтінді тану теориясы негізінде қолдануға болатын бағдарламалық жасақтамалар ұсынылып, олардың ерекшеліктері көрсетіледі.
Интернеттің дамуымен қағазға басылған кітаптарды, брошюраларды, бланкілерді және әр түрлі құжаттарды электрондық нысанға өзгерту кеңінен қолданыла бастады. Ол үшін сканерлер сияқты құрылғылар қолданылады.
Сканер сканер сканерленетін қағаз беттердің барлық мазмұны - суреттері, мәтіні (қолжазба, машинамен басылған немесе баспа), кестелері және т. б. бар дәл көшірмесін жасайды.
Кейде мұндай түрлендіру құжаттарды электрондық түрде сақтау үшін жеткілікті. Бірақ көбінесе сканерленген құжаттарда жасау мүмкін емес мәтінді редакциялау мүмкіндігі болуы қажет (өйткені ондағы мәтін - бұл суреттің бөлігі).
Суреттен мәтінді шығару тапсырмасын шешу үшін. символдарды оптикалық тану бағдарламаларын қолданады (OCR - ағылш. (optical character recognition).
OCR бағдарламалары жиі сканермен байланыстыруда жұмыс істейді. Сканер бет суретін жасайды, OCR бағдарламасы осы суреттен мәтінді шығарады (рас, бұл операция кезінде беттің қалған барлық безендірілуі жоғалады).
Мәтінді сурет ретінде тек сканерлерден ғана емес, кез келген жерден алуға болады (мысалы - көшедегі баспа хабарландыруынан). Ол үшін фотоаппарат немесе фотокамера жеткілікті.
Мәтінді бір тілден басқа тілге аудару қажет болған кезде жиі мәтін шығару қолданылады.Кейбір OCR бағдарламалары мәтін шығару және аударма функцияларын біріктіреді.
Символдарды оптикалық тану мәтінді редакциялауға, сөздерді немесе фразаларды іздестіруге, мәтінді жинақы түрде сақтауға, сапасын жоғалтпай материалды көрсетуге немесе басып шығаруға, ақпаратты талдауға, сондай-ақ мәтінге электрондық аударманы, форматтауды немесе сөзге түрлендіруді қолдануға мүмкіндік береді. Әдетте OCR бағдарламалары мәтін баспаханалық жолмен басылған және қапрғазбен айқын контрасты (мысалы. ақ қағаздағы қара түсті мәтін).
Мәтін көп түсті фонда таңбада орналасқан кезде, немесе мәтін машинамен басылған, немесе баспаханалық, бірақ өте ескі. Тану сапасын, сондай-ақ, бағамдық және асты сызылған шрифттар сияқты, қаралатын құжаттарда пайдаланылатын шрифттар қоспасын да төмендетеді.Жалпы алғанда, қолжазба мәтінін тану және шығару. Қазіргі уақытта бұл тапсырманы қанағаттанарлық орындаған OCR бағдарламасы табылуы екіталай.Бұл шолуда мәтінді тану бағдарламаларының кейбірі бар [1].
1.1 Мәтінді тану теориясының үрдістері
Графикалық мәтіндерді тану - қолжазба, машинамен басылған немесе баспа мәтіндерінің бейнелерін компьютерде (мысалы, мәтіндік редакторда) символдарды көрсету үшін қолданылатын мәтіндік деректерге механикалық немесе электрондық аудару. Тану кітаптар мен құжаттарды электрондық түрге түрлендіру үшін, бизнестегі есепке алу жүйесін автоматтандыру үшін немесе Веб-беттегі мәтінді жариялау үшін кеңінен қолданылады. Символдарды оптикалық тану мәтінді редакциялауға, сөздерді немесе сөздерді іздестіруді жүзеге асыруға, оны ықшам түрде сақтауға, сапасын жоғалтпай материалды көрсетуге немесе басып шығаруға, ақпаратты талдауға, сондай-ақ мәтінге электрондық аударманы, форматтауды немесе сөзге түрлендіруді қолдануға мүмкіндік береді. Электрондық құжаттар мәтінді оптикалық тану бейнелерді тану, жасанды интеллект пен компьютерлік көру салаларында зерттелетін проблема болып табылады. Толық бейнелерді тануды қолдану аймағы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақы - лау ақауды кесетін тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аумағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді.Таңбаларды тану-мәтіндік ақпаратты графикалық деректер форматтарынан мәтіндік деректер форматтарына түрлендіру опера - ция - сы. Мәтіндерді баспа немесе қолжазба материалдарын сканерлеу арқылы компьютерге енгізу үшін қолданылады.
Мәтінді тану бейнелерді тану бағыттарының бірі болып табылады. Бейнелерді тану теориялық және практикалық ойларда өте күрделі міндет болып табылады, онымен көптеген тірі организмдер мен адамдардың оңай жеңе алатынына қарамастан. Бұл процесті тиімді орындау үшін жасанды жүйені құру және оны техникалық іске асыру өте қиын. Бұл жағдайда тану деп объектінің бейнесінің, оның бейнесінің, белгілер жиынтығының объектінің өзіне арақатынасы түсініледі [2].
Бейнелерді тану жүйелерінің мысалдары мен қосымшалары мәтінді жалпы және оның жекелеген нышандарын тану, сөзді, адам тұлғасын, адамның биометриялық деректерін, өнімдердің штрих-кодтарын, машиналар мен т.б. нөмірлерін тану болып табылады. Мәтінді тану мысалдары мыналар болып табылады: мәтіннің бейнелерін (сканерленген кітаптар, мақалалар, журналдар) одан әрі сандық аналогпен жұмыс істеу үшін цифрлау, сауалнамалық бланкілерді өңдеу, нысандар мен т.б. жазбалардың нөмірлері мен нөмірлерін тану. Мәтінді тану жүйесі кіруде мәтіні бар суреттің (графикалық файлдың деректер форматында) болуын болжайды. Жүйенің шығуында осы бейнеден бөлінген мәтін қалыптасуы керек.
Қазір интернетте қолайлы ақпаратты табуға болады, бірақ бұл ақпарат кітапта болған кезде не істеу керек, ал мәтінді қолмен таңдау керек емес пе? Өйткені, алынған материалды бірден сканерлеу, электрондық түрге ауыстыру керек. Содан кейін ДК жылжыту, мәтінді тану бағдарламасын табу, қалған қателерді қолмен өңдеу. Және бұл қиын. Кәсіби мамандарға сеніңіз, ауладағы жаз, ал бізбен жұмыс. Тану үшін жақсы бағдарламаны табу оңай емес, негізінен, Егер бағдарлама жақсы болса, коммерциялық негізде. Біз кітаптарды, фотосуреттерді, бейнелері бар мәтінді, түрлі форматтағы баспа парақтарын танимыз. Мәтінді теру процедурасынан өтіп - қағаздан компьютерге.
Мәтінді оптикалық тану-мәтінді мәтіндік таңбаларға аудару. Тану мәтінді жариялау үшін жиі қолданылады. Бұл ретте мәтінді редакциялауға, деректерді талдауға, сөзді немесе сөйлемді іздеуге, мәтінге форматтауды, электрондық аударманы қолдануға болады.Мәтінді тану жүйесі суреттерде бейнеленген әр түрлі қаріптермен, символдармен жұмыс істеу үшін бапталуы тиіс; бағандарды, суреттерді және басқа да компоненттерді қоса алғанда, мәтінді бастапқы пішімдеуді қалпына келтіруге тиіс.100% мәтінді тану-99% сканерленген материалдың нақты бейнесі және 1% адамның қолмен өңдеуі. Сондай-ақ, жақсы сапалы қолжазба мәтінін да тануға болады [3].
Символдарды тану кезінде екі салыстыру әдісі қолданылады: белгілер мен үлгімен.Мәтінді тануды қиындататын нәрсе:
- кір және дақ;
- бет дұрыс емес;
- суреттердегі мәтін;
- көп беттік құжаттар;
- тарспециалды сөздер;
- кестелер;
- түсті фон немесе сурет;
- Математикалық, химиялық формулалар;
- ұсақ сәндік қаріптер.
OCR мәтінін тану бағдарламасы тек сұр түсті градациялардағы бейнелермен және түрлі-түсті диаграммалармен ғана жұмыс істейді, суреттер танымайды. Қиғаш немесе жоғары аяқпен орналасқан мәтін мәтін мәтін мәтін бойынша қатаң көлденең орналасқан қателері бар үлкен дәрежемен анықталады.
ABBYY OCR мәтінді тану технологияларының Жоғары сапасы қағаз құжаттардың (сканердің, фотосуреттердің) және кез келген түрдегі PDF-құжаттардың өңделетін форматтарға дәл айырбасталуын қамтамасыз етеді. Қазіргі заманғы OCR-технологияларды қолдану кез келген құжаттармен жұмыс істеу кезінде көп күш пен уақытты үнемдеуге мүмкіндік береді. ABBYY FineReader OCR бірге сіз қағаз құжаттарды сканерлеуге және оларды өңдеуге болады. Сіз кітаптар мен журналдардан дәйексөздер алып, оларды қайта баспаусыз пайдалануға болады. Сандық фотокамералар мен ABBYY FineReader OCR көмегімен сіз бірден көрген постерді, баннерді, сондай-ақ құжаттың немесе кітаптың суретін жасай аласыз. Сонымен қатар, ABBYY FineReader OCR іздеу мүмкіндігі бар PDF құжаттар мұрағатын жасау үшін пайдалануға болады.
Бұл міндетті шешу үшін шартты түрде үш санатқа бөлуге болатын бірқатар Алгоритмдер қолданылады:
-үлгіні салыстыруға негізделген Алгоритмдер;
-шешім теориясының әдістеріне негізделген Алгоритмдер;
-нейрондық желілерді қолданатын Алгоритмдер.
Жоғарыда аталған алгоритмдердің барлық топтары, тұтастай алғанда, бірдей құрылымы бар және мұндай блоктарды қамтиды:
-болашақта жүйе танылатын бейнелер жиынтығындағы жүйені оқыту блогы. Оқу аяқталғаннан кейін оның нәтижелері сақталады;
-оқыту кезеңінде алынған ақпаратты пайдалана отырып тану блогы бейтаныс бейнені белгілі бір математикалық аппараттың (классификатордың) көмегімен сыныптардың біріне жатқызады. Мысалы, бұл әдіс, оның қатаңдығына (қаріпке, масштабқа, символдардың көлбеуіне) байланысты осы міндетті жалпы шешу үшін сәйкес келмейді, алайда өзінің қарапайымдылығына, аз ресурсты сыйымдылығына, аз есептеуіш шығындарына байланысты олар белгілі бір модификациялары бар жеке тану есептерін шешу кезінде жиі пайдаланылады .
Жасанды интеллекттің кейбір принциптерін пайдаланатын нейрондық желілер әдісі символдарды айырудың қазіргі заманғы жүйелерінің көпшілігінде кеңінен қолданылады. Оның артықшылықтарының арасында әмбебаптықты, сондай-ақ нейросетей ерекшеліктеріне байланысты алгоритмдерді жобалауға қойылатын болмашы талаптарды ескеру қажет. Осы әдістің кемшіліктері оқыту процесін ұйымдастыру үшін қажетті есептеу ресурстарының едәуір көлемі, сондай-ақ тану нәтижелерінің нашар болжамдылығы болып табылады. Мұндай әдістердің ең үлкен артықшылығы танудың жоғары дәлдігі болып табылады.
Шешім теориясының әдістеріне негізделген Алгоритмдер оқыту процесін бірнеше рет жеңілдетеді, бірақ олардың дәлдігі нейрожелілік алгоритмдердің дәлдігінен едәуір төмен. Осы алгоритмдердің маңызды артықшылығы векторлық формада (сипаттамалар жиынтығы түрінде) символдарды ұсыну болып табылады, ал нейрожелілік алгоритмдердің көпшілігі растрлық бейнемен жұмыс істейді. Шешім теориясының кейбір классификаторларын пайдаланған кезде тану нәтижелерінің жоғары болжамдылығына қол жеткізуге болады.
Бұдан әрі баламалы тану алгоритмін құру үшін пайдаланылатын жоғарыда сипатталған алгоритмдердің кейбір блоктары егжей-тегжейлі қарастырылады [4].
Мәтінді тану тақырыбы бейнелерді тану бөлімінің астына түседі. Және алдымен бейнелерді тану туралы қысқа. Бейнелерді тану немесе бейнелерді тану теориясы бұл кейбір қасиеттер мен белгілердің соңғы жиынтығымен сипатталатын заттарды, құбылыстарды, процес - - терді, сигналдарды, жағдайларды және т.б. жіктеу және иденти - фика - циялау негіздері мен әдістерін дамытатын информатика және аралас пәндер бөлімі. Сондай-ақ, екі негізгі бағытты атап өтуге болады.
Тірі тіршілік ететін тану қабілетін зерттеу, оларды түсіндіру және модельдеу;
Қолданбалы мақсатта жеке есептерді шешуге арналған құрылғыларды тұрғызу теориясы мен әдістерін дамыту.
1.1-сурет. Оптикалық символдарды тану принципі
1.2 Мәтінді тану теориясына ғылыми шолу және оның даму тарихы
Тану теориясының даму процессі бірнеше кезеңдерден өткен. Олардың әрқайсысының өз кезеңдеріне сипаттаманы ашып көрсетуге болады. Төменде даму проесстері жал бойынша жіктеліп сипатталады.
Густав Таукек Германияда мәтінді оптикалық тану әдісіне патент алды, одан кейін Гендель, 1933 жылы АҚШ-та өз әдісіне патент алды. 1935 жылы Таушек өз әдісіне АҚШ патентін алды. Таушек машинасы үлгілер мен фотодетекторды пайдаланған механикалық құрылғы болды.
1950 жылы Дэвид Х. Шепард, Құрама Штаттардың Қарулы Күштерінің қауіпсіздік агенттігінен криптоаналитик, баспа хабарламаларын компьютерді өңдеу үшін машиналық тілге түрлендіру міндетін талдап, осы тапсырманы шешетін машина құрастырды. Ол АҚШ патентін алғаннан кейін, ол бұл туралы "Вашингтон Дэйли Ньюз" (27 сәуір 1951) және "Нью-Йорк Таймс" (26 желтоқсан 1953) хабарлады. Содан кейін Шепард символдарды оптикалық танудың әлемде алғашқы коммерциялық жүйелерін шығарған зияткерлік машиналарды әзірлейтін компанияны құрды.
Бірінші коммерциялық жүйе "Ридерс Дайджест" 1955 жылы орнатылды. Екінші жүйе чектермен жұмыс істеу үшін несие карталарын оқу үшін "Стандарт Ойл" компаниясына сатылды. Шепарда компаниясы беретін басқа жүйелер 1950 жылдардың соңында сатылды, соның ішінде АҚШ-тың ұлттық әуе күштеріне арналған сканер, машинкамен басылған хабарламаларды телетайп арқылы оқуға және беруге арналған. IBM кейінірек Шепард патенттерін пайдалануға лицензия алды [5].
"Ридерс Дайджест" және "Ар-Си-Эй" жарнамалық хабарландырулардан оралған "Ридерс Дайджест" купондарының сериялық нөмірлерін цифрлауға арналған мәтінді оптикалық тануды пайдаланатын құжаттарды оқуға арналған машинаны құру мақсатында ынтымақтастықты бастады. Құжаттарды оқуға арналған Машина тікелей RCA 301 (алғашқы жартылай өткізгіш компьютер) компьютерімен жұмыс істеді. Машина жұмысының жылдамдығы минутына 1500 құжат болды: ол әр құжатты тексеріп, оны дұрыс өңдей алмаған.
Құрама Штаттардың пошта қызметі поштаны сұрыптау үшін зерттеуші Яков Рабиновпен әзірленген технологиялар негізінде жасалған мәтінді оптикалық тану принципі бойынша жұмыс істейтін машиналарды пайдаланады. Еуропада мәтінді оптикалық тану машинасын пайдаланатын бірінші ұйым Британ поштасы болды. Канада поштасы таңбаларды оптикалық тану жүйесін пайдаланады. Бірінші кезеңде символдарды оптикалық тану жүйесін сұрыптау орталығында алушының аты мен мекен-жайын оқып, конвертте штрих-кодты басып - - - - - шығарады. Ол ультракүлгін жарықта анық көрінетін арнайы сиямен жағылады. Бұл конвертте кез келген жерде болуы мүмкін адам толтырылған мекен-жай өрісі бар шатастырмау үшін жасалады [6].
Рэй Курцвейл "Курцвейл компьютер Продактс" компаниясын құрды және кез келген шрифтпен басылған мәтінді тануға қабілетті символдарды оптикалық танудың бірінші жүйесін дамыту бойынша жұмыс істей бастады. Курцвейл бұл технологияны ең жақсы қолдану -- соқыр адамдарға мәтінді дауыстап оқи алатын компьютер алуға мүмкіндік беретін соқырларға арналған оқу машинасын жасау деп санайды. Бұл құрылғы мәтінді сөзге түрлендіретін планшеттік сканер мен синтезатордың бірден екі технологиялы өнертабысын талап етті. Соңғы өнімді Курцвейл және Ұлттық зағиптар федерациясының басшылары басқаратын баспасөз конференциясы кезінде ұсынылды.
"Курцвейл Компьютер Продактс" компаниясы символдарды оптикалық тану компьютерлік бағдарламасының коммерциялық нұсқасын сатуды бастады. Екі жылдан кейін Курцвейл өз компаниясын "Ксерокс" корпорациясына сатты, ол мәтінді тану жүйелерін одан әрі коммерцияландыруға мүдделі болды. "Курцвейл Компьютер Продактс" "Скансофт" ретінде танымал "Ксерокс" еншілес компаниясы болды.
Кириллицаны танитын алғашқы коммерциялық табысты бағдарлама ресейлік "ОКРУС" компаниясының "AutoR" бағдарламасы болды, DOS операциялық жүйесінің басқаруында жұмыс істеді және 4,77 МГц тактілік жиілігі кезінде Intel 8088 процессоры бар IBM PCXT дербес компьютерлерінде де жылдамдық пен сапа жағынан қолайлы тануды қамтамасыз етті. 90-шы жылдардың басында Hewlett-Packard компаниясы өз сканерлерін "AutoR" бағдарламасымен бірге ресейлік нарыққа жеткізді. "AutoR" алгоритмі жинақы, жылдам және толық көлемде "интеллектуалды", яғни шын мәнінде шрифттан тәуелді болды. Бұл алгоритмді екі жас биофизика, МФТИ түлектері - Г.М.Зенкин және А.П.Петров жасады және сынақтан өтті. Олар өз тану әдісін "Биофизика" журналында жариялады. Қазіргі уақытта Зенкин-Петров алгоритмі графикалық символдарды тану міндетін шешетін бірнеше қолданбалы жүйелерде пайдаланады. Алгоритм негізінде Paragon Software Group компаниясы құрылды. Г.М.Зенкин Paragon Software Group компаниясында PenReader технологиясы бойынша жұмысты жалғастырды. Технология компанияның аттас өнімінде қолданылады [7].
Ресейлік ABBYY компаниясының мәтіндерін тану технологиясы шықты. Оның негізінде жаппай пайдаланушылар үшін бірқатар корпоративтік шешімдер мен бағдарламалар құрылды. Атап айтқанда, ABBYY FineReader мәтіндерін тануға арналған бағдарлама, ұялы құрылғылардан мәтіндік ақпаратты тануға арналған қосымшалар, ABBYY FlexiCapture құжаттар мен деректерді ағындық енгізу жүйесі. ABBYY OCR мәтіндерін тану технологиясы Fujitsu, Panasonic, Xerox, Samsung, EMC және т.б. сияқты халықаралық ат компанияларын лицензиялайды [8].
Мәтінді тану мысалдары мыналар болып табылады: мәтіннің бейнелерін (сканерленген кітаптар, мақалалар, журналдар) одан әрі сандық аналогпен жұмыс істеу үшін цифрлау, сауалнамалық бланкілерді өңдеу, нысандар мен т.б. жазбалардың нөмірлері мен нөмірлерін тану. Мәтінді тану жүйесі кіруде мәтіні бар суреттің (графикалық файлдың деректер форматында) болуын болжайды. Жүйенің шығуында осы бейнеден бөлінген мәтін қалыптасуы керек.
Мәтінді тану келесі тапсырыстарды және ішкі үрдістерді қамтиды:
1. Жүйенің кіруіне түсетін кескін шудан тазартылып, символдарды тиімді бөліп алуға және оларды тануға мүмкіндік беретін түрге келтірілуі тиіс.
2. Жүйе бірнеше бағандар бойынша түзету және бөлу ерекшеліктеріне негізделе отырып, суретті мәтін блоктарына бөлуі тиіс.
3. Мәтінмен сурет жолдар бейнелеріне, одан кейін әрбір таңбаны бөлек өңдеу үшін символдардың бейнелеріне бөлінуі тиіс. Осы қадамнан кейін әртүрлі тану жүйелері өзінің арнайы алгоритмдері бойынша жұмыс істейді.
4. Таңбаның бейнесі тұтастай өңделуі мүмкін, ол бар үлгілермен салыстырылады. Басқа нұсқа бейнеленетін символдың сипаттамаларын бөлу болып табылады: сипатты белгілерді іріктеу және осы белгілерді жүйеде бар өлшемдер бойынша жіктеу.Төртінші қадамның шығуында әріптің мүмкін нұсқасы пайда болады. Алайда, әдетте бұл жүйелер тоқтамайды және алынған нәтижені нақтылай отырып, басқа әдістердің негізінде жұмысын жалғастырады.
5. Тану нәтижесі қанағаттанарлық емес болуы мүмкін. Жақсы нәтижелер алу үшін жүйеде оқу блогы кіріктірілуі мүмкін. Осы блоктың көмегімен жүйеге әр түрлі әріптерді осы шрифтпен сызу мысалдарын орнатуға болады. Оқу процесінен кейін мәтінді тану жақсы сапасы болжанады. Мәтінді тану жүйесі барлық сипатталған қадамдарды әрдайым ұстануға тиіс емес, бірақ тану процесінің негізгі әрекеттері кез келген алгоритм үшін ортақ болып табылады [9].
2. Символдарды тану әдістері
Бұл тарау барысында графикалық мәтінді тану әдістері жеке-жеке толық сипатталады. Қолданыстағы тану әдістері жеке ерекшеліктері мен кемшілік-теріне байланысты өзара салыстырылады. Нәтижесінде тиімді бағдарламалық қамтама мен тану әдістері таңдалынып, қызметі жағынан қарастырылады.
2.1 Символдарды оптикалық тану технологиясы
Символдарды оптикалық тану технологиясы мәтінді тану үшін бірнеше түрлі кезеңдерден өтеді. Алдымен сканерленіп, содан соң сегментация процессі жүреді. Келесіде фильтрация және өңдеу орын алады.
Компьютерлік баспа жүйелерін пайдалану кезінде OCR-ге қойылатын негізгі технологиялық талаптар:
-жеке таңбалардың басы мен аяқталуын анықтай білу, өйткені сканердің өзі суретті тек цифрлайды және көптеген шрифттар пропорционалды болып табылады;
-құжаттарды полиграфиялық ресімдеу кезінде пайдаланылуы мүмкін гарнитуралардың, кегльдердің, шрифттардің сызбаларының үлкен ауқымымен жұмыс істеу мүмкіндігі;
-әртүрлі сападағы түпнұсқалармен (оның ішінде баспаханалық тәсілмен немесе лазерлік принтерде жасалған) жұмыс істеу мүмкіндігі);
-көп жолақты мәтінді тану мүмкіндігі;
-кестелер мен суреттері бар мәтінді тану мүмкіндігі;
-айырудың жеткілікті жоғары шынайылығы (кемінде 90-96 %).
OCR бағдарламаларының оқитын пакеттері алғашқы әзірлемелердің көпшілігін құрады. Мұндай пакеттер кез-келген гарнитураның кез-келген символдарын тануды теориялық үйренеді. Нақты гарнитура бағдарламасын оқыту үшін эталондық бейнені сканерлеу қажет. Бұл өте ұзақ процедура, алайда, егер бұл гарнитура үнемі пайдаланылса, оқуға бірнеше сағат жұмсауға тұрарлық. Мұндай түрдегі бағдарламалар әрбір жеке бет символын оқу процесінде құрылған анықтамалық кестелердегі символдармен салыстырады, бұл ретте мәтіндік файлды құрайды. Бұл бағдарламаның жұмысын жақсартуға, оны құжатта пайдаланылатын гарнитуралардың барлық символдар жинағына үйретуге болатынын білдіреді. Бағдарлама енді әрбір символдың нысанын білетіндіктен, форманы табу бойынша ең аз жұмыс істеуінен қате ықтималдығы азаяды[10].
OCR зияткерлік пакеттері оқытуды қажет етпейді және пайдаланылатын гарнитураға қарамастан символдар түрлерін түсіндіре алады. Бұл бағдарламалардың жұмысы үлкен әсер етеді: құжат сканер арқылы өткізіледі, нәтижесі мәтіндік файл бере отырып, OCR интеллектуалды бағдарламасымен өңделеді. А4 форматының беті үшін барлық рәсім бір минуттан артық уақыт алады. Жоғары дәлдікпен бұл қолмен енгізу жылдамырақ.
Бір минут ішінде зияткерлік пакет көлемі 1200 таңбалы мәтінді сканерлеуге және тануға мүмкіндік береді. Бұл ретте жасалған мәтіндік файлда әдетте екі қате таңбадан артық емес -- 99.83% тану шынайылығы бар. Мұндай пакеттердің кемшіліктері арасында мыналарды атап өткен жөн. Олардың кейбіреулері нақты гарнитураларды оқуға оқи алмайтындықтан, тиісті икемділіктің болмауы оларға ерекше түрдегі гарнитураларды тануға мүмкіндік бермеуі мүмкін.
Жұмыстың түпкі нәтижесі пакетін OCR қарамастан, оның типін білдіреді, файл форматы ASCII (немесе ANSI), ал кейбір жағдайларда тіпті отформатированный файл үшін осындай танымал мәтіндік процессорлар Microsoft Word. Жаңа бағдарламалар бір файлға бірнеше тізбекті беттердің мәтінін жазып, уақытты үнемдеуге мүмкіндік береді. Сонымен қатар, жеке парақтарды автоматты түрде беру механизмі бар Сканерді пайдалану көп бетті құжатты үздіксіз енгізуді ұйымдастыруға мүмкіндік береді.
OCR бағдарламаларының жұмыс сапасы бірқатар негізгі факторларға байланысты:
-түпнұсқаның ең жақсы сапасы қажет. Сапасыз суреттер жағдайда зияткерлік пакеттер бірдеңе жасауға тырысады, бірақ нәтиже Сізді таң қалдырады. Оқитын бағдарламалар көп жағдайда ғана жұмыс істемейді;
-ең жақсы нәтижелерге қол жеткізу үшін шамамен 600-800 нүктені дюймге ажыратумен бейнелерді цифрлау қажет, бұл символдардың жиектерін жоғары дәлдікпен анықтауға мүмкіндік береді және OCR бағдарламасын жеке әріптердің пішінін айыруды жеңілдетеді;
-жоғары өнімді жабдықты пайдалану қажет. Символдарды оптикалық тану процесінде үлкен деректер массиві жасалады. Табысты жұмыс істеу үшін бағдарламалар OCR қажет қуатты компьютер үлкен көлемді жедел және дисковой жад, ол білдіреді бірге құны бағдарламалық қамтамасыз ету аз шығындар;
-ерекше гарнитурамен басылған мәтіннің үлкен көлемін енгізу қажет болса, оқитын пакетті пайдаланған дұрыс [11].
Сканерлеу технологиясы. Сканерлеу - деп аталатын арнайы құрылғының көмегімен аналогты бейнені (құжат, фотосурет, иллюстрация, слайд) цифрлау процесі. Сканерлеу түпнұсқаның негізінде компьютерлік өңдеуге жарамды оның цифрлық "портретін" алу үшін жүргізіледі.
Компьютерге графикалық бейнелерді енгізуге арналған сканер-оптико-электрондық құрылғы. Сканер құжаттың цифрланған бейнесін жасайды және оны компьютер жадына салады.
Мұрағат құжаттарымен жұмыс істеу үшін қазіргі уақытта негізінен қара-АҚ және жартылай тонды монохромды сканерлер пайдаланылады. Бұл бірінші кезекте, мұрағаттық құжаттың басым түрі жазу машинкасында немесе монохромды принтерде басылған, қолжазба толтырылған немесе қара сиямен түзету және эпизодтық баспа, суреттер, схемалар немесе қара-ақ фотосуреттерді қамтитын мәтіндік құжат болып табылатындығымен байланысты.
Алдымен беттегі мәтінді орналастыру құрылымын тану қажет: бағандарды, кестелерді, суреттерді және т.б. бөлу. Одан әрі беттің графикалық кескінінің бөлінген мәтіндік фрагменттерін мәтінге түрлендіру қажет.
Егер бастапқы құжаттың типографиялық сапасы болса (жеткілікті үлкен қаріп, нашар басылған таңбалардың немесе түзетулердің болмауы), онда тану міндеті растр үлгісімен салыстыру әдісімен шешіледі. Алдымен бет кескіні жеке таңбалардың бейнелеріне бөлінеді. Содан кейін олардың әрқайсысы жүйенің жадында бар символдардың үлгілеріне тізбектеледі және кіріс суретінен ерекшеленетін нүктелердің ең аз саны бар шаблон таңдалады. Басып шығару сапасы төмен құжаттарды тану кезінде (машинкамен басылған мәтін, факс және тағы басқа) оларда белгілі бір құрылымдық элементтердің (кесінділердің, сақиналардың, доғалардың және тағы басқа) болуы бойынша символдарды тану әдісі пайдаланылады.Кез келген таңбаны оның элементтерінің өзара орналасуын анықтайтын параметрлер жиынтығы арқылы сипаттауға болады. Мысалы, "Н" әрпі мен "және" әрпі үш бөліктен тұрады, олардың екеуі бір-біріне параллель орналасқан, ал үшіншісі осы бөліктерді қосады. Бұл әріптердің арасындағы айырмашылық-екі басқа бөлікт құрайды. Құрылымдық әдіспен тану кезінде бұрмаланған символдық бейнеде тән бөлшектер ерекшеленеді және символдардың құрылымдық үлгілерімен салыстырылады. Нәтижесінде барлық құрылымдық элементтердің жиынтығы және олардың орналасуы танылатын символға ең көп сәйкес келетін таңба таңдалады [12].
Тану процесінің мәні. Қағаз құжаттарын электрондық түрге автоматты немесе автоматты түрде аударуды жүзеге асыру үшін қағаз құжаттарын сканерлеу және олардың мазмұнын символдарды оптикалық тану жүйелері (Optical Character Recognition-OCR) деп аталатын арнайы бағдарламалардың көмегімен тану қажет. Символдарды оптикалық тану жүйелері баспа құжаттарын компьютерге автоматты түрде енгізуге арналған. OCR-жүйесінің суретін өңдеу сканермен берілген графикалық бейнені талдауды және әрбір символды тануды қамтиды.
Сегментация. Алдын ала өңдеуден кейін тану процесінде кескінді сегменттеу болады. Тағы да, анықтау кезеңі төмен болғандықтан, сегменттеу процесі үшін келесі эвристика қабылданды. Мәтіннің ұсыныстары көлденең орналасқан және бір-бірімен қиылыспайды деп болжанады. Сонда сегменттеу міндеті қиын емес. Сөздегі екі әріп арасындағы қашықтықтың орташа мәні қойылады. Осыдан кейін сурет толық ақ жолақтарды іздеу жолымен жолдарға бөлінеді. Одан әрі бұл жолақтар белгілі бір ендегі ақ жолақтарды іздеу арқылы сөздерге бөлінеді. Осыдан кейін бөлінген сөздер қорытынды кезеңге беріледі және олар әріптерге бөлінеді.Осылайша, сегментация Модулінің шығуында біз осы мәтіннің әріптері бейнеленген барлық мәтін бар [13].
2.1-сурет. Мәтінді оптикалық тану
Тікелей тану алдында сурет қалыпқа келтіріледі және алдын ала дайындалған үлгілердің өлшемдеріне дейін келтіріледі. Ары қарай тану процесі басталады. Пайдаланушы үшін екі таңдау бар, метрик және нейрондық желі арқылы.
Фильтр және өңдеу. Анықтау кезеңі түсіріліп, алдын ала өңдеу кезеңі орнатылғандықтан, сурет көбінесе былайша көрінеді.Бұл өңдеу екі сүзгішпен өңделеді. Мысты және монохромды. Қолданба қызыл компонент мәнін арттырумен өзгертілген медиа сүзгісінің нұсқасы пайдаланылды.
Медиа фильтр. Бұл сүзгі шуды азайту және әріптердің үшкір шеттерін майлау үшін қолданылады. Осыдан кейін сурет монохромды өңдейді. Яғни, анық бинаризация болады, бұл ретте әріптердің шекаралары анық белгіленеді.
Бет макетін талдау процестері:
1. тану аймағын анықтау
2. кестелерді анықтау
3. суретті анықтау
4. мәтінде жолдар мен жеке таңбаларды таңдау.
OCR-жүйелер әдеттегі шрифттарден жасалған таза бейнелер үшін 99,9% - дан жоғары танудың ең жақсы дәлдігіне (дұрыс танылған таңбалардың пайызы) жетуі мүмкін. Бір қарағанда, тану дәлдігі мінсіз болып көрінеді, бірақ қателер деңгейі әлі де артады, өйткені егер бетте шамамен 1500 таңба бар болса, онда 99,9% табысты тану коэффициенті кезінде бетке бір немесе екі қате шығады. Мұндай жағдайларда сөздік бойынша тексеру әдісі көмекке келеді. Яғни, егер сөздікте жүйе болмаса, онда ол арнайы ережелер бойынша ұқсас табуға тырысады. Бірақ бұл әлі де 100% қателіктерді түзетуге мүмкіндік бермейді, бұл адам нәтижелерін бақылауды талап етеді.
Тану дәлдігі тану қателіктері есебінен анықталады. Тану дәлдігін арттыру қателіктердің себептерін жоюға көмектеседі.Рұқсат (Resolution) - ұзындық немесе аудан бірлігіне бейне қалыптасатын нүктелер немесе растрлық ұяшықтар саны. Құрылғының ажыратымдылығы неғұрлым көп болса, ұсақ бөлшектер ойнатылуы мүмкін. "Квадрат дюйм нүктелерінде" (DPI, dots per inch) өлшенеді. Өнеркәсіптік сканерлердің типтік рұқсаты - 200-300 DPI [14].
Түстің разрядтылығы (түс тереңдігі) - сандық бейнедегі әрбір пиксельдің разрядтарының саны, соның ішінде сканермен берілетін. Сканер 2 Сан ретінде ойнайтын түстердің ең көп санын сипаттайды. Бір разрядқа қара-ақ сурет, 8-сұр жартылай тонды, 16 - түсті, 24 - түрлі түсті сурет, адам қабылдауға ең жақын (RGB моделі), 36bit және одан да көп-кәсіби жұмыс үшін арналған, ең жиі баспа ісінде жоғары шынайы түс беретін толық түсті сурет сәйкес келеді. Типтік мәндер сканерлердің әр түрлі типтері үшін әрқалай болады.
OCR жүйелері аппараттық немесе бағдарламалық іске асыруды көздейтін мынадай негізгі блоктардан тұрады:
-мәтін элементтерін сегменттеу (оқшаулау және бөлу) блогы;
-суретті өңдеу блогы;
-белгілерді бөлу блогы;
-таңбаларды тану блогы;
-тану нәтижелерін қайта өңдеу блогы.
Бұл алгоритмдік блоктар тізбектей орындалатын суреттерді өңдеу және талдау қадамдарына сәйкес келеді. Алдымен мәтіндік салаларды, жолдарды бөлу және байланыс мәтіндік жолдарды жеке таныстарға бөлу жүзеге асырылады, олардың әрқайсысы бір мәтіндік символға сәйкес келеді.Бөлшектенгеннен кейін (кейде бөлшектенуге дейін немесе процесінде) пикселдердің екі өлшемді матрицалары түрінде ұсынылған ... жалғасы
Ұқсас жұмыстар
Пәндер
- Іс жүргізу
- Автоматтандыру, Техника
- Алғашқы әскери дайындық
- Астрономия
- Ауыл шаруашылығы
- Банк ісі
- Бизнесті бағалау
- Биология
- Бухгалтерлік іс
- Валеология
- Ветеринария
- География
- Геология, Геофизика, Геодезия
- Дін
- Ет, сүт, шарап өнімдері
- Жалпы тарих
- Жер кадастрі, Жылжымайтын мүлік
- Журналистика
- Информатика
- Кеден ісі
- Маркетинг
- Математика, Геометрия
- Медицина
- Мемлекеттік басқару
- Менеджмент
- Мұнай, Газ
- Мұрағат ісі
- Мәдениеттану
- ОБЖ (Основы безопасности жизнедеятельности)
- Педагогика
- Полиграфия
- Психология
- Салық
- Саясаттану
- Сақтандыру
- Сертификаттау, стандарттау
- Социология, Демография
- Спорт
- Статистика
- Тілтану, Филология
- Тарихи тұлғалар
- Тау-кен ісі
- Транспорт
- Туризм
- Физика
- Философия
- Халықаралық қатынастар
- Химия
- Экология, Қоршаған ортаны қорғау
- Экономика
- Экономикалық география
- Электротехника
- Қазақстан тарихы
- Қаржы
- Құрылыс
- Құқық, Криминалистика
- Әдебиет
- Өнер, музыка
- Өнеркәсіп, Өндіріс
Қазақ тілінде жазылған рефераттар, курстық жұмыстар, дипломдық жұмыстар бойынша біздің қор #1 болып табылады.
Ақпарат
Қосымша
Email: info@stud.kz