Қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін оптикалық тану: Swift тілінде бағдарламалық жүзеге асыру

Жұмыс түрі: Дипломдық жұмыс
Тегін: Антиплагиат
Көлемі: 58 бет
Таңдаулыға:

«ҚАЗАҚ ТІЛІНІҢ ЛАТЫН ӘЛІПБИІНДЕГІ

ГРАФИКАЛЫҚ МӘТІНДЕРІН ТАНУ»

тақырыбына жазылған

ДИПЛОМДЫҚ ЖҰМЫС

Мамандығы 5В070300 - «Ақпараттық жүйелер»

Түйіндеме

Дипломдық жұмыс 55 беттен, 25 суреттен, 17 пайдаланылған әдебиеттер тізімінен тұрады.

Кілттік сөздер: оптикалық тану, сканерлеу, мәтіндерді тану, тану аймағы, интернет, жасанды интеллект, автоматтандырылған жүйе, тестілеу жүйелері, бағалау құралдары, графикалық мәтін.

Зерттеу нысаны: графикалық мәтіндерді тану.

Жұмыстың мақсаты: қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін танитын бағдарламалық қосымша құру.

Зерттеу әдістері: Латын әліпбиінде берілген мәтіндерді тану үшін символдарды оптикалық тану жүйелерін қолдану. Х-code бағдарламалық ортасында Swift тілін қолдану арқылы мәтіндерді кириллицаға аудару.

Қолдану аймағы: автоматты жүйелер, бағдарламалау сабақтары, нейрондық желілер, интеллектуалды жүйелер.

Жұмыстың маңыздылығы: жасалған жүйе бойынша кез-келген графикалық мәтіндерді танып, жұмыс жасауды жеңілдету.

Нәтижелері:

графикалық тану бағдарламалары толығымен зерттелді;
болашақта жасалынған жұмысты латын және киррилица әліпбиінде графикалық тануға болады;
қазіргі таңда дамып келе жатқан Swift программалық тілінің функциялары толығымен қарастырылып, қосымша жасалды.

РЕФЕРАТ

Дипломная работа состоит из 55 страниц, 25 рисунков, 17 источников.

Ключевые слова: оптическое распознавание, сканирование, распознавание текстов, область распознавания, интернет, искусственный интеллект, автоматизированная система, тестирующие системы, средства оценки, графический текст.

Объект исследования: распознавание графических текстов.

Цель работы: создание программного приложения для распознавания графических текстов казахского языка на латинском алфавите.

Методы исследования: Использование систем оптического распознавания символов для распознавания текстов, заданных на латинском алфавите. Перевод текстов на кириллицу с использованием языка Swift в программной среде Х-code.

Область применения: автоматические системы, уроки программирования, нейронные сети, интеллектуальные системы.

Значимость работы: облегчение работы по распознанию любых графических текстов по разработанной системе.

Результаты:

• полностью изучены программы графического распознавания;

• в будущем будет проводиться графическое опознавание, в каком алфавите находится казахский язык;

• в настоящее время полностью рассматриваются функции развивающегося программного языка Swift и разработаны приложения.

ABSTRACT

Diploma work consists of 55 pages, 25 pictures, 17 sources.

Keywords: optical recognition, scanning, text recognition, recognition area, Internet, artificial intelligence, automated system, testing systems, evaluation tools, graphic text.

Object of research: recognition of graphic texts.

Purpose of a work: creation of software application for recognition of graphic texts of the Kazakh language in the Latin alphabet.

Field of application: The use of optical character recognition systems for recognition of texts specified in the Latin alphabet. Translation of texts into Cyrillic using Swift language in X-code software environment.

Methods of research: automatic systems, programming lessons, neural networks, intelligent systems.

Importance of work: simplification of work on recognition of any graphic texts on the developed system.

Results:

• fully studied by optical character recognition software;

• in the future, there will be a graphical identification of the alphabet in which the Kazakh language is;

• the functions of the evolving Swift programming language are now fully explored and applications developed.

Анықтамалаp

OCR (Optical Character Recognition) - мәтіндік редакторда көрсету үшін қолданылатын кодтар тізбегіне символдың кескіндерінің бірізділігін аудару.

Abbyy FineReader - бұл осы топ ішіндегі ең сапалы және көпфункционалды софт.

OCR Cunei Form - ең функционалдық және ыңғайлы бағдарламалардың бірі.

Readiris Pro - тестті тану және редакциялау бойынша әртүрлі және тұрақты жұмысты қамтамасыз ететін тағы бір ақылы софт.

OCR Freemore - тегін таратылады және тегін софт үшін өте қолайлы, базалық функционалы бар. Жұмыс сапасы өте жоғары

Abbyy Screenshot Reader - топтағы алғашқы софт сияқты әзірлеушіден арнайы бағдарлама.

Google Text Recognition API - суреттер мен бейне ағындардағы мәтінді анықтау және ондағы мәтінді тану процесі.

Anyline көпплатформалы SDK ұсынады, ол әзірлеушілерге OCR функциясын қолданбаға оңай біріктіруге мүмкіндік береді. Бұл OCR кітапхана бізді тану параметрлерін баптаудың көптеген мүмкіндіктерімен және нақты қолданбалы міндеттерді шешу үшін берілетін модельдермен тартты. Айта кету керек, кітапхана ақылы және коммерциялық пайдалануға арналған.

Tesseract - түрлі операциялық жүйелер үшін ашық бастапқы коды бар OCR кітапхана.

Нopмативтi сiлтeмeлep

Диплoмдық жұмыcта кeлeci cтандаpт аттаpы пайдаланылады:

КCТ жoбалаy құжаттамаcы үшiн 2. 105-95 бipыңғай жүйeci. Мәтiндiк құжаттаp үшiн жалпы талаптаp;

КCТ 7. 1-84 ақпаpат, кiтапxана жәнe баcпа cтандаpттаpы. Құжаттың библиoгpафикалық cипаттамаcы. Жалпы epeжeлep мeн нopмалаp;

КCТ 7. 9-95 ақпаpат, кiтапxана жәнe баcпа cтандаpттаpы.

Жиынтық жәнe дepeкciз. Жалпы талаптаp;

КCТ 8. 417-81 бipлiк мeмлeкeттiк жүйeciн қамтамаcыз eтy мақcатында. Дeнe бipлiк;

КCТ 15. 011-81 дамытy жәнe жаңа өнiмдepдi eнгiзy. Патeнттiк зepттeyлep тәpтiбi

КCТ 9327-60 қағаз жәнe қағаз өнiмдepi. Тұтынy фopматтаpы

Мазмұны

Кіріспе5Ақпараттық технологиялар саласындағы мәтінді тану теориясына жалпылама шолу8

1. 1. Мәтінді тану теориясының тенденциясы8

1. 2. Мәтінді тану теориясына ғылыми шолу және оның даму тарихы 12

Символдарды тану әдістері15

2. 1. Символдарды оптикалық тану технологиясы16

2. 2. Персептрон әдісі арқылы мәтінді тану 20

2. 3. Символдарды тану үшін Хэммминг метрика әдісі 22

2. 4. Нейрондық желі арқылы символдарды тану 26

2. 5. Виола-Джонс әдісі . . . 28

Мәтінді тану бағдарламалары 30

3. 1. Графикалық мәтінді тануға арналған бағдарламалар 30

3. 2. Символдарды тану жүйелерінің мүмкіндіктерін салыстырмалы талдау. 38

Қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін тану бағдарламасын жүзеге асыру 42

4. 1. Графикалық мәтінді тану комплексін құру жолы 42

4. 2. Бағдарламаның жұмыс жасау принципі 49

Қорытынды 53Пайдаланылған әдебиеттер 55

Кіріспе

Соңғы жылдары бейнелерді тану күнделікті өмірде көбірек қолданылады. Сөйлеуді және қолжазба мәтінін тану адамның компьютермен өзара іс-қимылын едәуір жеңілдетеді, баспа мәтінін тану құжаттарды электрондық нысанға аудару үшін пайдаланылады.

Толыққанды суреттерді тану ерекше атап өту керек. Осы бөлімнің қолда-нылу саласы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау көбінесе жарамсыз деп танылған тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда да қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аймағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Дегенмен, компьютерлердің көмегімен суреттерді интеллектуалды талдау мүмкіндігі жақсы қалады. Құжаттар мен мәтіндердегі әріптер мен сандарды танудағы, сондай-ақ арнайы түрдегі бейнелерді талдаудағы табыстарды ғана сеніммен атап өтуге болады. Зерттеу бір онжылдықта емес, әмбебап әдістерге ие болғанша, текстураларды тану сияқты сала.

Тану әдістерін іске асыру криминалистикада, медицинада, әскери істе пайдалануға арналған автоматтандырылған жүйелерде қажет. Толыққанды суреттерді тану ерекше атап өту керек. Осы бөлімнің қолданылу саласы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау көбінесе жарамсыз деп танылған тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда да қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аймағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Дегенмен, компьютерлердің көмегімен суреттерді интеллектуалды талдау мүмкіндігі жақсы қалады. Құжаттар мен мәтіндердегі әріптер мен сандарды танудағы, сондай-ақ арнайы түрдегі бейнелерді талдаудағы табыстарды ғана сеніммен атап өтуге болады. Зерттеу бір онжылдықта емес, әмбебап әдістерге ие болғанша, текстураларды тану сияқты сала.

Бейнелерді тану міндеті жүйенің кіруіне берілген суреттің кейбір сипаттамасын алуға немесе бұл суретті белгілі бір класқа жатқызуға мүмкіндік беретін әдістерді қолдану болып табылады. Тану рәсімі кейбір бейнеге қолданы-лады және оны кейбір абстрактілі сипаттамаға түрлендіруді қамтамасыз етеді: сандар жиынтығы, символдар тізбегі немесе бағандар. Мұндай сипаттаманы кейінгі өңдеу бастапқы суретті бірнеше сыныптардың біріне жатқызуға мүмкіндік береді.

Бірақ бірқатар қиындықтар мен проблемалар туындайды. Көбінесе бұл бейнелердің күрделі фонда немесе ЭТАЛОН бейнесінде көрсетілуіне және кіріс бейнелерінің көру өрісіндегі жағдайымен ерекшеленуіне байланысты немесе кіріс бейнелері кездейсоқ кедергілер есебінен эталондарға сәйкес келмейді. Қазіргі заманғы мәтінді тану технологиялары жұмыс істейдіжоғары баспа құжаттары үшін өте жақсырұқсатпен. Салынған мәтінді танукүрделі фоны бар суреттер мәтіннен басқа нысандар - ағаштар, үйлер бар, адамдар және т. б. ) әлі де қиын шешілетін міндет. Арнайы OCR бағдарламалары баркоммерциялық өнім ретінде қол жетімдіжоғары сканерленген құжаттарды танутаңбаларды тану және

қолжазба рәміздер . Бірақ бұл бағдарламалар әдетте, көптеген қоршаған суреттер үшін қол жетімді емесортаның. Бұл келесі қиындықтарға байланысты,

бейнедегі мәтінді тану кезінде пайда болатын: сурет ажыратымдылығы төмен,

күрделі және құрылымдалған фон, бұл символдар мен фон арасындағы сенімді айырмашылық болуы мүмкін, әр түрлі мәтіндік шрифттар мен өлшемдер.

Бейнелердегі объектілерді тану міндеті тану міндеттерінің ішіндегі ең өзекті мәселелердің бірі болып табылады. Мұндай міндеттерді сапалы шеше білу маңызды мәтіндерді тану, саусақтардың іздерін салыстыру, қорғау жүйелері, жылдамдықты арттырғаны үшін айыппұлдарды автоматты түрде жазу жүйелері және т. б. көптеген пәндік салалар бар. Тану ең күрделі процесс, өйткені бейнені алдын ала өңдеу әдістерімен тығыз байланысты. Көбінесе тану сапасы бейнені енгізу процесінен бастап және объектінің белгілерін қалыптастырумен аяқталатын көптеген процестердің тиімділігіне байланысты. Тану кезінде ең маңызды міндет объектіні кейіннен сәйкестендіру үшін дескриптор-объектінің қасиеттерін сипаттау міндеті болып табылады. Техникалық жүйелер өнеркәсіптің көптеген салаларында, сыртқы түрі бойынша әр түрлі бөлшектер мен бұйымдарды бақылау және бракқа шығару, өңдеу станоктарын конвейерлерден бөлшектермен тиеу, бөлшектер мен дайындамаларды, оның ішінде конвейер бойынша ретсіз қозғалатын немесе ыдыста үйіп түсетін бөлшектер мен дайындамаларды сұрыптау және кассеталарға бағдарланған салу, тораптарды құрастыру және жинақтау, электрондық тораптарды монтаждау, техникалық өлшеу жүйелері, медициналық диагностикалық жүйелер сияқты операцияларда кеңінен және табысты қолданылады. Тану міндетімен тікелей объектілерді сәйкестендіру міндеті пайда болады - тану процесінен алынған барлық ақпаратты объектіні жіктеу мақсатында біртұтас тұтастыққа біріктіруден тұратын айырумен тығыз байланысты процесс. Объектілерді автоматты тану үлкен практикалық мәнге ие. Ол алғаш рет қолжазба сандарды машинамен оқу үшін қолданылды

Жұмыстың мақсаты. Дипломдық жұмыстың мақсаты қазақ тілінің латын әліпбиіндегі графикалық мәтіндерін танитын бағдарламалық қосымша құру.

Қойылған мақсатқа қол жеткізу үшін келесідей негізгі мәселелер шешілді:

1) графикалық танудың Swift бағдарламасында жасалу үлгісі көрсетілді;

2) ақпараттық технологиялар саласында қазақ тіліндегі графикалық танитын қосымшаның құрылымын дамыту;

3) басқа бағдарламаларға қарағанда ерекшелігі тегін түрде жұмыс жасау ;

Жұмыстың өзектілігі. жасалған жүйе бойынша кез-келген графикалық мәтіндерді танып, жұмыс жасауды жеңілдету.

Зерттеу әдістері. пайдаланушыларға OCR-тану бағдарламалары туралы түсінік алуға мүмкіндіктерімен танысу, тануды үйрету

сканерленген мәтін, оны Word-ға жіберу және өңдеу.

Ғылыми жаңалығы. Дипломдық жұмыста ғылыми жаңалықтармен сипатталатын келесі нәтижелер алынды:

1) алғаш қазақ тіліндегі графикалық мәтіндерді танитын бағдарламалық қосымша құру;

2) символдарды оптикалық тану жүйесін құру үшін қолданыстағы бағдарламалық құралдарды қарастыру;

3) олардың кемшіліктерін анықтау үшін осы әдістерге негізделген баспа символдары мен бағдарламалық шешімдерді тану бойынша қолданыстағы әдістерді зерделеу және талдау;

Жұмыстың практикалық құндылығы. Жүргізілген зерттеулер нәтижесінде бағдарламалық комплексте жүзеге асырылған, бағдарламалық қосымша құрудың теориялық негізі даярланды. Модельдер мен алгоритмдер түрінде алынатын нәтижелер пайдаланушының бағдарламалық қосымшаны оңай әрі тегін түрде пайдалануы болып табылады.

Осы дипломдық жұмыс қазіргі таңдағы актуалды мәселелерді шешуге, сондай-ақ қазақ тіліндегі графикалық тану жүйесін тікелей дамытуға арналған. Сонымен қатар, «Swift» бағдарламалық ортасының қысқаша құрылымдық сипаттамасы жəне ол ортада жұмыс жасау əдістері қарастырылған.

Ақпараттық технологиялар саласындағы мәтінді тану теориясына жалпылама шолу

Бұл тарауда тану теориясының бір бөлігі мәтінді танудың ақпараттық технологиялар саласндағы алатын жалпылама орны мен оның даму негізі қарастырылады. Мәтінді тану саласының қалыптасу жолы және оның негізінде алынған нәтижелер зерттеліп, сипатталды. Ақпараттық технологиялар саласында қолдану үшін мәтінді тану теориясы негізінде қолдануға болатын бағдарламалық жасақтамалар ұсынылып, олардың ерекшеліктері көрсетіледі.

Интернеттің дамуымен қағазға басылған кітаптарды, брошюраларды, бланкілерді және әр түрлі құжаттарды электрондық нысанға өзгерту кеңінен қолданыла бастады. Ол үшін сканерлер сияқты құрылғылар қолданылады.

Сканер сканер сканерленетін қағаз беттердің барлық мазмұны - суреттері, мәтіні (қолжазба, машинамен басылған немесе баспа), кестелері және т. б. бар дәл көшірмесін жасайды.

Кейде мұндай түрлендіру құжаттарды электрондық түрде сақтау үшін жеткілікті. Бірақ көбінесе сканерленген құжаттарда жасау мүмкін емес мәтінді редакциялау мүмкіндігі болуы қажет (өйткені ондағы мәтін - бұл суреттің бөлігі) .

Суреттен мәтінді шығару тапсырмасын шешу үшін. символдарды оптикалық тану бағдарламаларын қолданады (OCR - ағылш. (optical character recognition) .

OCR бағдарламалары жиі сканермен байланыстыруда жұмыс істейді. Сканер бет суретін жасайды, OCR бағдарламасы осы суреттен мәтінді шығарады (рас, бұл операция кезінде беттің қалған барлық безендірілуі жоғалады) .

Мәтінді сурет ретінде тек сканерлерден ғана емес, кез келген жерден алуға болады (мысалы - көшедегі баспа хабарландыруынан) . Ол үшін фотоаппарат немесе фотокамера жеткілікті.

Мәтінді бір тілден басқа тілге аудару қажет болған кезде жиі мәтін шығару қолданылады. Кейбір OCR бағдарламалары мәтін шығару және аударма функцияларын біріктіреді.

Символдарды оптикалық тану мәтінді редакциялауға, сөздерді немесе фразаларды іздестіруге, мәтінді жинақы түрде сақтауға, сапасын жоғалтпай материалды көрсетуге немесе басып шығаруға, ақпаратты талдауға, сондай-ақ мәтінге электрондық аударманы, форматтауды немесе сөзге түрлендіруді қолдануға мүмкіндік береді. Әдетте OCR бағдарламалары мәтін баспаханалық жолмен басылған және қапрғазбен айқын контрасты (мысалы. ақ қағаздағы қара түсті мәтін) .

Мәтін көп түсті фонда таңбада орналасқан кезде, немесе мәтін машинамен басылған, немесе баспаханалық, бірақ өте ескі. Тану сапасын, сондай-ақ, бағамдық және асты сызылған шрифттар сияқты, қаралатын құжаттарда пайдаланылатын шрифттар қоспасын да төмендетеді. Жалпы алғанда, қолжазба мәтінін тану және шығару. Қазіргі уақытта бұл тапсырманы қанағаттанарлық орындаған OCR бағдарламасы табылуы екіталай. Бұл шолуда мәтінді тану бағдарламаларының кейбірі бар [1] .

1. 1 Мәтінді тану теориясының үрдістері

Графикалық мәтіндерді тану - қолжазба, машинамен басылған немесе баспа мәтіндерінің бейнелерін компьютерде (мысалы, мәтіндік редакторда) символдарды көрсету үшін қолданылатын мәтіндік деректерге механикалық немесе электрондық аудару. Тану кітаптар мен құжаттарды электрондық түрге түрлендіру үшін, бизнестегі есепке алу жүйесін автоматтандыру үшін немесе Веб-беттегі мәтінді жариялау үшін кеңінен қолданылады. Символдарды оптикалық тану мәтінді редакциялауға, сөздерді немесе сөздерді іздестіруді жүзеге асыруға, оны ықшам түрде сақтауға, сапасын жоғалтпай материалды көрсетуге немесе басып шығаруға, ақпаратты талдауға, сондай-ақ мәтінге электрондық аударманы, форматтауды немесе сөзге түрлендіруді қолдануға мүмкіндік береді. Электрондық құжаттар мәтінді оптикалық тану бейнелерді тану, жасанды интеллект пен компьютерлік көру салаларында зерттелетін проблема болып табылады. Толық бейнелерді тануды қолдану аймағы көп қырлы. Мысалы, қазіргі заманғы зауыттарда өндірілетін өнімнің сапасын бақылау ақауды кесетін тану жүйелерін пайдалана отырып жүргізіледі. Толыққанды бейнелерді тану автомобиль нөмірлерін анықтау және тану, олардың жылдамдығын бақылау үшін жолдарда қолданылады. Суреттерді өңдеу ғарыштан және ұшақтан суреттерді талдау кезінде де өзекті. Осылайша, бейнелерді тануды қолдану аумағы кең және көп қырлы және жұмыс процесін әлдеқайда қысқартуға және жеңілдетуге және сонымен бірге оның сапасын арттыруға мүмкіндік береді. Таңбаларды тану-мәтіндік ақпаратты графикалық деректер форматтарынан мәтіндік деректер форматтарына түрлендіру операциясы. Мәтіндерді баспа немесе қолжазба материалдарын сканерлеу арқылы компьютерге енгізу үшін қолданылады.

Мәтінді тану бейнелерді тану бағыттарының бірі болып табылады. Бейнелерді тану теориялық және практикалық ойларда өте күрделі міндет болып табылады, онымен көптеген тірі организмдер мен адамдардың оңай жеңе алатынына қарамастан. Бұл процесті тиімді орындау үшін жасанды жүйені құру және оны техникалық іске асыру өте қиын. Бұл жағдайда тану деп объектінің бейнесінің, оның бейнесінің, белгілер жиынтығының объектінің өзіне арақатынасы түсініледі [2] .

Бейнелерді тану жүйелерінің мысалдары мен қосымшалары мәтінді жалпы және оның жекелеген нышандарын тану, сөзді, адам тұлғасын, адамның биометриялық деректерін, өнімдердің штрих-кодтарын, машиналар мен т. б. нөмірлерін тану болып табылады. Мәтінді тану мысалдары мыналар болып табылады: мәтіннің бейнелерін (сканерленген кітаптар, мақалалар, журналдар) одан әрі сандық аналогпен жұмыс істеу үшін цифрлау, сауалнамалық бланкілерді өңдеу, нысандар мен т. б. жазбалардың нөмірлері мен нөмірлерін тану. Мәтінді тану жүйесі кіруде мәтіні бар суреттің (графикалық файлдың деректер форматында) болуын болжайды. Жүйенің шығуында осы бейнеден бөлінген мәтін қалыптасуы керек.

Қазір интернетте қолайлы ақпаратты табуға болады, бірақ бұл ақпарат кітапта болған кезде не істеу керек, ал мәтінді қолмен таңдау керек емес пе? Өйткені, алынған материалды бірден сканерлеу, электрондық түрге ауыстыру керек. Содан кейін ДК жылжыту, мәтінді тану бағдарламасын табу, қалған қателерді қолмен өңдеу. Және бұл қиын. Кәсіби мамандарға сеніңіз, ауладағы жаз, ал бізбен жұмыс. Тану үшін жақсы бағдарламаны табу оңай емес, негізінен, Егер бағдарлама жақсы болса, коммерциялық негізде. Біз кітаптарды, фотосуреттерді, бейнелері бар мәтінді, түрлі форматтағы баспа парақтарын танимыз. Мәтінді теру процедурасынан өтіп - қағаздан компьютерге.

Мәтінді оптикалық тану-мәтінді мәтіндік таңбаларға аудару. Тану мәтінді жариялау үшін жиі қолданылады. Бұл ретте мәтінді редакциялауға, деректерді талдауға, сөзді немесе сөйлемді іздеуге, мәтінге форматтауды, электрондық аударманы қолдануға болады. Мәтінді тану жүйесі суреттерде бейнеленген әр түрлі қаріптермен, символдармен жұмыс істеу үшін бапталуы тиіс; бағандарды, суреттерді және басқа да компоненттерді қоса алғанда, мәтінді бастапқы пішімдеуді қалпына келтіруге тиіс. 100% мәтінді тану-99% сканерленген материалдың нақты бейнесі және 1% адамның қолмен өңдеуі. Сондай-ақ, жақсы сапалы қолжазба мәтінін да тануға болады [3] .

Символдарды тану кезінде екі салыстыру әдісі қолданылады: белгілер мен үлгімен. Мәтінді тануды қиындататын нәрсе:

- кір және дақ;

- бет дұрыс емес;

- суреттердегі мәтін;

- көп беттік құжаттар;

- тарспециалды сөздер;

- кестелер;

- түсті фон немесе сурет;

- Математикалық, химиялық формулалар;

- ұсақ сәндік қаріптер.

OCR мәтінін тану бағдарламасы тек сұр түсті градациялардағы бейнелермен және түрлі-түсті диаграммалармен ғана жұмыс істейді, суреттер танымайды. Қиғаш немесе жоғары аяқпен орналасқан мәтін мәтін мәтін мәтін бойынша қатаң көлденең орналасқан қателері бар үлкен дәрежемен анықталады.

... жалғасы

Сіз бұл жұмысты біздің қосымшамыз арқылы толығымен тегін көре аласыз.