Градење на македонски дигитален јазичен корпус

Ivanova, Marina (2017) Градење на македонски дигитален јазичен корпус. Masters thesis, University of Goce Delcev.

[thumbnail of MagisterskiTrudMarina.pdf]
Preview
Text
MagisterskiTrudMarina.pdf

Download (3MB) | Preview

Abstract

Денешните информатички технологии кои се одликуваат со голем број на карактеристики и функционалности, овозможуваат развој на веб сервиси, апликации, системи и сл. кои може да се приспособуваат во сите сфери на денешницата. Она што е заедничко, всушност е дека најголемиот број од овие системи, сервиси и апликации генерално се состојат од форми за внесување или презентирање на резултат од претходно пребарување. Тоа што можеби е занемарено во однос на податоците во облик на текст т.е. говорен јазик е начинот на кој тој е презентиран на крајните корисници. Многу мал број од светските јазици во моментов ги уживаат придобивките на современите јазични технологии како што се препознавање на говорот и машински превод. Малку поголем број (помалку од 100) успеале да ги соберат основните средства кои се потребни како основа за напреднување на технологиите за крајниот корисник: монолингвални и билингвални корпуси, машинско-читливи речници, синоними, морфолошки анализатори, парсери, итн. Остатокот, повеќе од 98% од светските живи јазици ги немаат повеќето алатки, и затоа спаѓаат во групата на јазици дефинирани како недоволно ресурсни.
Проучувањето на јазик кој вклучува поими и примери од секојдневната јазична употреба се нарекува корпус – компјутеризирани бази на податоци создадени за јазично истражување. Корпусот може да содржи текст од еден јазик (еднојазичен корпус) или текст од повеќе јазици (повеќејазичен корпус). Во лингвистиката, корпус (текст корпус) е голем и структуриран збир на текстови кои во денешно време се чуваат и обработуваат електронски. Корпусите се користат за да се направи статистичка анализа, тестирање, проверка или потврдување на јазичните правила во рамките на одредена јазична територија.
Статистичките техники се клучен дел од најмодерните системи за обработка на природниот јазик. За жал, таквите техники бараат постоење на големи тела на текст, а во последно време развивањето на корпуси се покажа доста скапо. Како резултат на тоа, значителни корпуси постојат пред сè за
јазици како англискиот, францускиот, германскиот итн., каде што постои потребата од NLP (Natural Language Processing) алатки.
Во контекст на ова, во овој труд ќе се запознаеме со основните техники и начини кои се користат за креирање на дигитален јазичен корпус. Ќе проучиме кои се технологиите за градење на јазичниот корпус, какви сè алатки постојат за обработка на природните јазици и за вршење на различни анализи и статистики преку примена на македонскиот јазик.
Клучни зборови: корпус, алатки, техники, обработка на природни јазици, препознавање на говор, машински превод.

Item Type: Thesis (Masters)
Subjects: Engineering and Technology > Other engineering and technologies
Divisions: Faculty of Computer Science
Depositing User: Vaska Zdravkova
Date Deposited: 13 Dec 2017 11:41
Last Modified: 13 Dec 2017 11:41
URI: https://eprints.ugd.edu.mk/id/eprint/18632

Actions (login required)

View Item View Item