История, развитие и формиране на компютърната лингвистика като научно направление. Какво прави един компютърен лингвист

КУРСОВА РАБОТА

по дисциплина "Информатика"

на тема: "Компютърна лингвистика"


ВЪВЕДЕНИЕ

1. Място и роля на компютърната лингвистика в лингвистичните изследвания

2. Съвременни интерфейси на компютърната лингвистика

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА


Въведение

Автоматизираните информационни технологии играят важна роля в живота на съвременното общество. С течение на времето тяхната стойност непрекъснато нараства. Но развитието на информационните технологии е много неравномерно: ако съвременното ниво на компютърни технологии и комуникации е невероятно, то в областта на семантичната обработка на информация успехите са много по-скромни. Тези успехи зависят преди всичко от постиженията в изучаването на процесите на човешкото мислене, процесите на речево общуване между хората и от способността за симулиране на тези процеси на компютър.

Когато става въпрос за създаване на съвременни информационни технологии, проблемите на автоматичната обработка на текстова информация, представена на естествени езици, излизат на преден план. Това се определя от факта, че мисленето на човека е тясно свързано с неговия език. Освен това естественият език е инструмент на мисленето. Тя е и универсално средство за комуникация между хората – средство за възприемане, натрупване, съхранение, обработка и предаване на информация. Проблемите на използването на естествения език в системите за автоматична обработка на информация се занимават от науката компютърна лингвистика. Тази наука възниква сравнително наскоро - в началото на петдесетте и шестдесетте години на миналия век. През последния половин век са получени значителни научни и практически резултати в областта на компютърната лингвистика: системи за машинен превод на текстове от един естествен език на друг, системи за автоматизирано извличане на информация в текстове, системи за автоматичен анализ и синтез на устна реч. реч, и са създадени много други. Тази работа е посветена на изграждането на оптимален компютърен интерфейс с помощта на компютърна лингвистика за лингвистични изследвания.


В съвременния свят компютърната лингвистика все повече се използва в различни лингвистични изследвания.

Компютърната лингвистика е област на знанието, свързана с решаването на проблеми с автоматичната обработка на информация, представена на естествен език. Централните научни проблеми на компютърната лингвистика са проблемът за моделиране на процеса на разбиране на смисъла на текстовете (преход от текст към формализирано представяне на неговото значение) и проблемът за синтеза на речта (преход от формализирано представяне на смисъла към текстове в естествен език). Тези проблеми възникват при решаването на редица приложни проблеми и по-специално проблеми с автоматичното откриване и коригиране на грешки при въвеждане на текстове в компютър, автоматичен анализ и синтез на устна реч, автоматичен превод на текстове от един език на друг, комуникация с компютър на естествен език, автоматично класифициране и индексиране на текстови документи, автоматичното им рефериране, търсене на документи в пълнотекстови бази данни.

Лингвистичните инструменти, създадени и използвани в компютърната лингвистика, могат условно да бъдат разделени на две части: декларативни и процедурни. Декларативната част включва речници на езикови и речеви единици, текстове и различни видове граматични таблици, докато процедурната част включва средства за манипулиране на езикови и речеви единици, текстове и граматични таблици. Компютърният интерфейс се отнася до процедурната част на компютърната лингвистика.

Успехът при решаването на приложни проблеми на компютърната лингвистика зависи преди всичко от пълнотата и точността на представяне на декларативни средства в компютърната памет и от качеството на процедурните средства. Към днешна дата необходимото ниво на решаване на тези проблеми все още не е постигнато, въпреки че работата в областта на компютърната лингвистика се извършва във всички развити страни по света (Русия, САЩ, Англия, Франция, Германия, Япония и др. ).

Въпреки това могат да се отбележат сериозни научни и практически постижения в областта на компютърната лингвистика. Така в редица страни (Русия, САЩ, Япония и др.) са изградени експериментални и индустриални системи за машинен превод на текстове от един език на друг, изградени са редица експериментални системи за комуникация с компютри на естествен език , работи се за създаване на банки с терминологични данни, тезауруси, двуезични и многоезични машинни речници (Русия, САЩ, Германия, Франция и др.), Изграждат се системи за автоматичен анализ и синтез на устна реч (Русия, САЩ, Япония и др.). .), се провеждат изследвания в областта на изграждането на модели на естествени езици.

Важен методологичен проблем на приложната компютърна лингвистика е правилната оценка на необходимата корелация между декларативните и процедурните компоненти на системите за автоматична обработка на текстова информация. Какво трябва да се предпочита: мощни изчислителни процедури, базирани на сравнително малки речникови системи с богата граматична и семантична информация, или мощен декларативен компонент с относително прости компютърни интерфейси? Повечето учени смятат, че вторият начин е за предпочитане. Това ще доведе до по-бързо постигане на практически цели, тъй като в този случай ще има по-малко задънени улици и трудно преодолими препятствия и тук ще бъде възможно да се използват компютри в по-голям мащаб за автоматизиране на научните изследвания и разработки.

Необходимостта от мобилизиране на усилията, предимно върху развитието на декларативния компонент на системите за автоматична обработка на текст, се потвърждава от половинвековния опит в развитието на компютърната лингвистика. В крайна сметка тук, въпреки безспорните успехи на тази наука, ентусиазмът към алгоритмичните процедури не донесе очаквания успех. Имаше дори известно разочарование от възможностите на процедурните средства.

В светлината на гореизложеното такъв път на развитие на компютърната лингвистика изглежда обещаващ, когато основните усилия ще бъдат насочени към създаването на мощни речници на единиците на езика и речта, изучаването на тяхната семантико-синтактична структура и създаването на основни процедури за морфологичен, семантико-синтактичен и концептуален анализ и синтез на текстове. Това ще даде възможност за решаване на широк кръг от приложни проблеми в бъдеще.

Компютърната лингвистика е изправена на първо място пред задачите на лингвистичната поддръжка на процесите на събиране, натрупване, обработка и търсене на информация. Най-важните от тях са:

1. Автоматизиране на съставянето и лингвистичната обработка на машинни речници;

2. Автоматизиране на процесите по откриване и коригиране на грешки при въвеждане на текстове в компютър;

3. Автоматично индексиране на документи и заявки за информация;

4. Автоматично класифициране и рефериране на документи;

5. Езикова поддръжка на процесите на търсене на информация в едноезични и многоезични бази данни;

6. Машинен превод на текстове от един естествен език на друг;

7. Изграждане на лингвистични процесори, които осигуряват на потребителите комуникация с автоматизирани интелигентни информационни системи (по-специално с експертни системи) на естествен език или на език, близък до естествения;

8. Извличане на фактическа информация от неформализирани текстове.

Нека се спрем подробно на проблемите, които са най-подходящи за темата на изследването.

В практическата дейност на информационните центрове е необходимо да се реши проблемът с автоматизираното откриване и коригиране на грешки в текстове, когато се въвеждат в компютър. Тази сложна задача условно може да се раздели на три задачи – задачите за правописен, синтактичен и смислов контрол на текстовете. Първият от тях може да бъде решен с помощта на процедурата за морфологичен анализ, която използва доста мощен референтен машинен речник на корените на думите. В процеса на правописен контрол думите на текста се подлагат на морфологичен анализ и ако техните основи се идентифицират с основите на справочния речник, тогава те се считат за правилни; ако не са идентифицирани, тогава те, придружени от микроконтекст, се предоставят за гледане от лице. Човек открива и коригира изкривени думи, а съответната софтуерна система прави тези корекции на коригирания текст.

Задачата за синтактичен контрол на текстовете с цел откриване на грешки в тях е много по-трудна от задачата за техния правописен контрол. Първо, защото включва в състава си задачата за контрол на правописа като негов задължителен компонент, и, второ, защото проблемът за синтактичния анализ на неформализирани текстове все още не е напълно решен. Частичен синтактичен контрол на текстовете обаче е напълно възможен. Има два начина да стигнете до тук: или съставете достатъчно представителни машинни речници на референтни синтактични структури и сравнете синтактичните структури на анализирания текст с тях; или разработете сложна система от правила за проверка на граматическата последователност на текстовите елементи. Първият начин ни се струва по-обещаващ, въпреки че, разбира се, не изключва възможността за използване на елементи от втория начин. Синтактичната структура на текстовете трябва да бъде описана от гледна точка на граматически класове думи (по-точно под формата на последователности от набори от граматична информация за думи).

Задачата за семантичен контрол на текстове с цел откриване на семантични грешки в тях трябва да се причисли към класа на задачите на изкуствения интелект. Напълно тя може да бъде решена само на базата на моделиране на процесите на човешкото мислене. В същото време, очевидно, ще е необходимо да се създадат мощни енциклопедични бази от знания и софтуерни инструменти за манипулиране на знания. Въпреки това, за ограничени предметни области и за формализирана информация, този проблем е напълно разрешим. Тя трябва да бъде поставена и решена като задача за семантико-синтактичен контрол на текстове.

Във Филологическия факултет на Висшето училище по икономика стартира нова магистърска програма, посветена на компютърната лингвистика: тя приветства кандидати с основно хуманитарно и математическо образование и всеки, който се интересува от решаване на проблеми в един от най-обещаващите клонове на науката. . Ръководителят й Анастасия Бонч-Осмоловская разказа пред „Теория и практика“ какво представлява компютърната лингвистика, защо роботите няма да заменят хората и какво ще се преподава в магистърската програма на HSE по компютърна лингвистика.

Тази програма е почти единствената по рода си в Русия. Ти самият къде си учил?

Учих в Московския държавен университет в катедрата по теоретична и приложна лингвистика на Филологическия факултет. Не попаднах веднага, първо влязох в руския отдел, но след това започнах сериозно да се интересувам от лингвистика и ме привлече атмосферата, която остава в отдела и до днес. Най-важното там е добрият контакт между преподаватели и ученици и взаимният им интерес.

Когато имах деца и трябваше да изкарвам прехраната си, отидох в областта на търговската лингвистика. През 2005 г. не беше много ясно каква е тази област на дейност като такава. Работих в различни лингвистични компании: започнах с малка компания на уебсайта Public.ru - това е такава медийна библиотека, където започнах да работя с лингвистични технологии. След това работих една година в Роснанотех, където имах идея да направя аналитичен портал, така че данните в него да се структурират автоматично. След това оглавих лингвистичния отдел във фирмата "Авикомп" - това вече е сериозно производство в областта на компютърната лингвистика и семантичните технологии. В същото време преподавах курс по компютърна лингвистика в Московския държавен университет и се опитах да го направя по-модерен.

Два ресурса за лингвист: - сайт, създаден от лингвисти за научни и приложни изследвания, свързани с руския език. Това е образец на руския език, представен с помощта на огромен набор от текстове от различни жанрове и периоди. Текстовете са снабдени с езикова маркировка, която може да се използва за получаване на информация за честотата на определени езикови явления. Wordnet е огромна лексикална база на английския език, основната идея на Wordnet е да свързва не думи, а техните значения в една голяма мрежа. Wordnet може да бъде изтеглен и използван за ваши собствени проекти.

Какво прави компютърната лингвистика?

Това е най-интердисциплинарната област. Най-важното тук е да разберете какво се случва в електронния свят и кой ще ви помогне да направите конкретни неща.

Заобиколени сме от много голямо количество цифрова информация, има много бизнес проекти, чийто успех зависи от обработката на информацията, тези проекти могат да се отнасят до маркетинг, политика, икономика и всичко. И е много важно да можете да обработвате тази информация ефективно - основното е не само скоростта на обработка на информацията, но и лекотата, с която можете, след като филтрирате шума, да получите данните, които ви трябват, и да създадете цяла картина от тях.

Преди това някои глобални идеи бяха свързани с компютърната лингвистика, например: хората смятаха, че машинният превод ще замени човешкия превод, роботите ще работят вместо хора. Но сега изглежда като утопия и машинният превод се използва в търсачките за бързо търсене на непознат език. Тоест сега лингвистиката рядко се занимава с абстрактни задачи - предимно с някакви дребни неща, които могат да се вмъкнат в голям продукт и да се правят пари от него.

Една от големите задачи на съвременната лингвистика е семантичната мрежа, когато търсенето се извършва не само по съвпадението на думите, а по смисъла и всички сайтове по някакъв начин са маркирани от семантика. Това може да бъде полезно, например, за полицейски или медицински доклади, които се пишат всеки ден. Анализът на вътрешните връзки дава много необходима информация и е невероятно дълго да се чете и изчислява ръчно.

С две думи имаме хиляди текстове, трябва да ги сортираме на купчини, да представим всеки текст като структура и да получим таблица, с която вече можем да работим. Това се нарича обработка на неструктурирана информация. От друга страна, компютърната лингвистика се занимава например със създаването на изкуствени текстове. Има една компания, която измисли механизъм за генериране на текстове на теми, които са скучни за човек да пише: промени в цените на имотите, прогноза за времето, репортажи от футболни мачове. Много по-скъпо е да поръчате тези текстове за човек, освен това компютърните текстове по такива теми са написани на последователен човешки език.

Yandex активно се занимава с разработки в областта на търсенето на неструктурирана информация в Русия, Kaspersky Lab наема изследователски групи, които изучават машинно обучение. Дали някой на пазара се опитва да измисли нещо ново в областта на компютърната лингвистика?

**Книги по компютърна лингвистика:**

Даниел Джурафски, Обработка на реч и език

Кристофър Манинг, Прабхакар Рагхаван, Хайнрих Шютце, Въведение в извличането на информация

Джейкъб Тестелек, „Въведение в общия синтаксис“

Повечето лингвистични разработки са собственост на големи компании, почти нищо не може да се намери в публичното пространство. Това пречи на развитието на индустрията, нямаме свободен езиков пазар, кутийни решения.

Освен това липсват достатъчно пълноценни информационни ресурси. Има такъв проект като Националния корпус на руския език. Това е един от най-добрите национални корпуси в света, който се развива бързо и разкрива невероятни възможности за научни и приложни изследвания. Разликата е горе-долу същата като в биологията - преди и след изследване на ДНК.

Но много ресурси не съществуват на руски. Така че няма аналог на такъв прекрасен англоезичен ресурс като Framenet - това е такава концептуална мрежа, където формално са представени всички възможни връзки на определена дума с други думи. Например има думата "летя" - кой може да лети, къде, с какъв претекст се използва тази дума, с какви думи се комбинира и т.н. Този ресурс помага да се свърже езикът с реалния живот, тоест да се проследи как се държи определена дума на ниво морфология и синтаксис. Много е полезно.

В момента Avicomp разработва плъгин за търсене на свързани статии. Тоест, ако се интересувате от някаква статия, можете бързо да видите историята на сюжета: кога е възникнала темата, какво е написано и кога е пикът на интерес към този проблем. Например, с помощта на този плъгин ще бъде възможно, като се започне от статия за събитията в Сирия, много бързо да се види как са се развили събитията там през изминалата година.

Как ще бъде структуриран учебният процес в магистърската програма?

Обучението в HSE е организирано в отделни модули, точно както в западните университети. Студентите ще бъдат разделени на малки екипи, министартъпи – тоест накрая трябва да получим няколко готови проекта. Искаме да получим истински продукти, които след това ще отворим за хората и ще ги оставим публично достояние.

В допълнение към преките ръководители на проекти на студенти, ние искаме да намерим куратори сред потенциалните им работодатели - например от същия Yandex, които също ще играят тази игра и ще дадат съвети на студентите.

Надявам се в магистратурата да дойдат хора от различни сфери: програмисти, лингвисти, социолози, търговци. Ще имаме няколко адаптационни курса по лингвистика, математика и програмиране. След това ще имаме два сериозни курса по лингвистика и те ще бъдат свързани с най-актуалните лингвистични теории, искаме нашите възпитаници да могат да четат и разбират съвременни лингвистични статии. Същото е и с математиката. Ще имаме курс, наречен "Математически основи на компютърната лингвистика", който ще представи онези раздели от математиката, на които се основава съвременната компютърна лингвистика.

За да се запишете в магистърска програма, трябва да положите приемен изпит по езика и да преминете конкурс за портфолио.

В допълнение към основните курсове ще има линия от избираеми предмети.Планирали сме няколко цикъла - два от тях са фокусирани върху по-задълбочено изучаване на отделни теми, които включват например машинен превод и корпусна лингвистика, и напротив, единият е свързан със сродни области: като социални мрежи, машинно обучение или дигитални хуманитарни науки - курс, който се надяваме да бъде изнесен на английски език.

КУРСОВА РАБОТА

по дисциплина "Информатика"

на тема: "Компютърна лингвистика"


ВЪВЕДЕНИЕ

2. Съвременни интерфейси на компютърната лингвистика

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА


Въведение

Автоматизираните информационни технологии играят важна роля в живота на съвременното общество. С течение на времето тяхната стойност непрекъснато нараства. Но развитието на информационните технологии е много неравномерно: ако съвременното ниво на компютърни технологии и комуникации е невероятно, то в областта на семантичната обработка на информация успехите са много по-скромни. Тези успехи зависят преди всичко от постиженията в изучаването на процесите на човешкото мислене, процесите на речево общуване между хората и от способността за симулиране на тези процеси на компютър.

Когато става въпрос за създаване на съвременни информационни технологии, проблемите на автоматичната обработка на текстова информация, представена на естествени езици, излизат на преден план. Това се определя от факта, че мисленето на човека е тясно свързано с неговия език. Освен това естественият език е инструмент на мисленето. Тя е и универсално средство за комуникация между хората – средство за възприемане, натрупване, съхранение, обработка и предаване на информация. Проблемите на използването на естествения език в системите за автоматична обработка на информация се занимават от науката компютърна лингвистика. Тази наука възниква сравнително наскоро - в началото на петдесетте и шестдесетте години на миналия век. През последния половин век са получени значителни научни и практически резултати в областта на компютърната лингвистика: системи за машинен превод на текстове от един естествен език на друг, системи за автоматизирано извличане на информация в текстове, системи за автоматичен анализ и синтез на устна реч. реч, и са създадени много други. Тази работа е посветена на изграждането на оптимален компютърен интерфейс с помощта на компютърна лингвистика за лингвистични изследвания.


1. Място и роля на компютърната лингвистика в лингвистичните изследвания

В съвременния свят компютърната лингвистика все повече се използва в различни лингвистични изследвания.

Компютърната лингвистика е област на знанието, свързана с решаването на проблеми с автоматичната обработка на информация, представена на естествен език. Централните научни проблеми на компютърната лингвистика са проблемът за моделиране на процеса на разбиране на смисъла на текстовете (преход от текст към формализирано представяне на неговото значение) и проблемът за синтеза на речта (преход от формализирано представяне на смисъла към текстове в естествен език). Тези проблеми възникват при решаването на редица приложни проблеми и по-специално проблеми с автоматичното откриване и коригиране на грешки при въвеждане на текстове в компютър, автоматичен анализ и синтез на устна реч, автоматичен превод на текстове от един език на друг, комуникация с компютър на естествен език, автоматично класифициране и индексиране на текстови документи, автоматичното им рефериране, търсене на документи в пълнотекстови бази данни.

Лингвистичните инструменти, създадени и използвани в компютърната лингвистика, могат условно да бъдат разделени на две части: декларативни и процедурни. Декларативната част включва речници на езикови и речеви единици, текстове и различни видове граматични таблици, докато процедурната част включва средства за манипулиране на езикови и речеви единици, текстове и граматични таблици. Компютърният интерфейс се отнася до процедурната част на компютърната лингвистика.

Успехът при решаването на приложни проблеми на компютърната лингвистика зависи преди всичко от пълнотата и точността на представяне на декларативни средства в компютърната памет и от качеството на процедурните средства. Към днешна дата необходимото ниво на решаване на тези проблеми все още не е постигнато, въпреки че работата в областта на компютърната лингвистика се извършва във всички развити страни по света (Русия, САЩ, Англия, Франция, Германия, Япония и др. ).

Въпреки това могат да се отбележат сериозни научни и практически постижения в областта на компютърната лингвистика. Така в редица страни (Русия, САЩ, Япония и др.) са изградени експериментални и индустриални системи за машинен превод на текстове от един език на друг, изградени са редица експериментални системи за комуникация с компютри на естествен език , работи се за създаване на банки с терминологични данни, тезауруси, двуезични и многоезични машинни речници (Русия, САЩ, Германия, Франция и др.), Изграждат се системи за автоматичен анализ и синтез на устна реч (Русия, САЩ, Япония и др.). .), се провеждат изследвания в областта на изграждането на модели на естествени езици.

Важен методологичен проблем на приложната компютърна лингвистика е правилната оценка на необходимата корелация между декларативните и процедурните компоненти на системите за автоматична обработка на текстова информация. Какво трябва да се предпочита: мощни изчислителни процедури, базирани на сравнително малки речникови системи с богата граматична и семантична информация, или мощен декларативен компонент с относително прости компютърни интерфейси? Повечето учени смятат, че вторият начин е за предпочитане. Това ще доведе до по-бързо постигане на практически цели, тъй като в този случай ще има по-малко задънени улици и трудно преодолими препятствия и тук ще бъде възможно да се използват компютри в по-голям мащаб за автоматизиране на научните изследвания и разработки.

Необходимостта от мобилизиране на усилията, предимно върху развитието на декларативния компонент на системите за автоматична обработка на текст, се потвърждава от половинвековния опит в развитието на компютърната лингвистика. В крайна сметка тук, въпреки безспорните успехи на тази наука, ентусиазмът към алгоритмичните процедури не донесе очаквания успех. Имаше дори известно разочарование от възможностите на процедурните средства.

В светлината на гореизложеното такъв път на развитие на компютърната лингвистика изглежда обещаващ, когато основните усилия ще бъдат насочени към създаването на мощни речници на единиците на езика и речта, изучаването на тяхната семантико-синтактична структура и създаването на основни процедури за морфологичен, семантико-синтактичен и концептуален анализ и синтез на текстове. Това ще даде възможност за решаване на широк кръг от приложни проблеми в бъдеще.

Компютърната лингвистика е изправена на първо място пред задачите на лингвистичната поддръжка на процесите на събиране, натрупване, обработка и търсене на информация. Най-важните от тях са:

1. Автоматизиране на съставянето и лингвистичната обработка на машинни речници;

2. Автоматизиране на процесите по откриване и коригиране на грешки при въвеждане на текстове в компютър;

3. Автоматично индексиране на документи и заявки за информация;

4. Автоматично класифициране и рефериране на документи;

5. Езикова поддръжка на процесите на търсене на информация в едноезични и многоезични бази данни;

6. Машинен превод на текстове от един естествен език на друг;

7. Изграждане на лингвистични процесори, които осигуряват на потребителите комуникация с автоматизирани интелигентни информационни системи (по-специално с експертни системи) на естествен език или на език, близък до естествения;

8. Извличане на фактическа информация от неформализирани текстове.

Нека се спрем подробно на проблемите, които са най-подходящи за темата на изследването.

В практическата дейност на информационните центрове е необходимо да се реши проблемът с автоматизираното откриване и коригиране на грешки в текстове, когато се въвеждат в компютър. Тази сложна задача условно може да се раздели на три задачи – задачите за правописен, синтактичен и смислов контрол на текстовете. Първият от тях може да бъде решен с помощта на процедурата за морфологичен анализ, която използва доста мощен референтен машинен речник на корените на думите. В процеса на правописен контрол думите на текста се подлагат на морфологичен анализ и ако техните основи се идентифицират с основите на справочния речник, тогава те се считат за правилни; ако не са идентифицирани, тогава те, придружени от микроконтекст, се предоставят за гледане от лице. Човек открива и коригира изкривени думи, а съответната софтуерна система прави тези корекции на коригирания текст.

Задачата за синтактичен контрол на текстовете с цел откриване на грешки в тях е много по-трудна от задачата за техния правописен контрол. Първо, защото включва в състава си задачата за контрол на правописа като негов задължителен компонент, и, второ, защото проблемът за синтактичния анализ на неформализирани текстове все още не е напълно решен. Частичен синтактичен контрол на текстовете обаче е напълно възможен. Има два начина да стигнете до тук: или съставете достатъчно представителни машинни речници на референтни синтактични структури и сравнете синтактичните структури на анализирания текст с тях; или разработете сложна система от правила за проверка на граматическата последователност на текстовите елементи. Първият начин ни се струва по-обещаващ, въпреки че, разбира се, не изключва възможността за използване на елементи от втория начин. Синтактичната структура на текстовете трябва да бъде описана от гледна точка на граматически класове думи (по-точно под формата на последователности от набори от граматична информация за думи).

Задачата за семантичен контрол на текстове с цел откриване на семантични грешки в тях трябва да се причисли към класа на задачите на изкуствения интелект. Напълно тя може да бъде решена само на базата на моделиране на процесите на човешкото мислене. В същото време, очевидно, ще е необходимо да се създадат мощни енциклопедични бази от знания и софтуерни инструменти за манипулиране на знания. Въпреки това, за ограничени предметни области и за формализирана информация, този проблем е напълно разрешим. Тя трябва да бъде поставена и решена като задача за семантико-синтактичен контрол на текстове.

Проблемът с автоматизирането на индексирането на документи и заявки е традиционен за автоматизираните системи за търсене на текст. Първоначално индексирането се разбира като процес на присвояване на класификационни индекси на документи и заявки, отразяващи тяхното тематично съдържание. В бъдеще тази концепция се трансформира и терминът "индексиране" започва да се отнася до процеса на превод на описания на документи и заявки от естествен език на формализиран, по-специално на езика на "изображения за търсене". Изображенията за търсене на документи започнаха, като правило, да се правят под формата на списъци с ключови думи и фрази, отразяващи тяхното тематично съдържание, и изображения за търсене на заявки - под формата на логически структури, в които ключовите думи и фрази са свързани помежду си чрез логически и синтактични оператори.

Автоматичното индексиране на документи е удобно да се извършва според текстовете на техните резюмета (ако има такива), тъй като основното съдържание на документите е отразено в резюметата в концентрирана форма. Индексирането може да се извърши със или без контрол на тезауруса. В първия случай ключовите думи и фрази от референтния машинен речник се търсят в заглавния текст на документа и неговото резюме и само тези, които се намират в речника, се включват в DOD. Във втория случай ключовите думи и фрази се извличат от текста и се включват в POD, независимо дали принадлежат към някакъв справочен речник. Реализирана е и трета опция, при която наред с термините от машинния тезаурус AML включва и термини, извлечени от заглавието и първото изречение на резюмето на документа. Експериментите показват, че POD, съставени автоматично въз основа на заглавията и резюметата на документите, осигуряват по-голяма пълнота на търсенето, отколкото ръчно компилираните POD. Това се обяснява с факта, че системата за автоматично индексиране отразява по-пълно различни аспекти от съдържанието на документите, отколкото системата за ръчно индексиране.

При автоматичното индексиране на заявки възникват приблизително същите проблеми като при автоматичното индексиране на документи. Тук също трябва да извлечете ключови думи и фрази от текста и да нормализирате думите, включени в текста на заявката. Логическите връзки между ключови думи и фрази и контекстуалните оператори могат да бъдат въведени ръчно или с помощта на автоматизирана процедура. Важен елемент от процеса на автоматично индексиране на заявка е добавянето на нейните ключови думи и фрази с техните синоними и хипоними (понякога също хиперними и други термини, свързани с оригиналните термини на заявката). Това може да се направи автоматично или интерактивно с помощта на машинен тезаурус.

Вече частично разгледахме проблема с автоматизирането на търсенето на документна информация във връзка със задачата за автоматично индексиране. Най-обещаващото тук е търсенето на документи по техните пълни текстове, тъй като използването на всякакъв вид заместители за тази цел (библиографски описания, изображения за търсене на документи и текстове на техните резюмета) води до загуба на информация по време на търсенето. Най-големи са загубите, когато техните библиографски описания се използват като заместители на първични документи, а най-малки - когато се използват реферати.

Важни характеристики на качеството на извличане на информация са нейната пълнота и точност. Пълнотата на търсенето може да се осигури, като се вземат предвид колкото е възможно повече парадигматичните връзки между единиците на езика и речта (думи и фрази), а точността - чрез отчитане на синтагматичните им връзки. Има мнение, че пълнотата и точността на търсенето са обратно пропорционални: мерките за подобряване на една от тези характеристики водят до влошаване на другата. Но това е вярно само за фиксирана логика на търсене. Ако тази логика бъде подобрена, тогава и двете характеристики могат да бъдат подобрени едновременно.

Процесът на търсене на информация в пълнотекстови бази данни е препоръчително да се изгради като процес на интерактивна комуникация между потребител и система за извличане на информация (IPS), в която той последователно преглежда текстови фрагменти (параграфи, абзаци), които отговарят на логическото условията на заявката и избира тези, които представляват интерес за него. Като крайни резултати от търсенето могат да се показват както пълни текстове на документи, така и всеки техен фрагмент.

Както може да се види от предишните съображения, при автоматичното търсене на информация трябва да се преодолее езиковата бариера, която възниква между потребителя и IPS поради разнообразието от форми на представяне на едно и също значение, което се среща в текстовете. Тази бариера става още по-значима, ако трябва да търсите в многоезични бази данни. Кардиналното решение на проблема тук може да бъде машинен превод на текстове на документи от един език на друг. Това може да стане както предварително, преди качване на документи в търсачката, така и в процеса на търсене на информация. В последния случай заявката на потребителя трябва да бъде преведена на езика на масива от документи, в който се извършва търсенето, а резултатите от търсенето - на езика на заявката. Търсачки от този вид вече работят в Интернет. Във ВИНИТИ РАН е изградена и системата за браузър на кирилица, която позволява търсене на информация в рускоезични текстове по заявки на английски език, като резултатите от търсенето се показват и на езика на потребителя.

Важна и обещаваща задача на компютърната лингвистика е изграждането на лингвистични процесори, които осигуряват на потребителите комуникация с интелигентни автоматизирани информационни системи (по-специално с експертни системи) на естествен език или на език, близък до естествения. Тъй като информацията се съхранява във формализирана форма в съвременните интелигентни системи, езиковите процесори, действащи като посредници между човек и компютър, трябва да решават следните основни задачи: 1) задачата за преминаване от текстове на заявки за входна информация и съобщения на естествен език за представяне на значението им на формализиран език (при въвеждане на информация в компютър); 2) задачата за преход от формализирано представяне на значението на изходните съобщения към неговото представяне на естествен език (когато информацията се дава на човек). Първата задача трябва да бъде решена чрез морфологичен, синтактичен и концептуален анализ на входните заявки и съобщения, втората - чрез концептуален, синтактичен и морфологичен синтез на изходните съобщения.

Концептуалният анализ на информационните заявки и съобщения се състои в идентифициране на тяхната концептуална структура (границите на имената на понятията и връзките между понятията в текста) и превеждане на тази структура на формализиран език. Извършва се след морфологичен и синтактичен анализ на заявките и съобщенията. Концептуалният синтез на съобщенията се състои в прехода от представянето на елементите на тяхната структура във формализиран език към вербално (вербално) представяне. След това съобщенията получават необходимия синтактичен и морфологичен дизайн.

За машинен превод на текстове от един естествен език на друг е необходимо да има речници на преводни съответствия между имената на понятията. Знанията за такива преводни съответствия са натрупани от много поколения хора и са издадени под формата на специални издания - двуезични или многоезични речници. За специалисти, които до известна степен владеят чужди езици, тези речници са били ценни помощници при превода на текстове.

В традиционните двуезични и многоезични речници с общо предназначение преводните еквиваленти са посочени главно за отделни думи, а за фрази - много по-рядко. Посочването на преводни еквиваленти за фрази беше по-характерно за специални терминологични речници. Следователно, когато превеждат сегменти от текстове, съдържащи многозначни думи, учениците често срещат трудности.

По-долу са преводни съответствия между няколко двойки английски и руски фрази по "училищни" теми.

1) The bat looks like a mouse with wings - Прилепът изглежда като мишка с крила.

2) Децата обичат да играят в пясъка на плажа - Децата обичат да играят в пясъка на плажа.

3) Капка дъжд падна на ръката ми - Капка дъжд падна на ръката ми.

4) Сухите дърва лесно горят - сухите дърва горят добре.

5) Той се престори, че не ме чува - Той се престори, че не ме чува.

Тук английските фрази не са идиоматични изрази. Независимо от това, преводът им на руски може да се разглежда само с известна тежест като прост превод дума по дума, тъй като почти всички думи, включени в тях, са многозначни. Затова само постиженията на компютърната лингвистика могат да помогнат на студентите тук.

план:

1. Какво е компютърна лингвистика?

2. Обект и предмет на компютърната лингвистика

4. Задачи на компютърната лингвистика

5. Изследователски методи на компютърната лингвистика

6. История и причини за компютърната лингвистика

7. Основни термини на компютърната лингвистика

8. Учени, занимаващи се с проблема на компютърната лингвистика

9. Асоциации и конференции по компютърна лингвистика

10. Използвана литература.


Компютърна лингвистика -самостоятелно направление в приложната лингвистика, фокусирано върху използването на компютри за решаване на проблеми, свързани с използването на естествен език. (Шилихина К.М.)


Компютърна лингвистика– като една от областите на приложната лингвистика, тя изучава лингвистичните основи на компютърните науки и всички аспекти на връзката между езика и мисленето, моделира езика и мисленето в компютърна среда с помощта на компютърни програми, като нейните интереси са в областта на: 1) оптимизиране на комуникацията въз основа на лингвистични знания 2) създаване на естествен езиков интерфейс и типологии на езиково разбиране за комуникация човек-машина 3) създаване и моделиране на информационни компютърни системи (Sosnina E.P.)


Обект на компютърната лингвистика- анализ на езика в неговото естествено състояние в процеса на използване от хората в различни ситуации на общуване, както и как могат да се формулират характеристиките на езика.


Задачи на компютърната лингвистика:


Методи за изследване на компютърната лингвистика:

1. метод на моделиране-специален обект на изследване, който не е наличен при пряко наблюдение. По дефиниция на математика К. Шанън, моделът е представяне на обект в някаква форма, различна от формата на тяхното реално съществуване.

2. Теоретичен метод за представяне на знанияпредполага начини за представяне на знания, които са ориентирани към автоматична обработка от съвременните компютри.

3. метод на теория на езика за програмиране(теория на езика за програмиране) е област на компютърните науки, свързана с дизайна, анализа, характеризирането и класификацията на езиците за програмиране и изучаването на техните индивидуални характеристики.


Причини за компютърната лингвистика

1. Появата на компютрите

2. Проблемът с комуникацията с компютри на неподготвени потребители


1. Система за търсене в речник, разработена в Berkbeck College в Лондон през 1948 г.

2. Меморандум на Уорън Уивър

3. Началото на въвеждането на първите компютри в областта на машинния превод

4. Проектът Джорджтаун през 1954 г


1. ALPAC (Консултативен комитет за автоматична обработка на езици) 2. нов етап в развитието на компютърните технологии и тяхното активно използване в лингвистични задачи 3. създаване на ново поколение компютри и езици за програмиране 4. нарастващ интерес към машинния превод 60

-70-те години на ХХ век


Краят на 80-те - началото на 90-те години на ХХ век

    Появата и активното развитие на Интернет

  • Бързо нарастване на обемите текстова информация в електронен вид

  • Необходимостта от автоматична обработка на текстове на естествен език


1. PROMT и ABBY (Lingvo) продукти 2. Технологии за машинен превод 3. Технологии за преводна памет

Съвременни търговски системи

  • Анимация на текстове

  • Комуникационни модели

  • Компютърна лексикография

  • Машинен превод

  • Корпус от текстове


Анализ на текстове на естествен език

3 нива на структура на текста:
  • Повърхностна синтактична структура

  • Дълбока синтактична структура

  • Семантично ниво


Задачата на синтеза е обратна на анализа

Анимация на текста

1. Обмен на текстове чрез визуални изображения на екрана на дисплея

2. 2 модалности на човешкото мислене: символна и визуална.


1. Имитация на комуникационния процес 2. Създаване на ефективен диалогов модел Комуникационни модели


Хипер текст- специален начин за организиране и представяне на текст, при който няколко текста или фрагменти от текст могат да бъдат свързани помежду си чрез различни видове връзки.


Разлики между хипертекст и традиционен текст

Хипер текст

    1. обработка на речта

  • 2. обработка на писмен текст


Обработка на реч

1. автоматичен синтез на реч

А) разработването на синтезатори от типа "текст към реч". Включва 2 блока: блок за лингвистична обработка на тексти блок за акустичен синтез.

2. автоматично разпознаване на реч


1) разпознаване на текст

2) анализ на текста

3) синтез на текст


IPS (система за извличане на информация)- това са софтуерни системи за съхранение, търсене и издаване на информация, която представлява интерес.

Захаров В.П. вярва, че IPSе подреден набор от документи и информационни технологии, предназначени за съхраняване и извличане на информация - текстове или данни.


3 вида IPS

3 вида IPS

    Наръчнике търсене в библиотека.

  • Механизирана IPS са технически средства, които осигуряват подбора на необходимите документи

  • Автоматичен- търсене на информация с помощта на компютри


Компютърна лексикография

Компютърна лексикография- една от важните области на приложната лингвистика, занимава се с теорията и практиката на съставяне на речници.

Има 2 направления в лексикографията:
  • Традиционна лексикографиясъставяне на традиционни речници

  • Машинна лексикографияавтоматизира подготовката на речници и решава проблемите с разработването на електронни речници


Задачи на компютърната лексикография

  • Автоматично извличане на различни речници от текст

  • Създаване на речници, които са електронни версии на традиционни речници или сложни електронни лингвистични речници за традиционни речникови произведения, като LINGVO

  • Разработване на теоретични и практически аспекти на съставянето на специални компютърни речници, например за извличане на информация, машинен превод


Машинен превод

Машинен превод- конвертиране на текст от един естествен език в друг естествен език с помощта на компютър.

Видове машинен превод
  • FAMT(Fully Automated Machine Translation) – напълно автоматичен превод

  • ХАМТ(Human Aided machine Translation) - машинен превод с участието на човек

  • MAHT(Machine Aided Human Translation) е превод, извършен от лице с помощта на допълнителен софтуер и езикови инструменти.


  • 2) професионален депутат– по-добър превод с последващо човешко редактиране

  • 3) интерактивен MP- счита се за трансфер в специални поддържащи системи, протича в режим на диалог с компютърна система. Качеството на МТ зависи от настройките, ресурсите, вида на текстовете.

Корпус от текстове

Корпус от текстове- това е сборник от текстове, който се основава на логическа идея, логическа идея, която обединява тези текстове.

Езиков корпус-голям, електронно представен, унифициран, структуриран, етикетиран, филологически компетентен масив от езикови данни, предназначен за решаване на специфични лингвистични проблеми.


Представителността е най-важното свойство на корпуса


Целта на езиковия корпус е да покаже функционирането на езиковите единици в тяхната естествена контекстуална среда



Въз основа на корпуса можете да получите данни:

1. за честотата на граматическите категории

2. Относно промените в честотата

3. за промените в контекстите в различни периоди от време

5. за съвместната поява на лексикални единици

6. за характеристиките на тяхната съвместимост


Браун корпус


Корпус от текстове - това е сборник от текстове, който се основава на логическа идея, логическа идея, която обединява тези текстове. Въплъщението на тази логическа идея: правилата за организиране на текстове в корпус, алгоритми и програми за анализ на корпуса от текстове, идеологията и методологията, свързани с това. Национален корпус представлява даден език на определен етап (или етапи) от неговото съществуване и в цялото многообразие от жанрове, стилове, териториални и социални опции и др. Основни термини на компютърната лингвистика

    Програмни езици (PL) е клас изкуствени езици, предназначени да обработват информация с помощта на компютър. Всеки език за програмиране е строга (официална) знакова система, с която се пишат компютърните програми. Според различни оценки в момента има между хиляда и десет хиляди различни езика за програмиране.

  • Информатика(Информатика) -науката за закономерностите на записване, съхраняване, обработка, предаване и използване на информация с помощта на технически средства.



Търсене на информация (Извличане на информация) е процесът на намиране на такива документи (текстове, записи и

и т.н.), които отговарят на заявката.

« Система за търсене на информация (IPS) е подреден набор от документи (масиви от документи) и информационни технологии, предназначени за съхраняване и търсене на информация - текстове (документи) или данни (факти).

Машинна лексикография(Компютърна лексикография)се занимава с автоматизиране на подготовката на речници и решава проблемите на разработването на електронни

речници.

Машинен превод е компютърна трансформация на текст върху един

естествен език в текст, еквивалентен по съдържание на друг

естествен език.

Хипер текст е технология за организиране на информация и специално структуриран текст, разделен на отделни блокове, имащи нелинейно представяне, за ефективно представяне на информация в компютърни среди.


    кадър е структура за представяне на декларативно знание за типизирана тематично единна ситуация, т.е. структура от данни за стереотипна ситуация.

  • Сценарий - това е поредица от няколко епизода във времето, това също е представяне на стереотипна ситуация или стереотипно поведение, само елементите на сценария са стъпките на алгоритъма или инструкциите.
  • Планирайте - представяне на знания за възможните действия, които са необходими за постигане на определена цел.



Учени в областта на компютърната лингвистика:

  • съветски и руски учени: Алексей Ляпунов, Игор Мелчук, Олга Кулагина, Ю.Д. Апресян, Н.Н. Леонтиев, Ю.С. Мартемянов, З.М. Шаляпин, Игор Богуславски, А.С. Нариняни, А.Е. Кибрик, Баранов А.Н.

  • западни учениВ ролите: Йорик Вилкс, Грегъри Гревенстет, Гравил Корбет, Джон Карол, Даяна Маккарти, Луис Маркес, Дан Молдован, Йоахим Нивре, Виктор Раскин, Едуард Хоуви.


Асоциации и конференции по компютърна лингвистика:
  • "диалог"- основната руска конференция по компютърна лингвистикас международно участие.

Приоритетът на диалога е компютърно моделиранеРуски език. Работните езици на конференцията са руски и английски. За привличане на чуждестранни рецензенти основната част от приложните работи се представят на английски език.

Основни насоки на конференцията:
  • Езикова семантикаи семантичен анализ

  • Формални езикови модели и техните приложения

  • Теоретичен и компютърен лексикография

  • Методи за оценка на анализ на текст и системи за машинен превод

  • Корпусна лингвистика. Създаване, приложение, оценка на корпуса

  • интернеткато езиков ресурс. Лингвистични технологии в Интернет

  • Онтологии. Извличане на знанияот текстове

  • Компютърен анализ на документи: рефериране, класификация, Търсене

  • Автоматичен анализ на настроението на текстове

  • Машинен превод

  • комуникационни модели. Комуникация, диалог и речев акт

  • Анализ и синтез на речта



2. Асоциация за компютърна лингвистика (ACL)е международно научно и професионално общество на хора, работещи по проблеми, свързани с естествения език и компютрите. Всяко лято се провежда годишна среща на места, където се извършват значими изследвания в областта на компютърната лингвистика. Основана през 1962 г., с първоначалното име Асоциация за машинен превод и компютърна лингвистика (AMTCL). През 1968 г. това става ACL.
  • ACL има европейско (EACL)и Северна Америка (NACL)клонове.

  • списание ACL, Компютърна лингвистика, е основният форум за изследвания в областта на компютърната лингвистика и обработката на естествен език. От 1988 г. списанието се издава за ACL MIT Press.
  • поредица от книги ACL, Изследвания в обработката на естествен език, публикуван Cambridge University Press.

  • Всяка година ACL и неговите клонове организират международни конференции в различни страни.

ACL 2014 се проведе в Балтимор, САЩ.

  • Препратки:

  • 1. Марчук Ю.Н. Компютърна лингвистика: учебник / Ю.Н. Марчук - М.: AST: Изток-Запад, 2007 - 317 с.

  • 2. Шилихина К.М. Основи на приложната лингвистика: учебник за специалност 021800 (031301) - Теоретична и приложна лингвистика, Воронеж, 2006 г.

  • 3. Боярски К.К. Въведение в компютърната лингвистика. Учебник.- Санкт Петербург: НРУ ИТМО, 2013.- 72 с.

  • 4. Щипицина Л.Ю. Информационни технологии в лингвистиката: учебник / L.Yu. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

  • 5. Соснина Е.П. Въведение в приложната лингвистика: учебник / Е. П. Соснина - 2-ро изд., коригирано. и допълнителни - Уляновск: UlGTU, 2012. -110 с.

  • 6. Баранов A.N. Въведение в приложната лингвистика: Учебник.- М.: Едиториал URSS, 2001.- 360 с.

  • 7. Приложна лингвистика: Учебник / L.V. Бондарко, Л.А. Вербицкая, Г.Я. Мартиненко и др.; Представител Редактор A.S. Герд. СПб.: издателство С.-Петербург. ун-т, 1996.- 528 с.

  • 8. Шемякин Ю.И. Начало на компютърната лингвистика: Учебник. М.: Издателство на МГОУ, А/О "Росвузнаука", 1992 г.

  • Лингвистика (от лат. lingua -
    език), лингвистика, лингвистика - наука,
    изучаване на езици.
    Това е наука за естествения човешки език като цяло
    и за всички езици на света като негови
    персонализирани представители.
    Най-общо казано, лингвистика
    се подразделят на научни и практически. По-често
    просто под лингвистика се има предвид точно
    научна лингвистика. Това е част от семиотиката
    науката за знаците.
    Езикознанието се практикува професионално от лингвисти.

    Лингвистика и информатика.
    В живота на съвременното общество важна роля играят автоматизираните
    Информационни технологии. Но развитието на информационните технологии е
    много неравномерно: ако сегашното ниво на компютърните технологии и
    средство за комуникация е невероятно, тогава в областта на семантичната обработка
    информационният успех е много по-скромен. Тези успехи зависят преди всичко от
    постижения в изучаването на процесите на човешкото мислене, процесите на речта
    комуникация между хората и възможност за симулиране на тези процеси на компютър. И това е задача с изключителна сложност, когато става дума за създаване на обещаващо
    информационни технологии, след това проблемите на автоматичната обработка на текст
    информацията, представена на естествени езици, излиза на преден план.
    Това се определя от факта, че мисленето на човека е тясно свързано с неговия език. | Повече ▼
    Освен това естественият език е инструмент на мисленето. Той също е
    универсално средство за комуникация между хората - средство за възприятие,
    натрупване, съхранение, обработка и предаване на информация.
    Проблеми при използването на естествения език в автоматичния
    Обработката на информация е наука за компютърната лингвистика. Тази наука
    се появи сравнително наскоро - в началото на петдесетте и шестдесетте години
    миналия век. Отначало, по време на формирането си, той имаше различни
    заглавия: математическа лингвистика, компютърна лингвистика, инженерство
    лингвистика. Но в началото на осемдесетте името се задържа за него
    компютърна лингвистика.

    Компютърната лингвистика е област на знанието, свързана с решаването на проблеми
    автоматична обработка на информация, представена на естествен език.
    Централните научни проблеми на компютърната лингвистика са проблемът
    моделиране на процеса на разбиране на смисъла на текстовете (преход от текст към
    формализирано представяне на неговото значение) и проблемът за синтеза на речта (преход от
    формализирано представяне на значението на текстове на естествен език). Тези проблеми
    възникват при решаването на редица приложни проблеми:
    1) автоматично откриване и коригиране на грешки при въвеждане на текстове в компютър,
    2) автоматичен анализ и синтез на устна реч,
    3) автоматичен превод на текстове от един език на друг,
    4) комуникация с компютър на естествен език,
    5) автоматична класификация и индексиране на текстови документи, техните
    автоматично обобщаване, търсене на документи в пълнотекстови бази данни.
    През последния половин век в областта на компютърната лингвистика,
    значими научни и практически резултати: системи на машин
    превод на текстове от един естествен език на друг, автоматизиран
    търсене на информация в текстове, системи за автоматичен анализ и синтез на устна реч и
    много други. Но имаше и разочарования. Например проблемът с машинния превод
    текстове от един език на друг се оказаха много по-трудни, отколкото си представяхме
    пионерите на машинния превод и техните наследници. Същото може да се каже и за
    автоматизирано търсене на информация в текстове и за задачата за анализиране и синтезиране на устни
    реч. Учените и инженерите очевидно ще трябва да работят усилено
    постигнете желаните резултати.

    Обработка на естествен език (англ. natural language processing; синтактичен,
    морфологичен, семантичен анализ на текста). Това също включва:
    Корпусна лингвистика, създаване и използване на електронни текстови корпуси
    Създаване на електронни речници, тезауруси, онтологии. Например Lingvo. Речници
    използва се например за автоматичен превод, проверка на правописа.
    Автоматичен превод на текстове. Популярен сред руските преводачи
    е Promt. Google Translate е добре познат безплатен преводач.
    Автоматично извличане на факти от текста (извличане на информация) (англ. fact
    извличане, копаене на текст)
    Авто-абстрахиране (английско автоматично обобщаване на текст). Тази функция е активирана
    например в Microsoft Word.
    Изграждане на системи за управление на знания. Вижте Експертни системи
    Създаване на системи за въпроси и отговори (англ. question answering systems).
    Оптично разпознаване на символи (OCR). Например FineReader
    Автоматично разпознаване на реч (ASR). Има платен и безплатен софтуер
    Автоматичен синтез на реч