Historia, rozwój i kształtowanie się lingwistyki komputerowej jako kierunku naukowego. Czym zajmuje się lingwista komputerowy?

PRACA KURSOWA

w dyscyplinie „Informatyka”

na temat: „Lingwistyka komputerowa”


WSTĘP

1. Miejsce i rola lingwistyki komputerowej w badaniach językoznawczych

2. Nowoczesne interfejsy dla lingwistyki komputerowej

WNIOSEK

LITERATURA


Wstęp

W życiu nowoczesne społeczeństwo Ważną rolę odgrywają zautomatyzowane technologie informacyjne. Z biegiem czasu ich znaczenie stale rośnie. Ale rozwój Technologie informacyjne dzieje się bardzo nierównomiernie: jeśli nowoczesny poziom O ile technologia komputerowa i komunikacja są niesamowite, o tyle w dziedzinie semantycznego przetwarzania informacji postęp jest znacznie skromniejszy. Sukcesy te zależą przede wszystkim od osiągnięć w badaniu procesów ludzkiego myślenia, procesów werbalnej komunikacji między ludźmi oraz umiejętności symulowania tych procesów na komputerze.

Jeśli chodzi o tworzenie obiecujących technologii informatycznych, na pierwszy plan wysuwają się problemy automatycznego przetwarzania informacji tekstowych prezentowanych w językach naturalnych. Wynika to z faktu, że myślenie danej osoby jest ściśle związane z jej językiem. Co więcej, język naturalny jest narzędziem myślenia. On jest także uniwersalny środek komunikacja między ludźmi – sposób percepcji, gromadzenia, przechowywania, przetwarzania i przekazywania informacji. Nauka lingwistyki komputerowej zajmuje się problematyką wykorzystania języka naturalnego w systemach automatycznego przetwarzania informacji. Nauka ta powstała stosunkowo niedawno – na przełomie lat pięćdziesiątych i sześćdziesiątych ubiegłego wieku. W ciągu ostatniego półwiecza uzyskano znaczące wyniki naukowe i praktyczne w dziedzinie lingwistyki komputerowej: systemy maszynowego tłumaczenia tekstów z jednego języka naturalnego na inny, systemy automatycznego wyszukiwania informacji w tekstach, systemy automatycznej analizy i syntezy został stworzony Mowa ustna i wiele innych. ta praca poświęcony jest budowie optymalnego interfejsu komputerowego z wykorzystaniem lingwistyki komputerowej podczas prowadzenia badań lingwistycznych.


W nowoczesny świat Lingwistyka komputerowa jest coraz częściej wykorzystywana w różnych badaniach językowych.

Lingwistyka komputerowa jest dziedziną wiedzy związaną z rozwiązywaniem problemów automatycznego przetwarzania informacji prezentowanych w języku naturalnym. Centralnymi problemami naukowymi lingwistyki komputerowej są problem modelowania procesu rozumienia znaczenia tekstów (przejście od tekstu do sformalizowanej reprezentacji jego znaczenia) oraz problem syntezy mowy (przejście od sformalizowanej reprezentacji znaczenia do tekstów w języku naturalnym język). Problemy te powstają przy rozwiązywaniu szeregu problemów stosowanych, a w szczególności problemów automatycznego wykrywania i korygowania błędów przy wprowadzaniu tekstów do komputera, automatycznej analizy i syntezy mowy ustnej, automatycznego tłumaczenia tekstów z jednego języka na drugi, komunikacji z komputer w języku naturalnym, automatyczna klasyfikacja i indeksowanie dokumentów tekstowych, automatyczne ich wyodrębnianie, wyszukiwanie dokumentów w pełnotekstowych bazach danych.

Narzędzia językowe tworzone i wykorzystywane w lingwistyce obliczeniowej można podzielić na dwie części: deklaratywną i proceduralną. Część deklaratywna obejmuje słowniki jednostek języka i mowy, teksty oraz różnego rodzaju tablice gramatyczne, część proceduralna obejmuje środki manipulacji jednostkami języka i mowy, tekstami i tablicami gramatycznymi. Interfejs komputerowy odnosi się do proceduralnej części lingwistyki komputerowej.

Sukces w rozwiązywaniu problemów stosowanych lingwistyki komputerowej zależy przede wszystkim od kompletności i dokładności reprezentacji środków deklaratywnych w pamięci komputera oraz od jakości środków proceduralnych. Do chwili obecnej wymagany poziom rozwiązania tych problemów nie został jeszcze osiągnięty, chociaż prace w dziedzinie lingwistyki komputerowej prowadzone są we wszystkich rozwiniętych krajach świata (Rosja, USA, Anglia, Francja, Niemcy, Japonia itp. ).

Niemniej jednak można odnotować poważne osiągnięcia naukowe i praktyczne w dziedzinie lingwistyki komputerowej. W ten sposób w wielu krajach (Rosja, USA, Japonia itp.) zbudowano eksperymentalne i przemysłowe systemy do maszynowego tłumaczenia tekstów z jednego języka na inny, zbudowano szereg eksperymentalnych systemów komunikacji z komputerami w języku naturalnym trwają prace nad stworzeniem banków danych terminologicznych, tezaurusów, dwujęzycznych i wielojęzycznych słowników maszynowych (Rosja, USA, Niemcy, Francja itp.), budowane są systemy automatycznej analizy i syntezy mowy ustnej (Rosja, USA, Japonia itp.) .), prowadzone są badania w zakresie konstrukcji modeli języka naturalnego.

Ważnym problemem metodologicznym stosowanej lingwistyki obliczeniowej jest prawidłowa ocena niezbędnej relacji pomiędzy komponentem deklaratywnym i proceduralnym systemów automatycznego przetwarzania informacji tekstowych. Co powinno być preferowane: potężne procedury obliczeniowe oparte na stosunkowo małych systemach słownictwa z bogatą informacją gramatyczną i semantyczną, czy też potężny komponent deklaratywny ze stosunkowo prostymi interfejsami komputerowymi? Większość naukowców uważa, że ​​lepszy jest drugi sposób. Szybciej doprowadzi to do osiągnięcia celów praktycznych, bo będzie mniej ślepych zaułków i trudnych przeszkód do pokonania, a tu będzie można na szerszą skalę wykorzystać komputery do automatyzacji badań i rozwoju.

Konieczność mobilizacji wysiłków przede wszystkim nad rozwojem komponentu deklaratywnego systemów automatycznego przetwarzania informacji tekstowych potwierdza półwieczne doświadczenie w rozwoju lingwistyki komputerowej. Przecież tutaj, pomimo niezaprzeczalnych sukcesów tej nauki, zamiłowanie do procedur algorytmicznych nie przyniosło oczekiwanego sukcesu. Doszło nawet do pewnego rozczarowania możliwościami środków proceduralnych.

W świetle powyższego obiecujące wydaje się opracowanie takiej ścieżki rozwoju lingwistyki komputerowej, gdzie główne wysiłki będą skierowane na tworzenie potężnych słowników języków i jednostek mowy, badanie ich struktury semantyczno-syntaktycznej oraz tworzenie podstawowych procedur morfologicznych, Analiza semantyczno-syntaktyczna i konceptualna oraz synteza tekstów. Pozwoli nam to w przyszłości rozwiązać szeroki zakres stosowanych problemów.

Przed lingwistyką komputerową stoją przede wszystkim zadania językowego wsparcia procesów gromadzenia, gromadzenia, przetwarzania i wyszukiwania informacji. Najważniejsze z nich to:

1. Automatyzacja kompilacji i przetwarzania językowego słowników maszynowych;

2. Automatyzacja procesów wykrywania i korygowania błędów przy wprowadzaniu tekstów do komputera;

3. Automatyczne indeksowanie dokumentów i wniosków o informacje;

4. Automatyczna klasyfikacja i abstrakcja dokumentów;

5. Wsparcie językowe procesów wyszukiwania informacji w jednojęzycznych i wielojęzycznych bazach danych;

6. Tłumaczenie maszynowe tekstów z jednego języka naturalnego na inny;

7. Budowa procesorów językowych zapewniających komunikację użytkownika ze zautomatyzowanymi inteligentnymi systemami informatycznymi (w szczególności systemami ekspertowymi) w języku naturalnym lub języku zbliżonym do naturalnego;

8. Wydobywanie informacji faktograficznych z tekstów nieformalnych.

Zatrzymajmy się szczegółowo nad problemami najbardziej istotnymi dla tematu badań.

W zajęcia praktyczne centrach informacyjnych istnieje potrzeba rozwiązania problemu automatycznego wykrywania i korygowania błędów w tekstach wprowadzanych do komputera. To złożone zadanie można warunkowo podzielić na trzy zadania - zadania kontroli ortograficznej, składniowej i semantycznej tekstów. Pierwszy z nich można rozwiązać za pomocą procedury analizy morfologicznej, która wykorzystuje dość potężny słownik maszynowy tematów wyrazów. W procesie kontroli pisowni słowa tekstu poddawane są analizie morfologicznej i jeśli ich podstawy zostaną utożsamione z podstawami słownika podręcznego, wówczas uznaje się je za prawidłowe; jeśli nie zostaną zidentyfikowane, wówczas wraz z mikrokontekstem są prezentowane osobie do obejrzenia. Osoba wykrywa i koryguje zniekształcone słowa, a odpowiedni system oprogramowania wprowadza te poprawki do poprawionego tekstu.

Zadanie kontroli syntaktycznej tekstów w celu wykrycia w nich błędów jest znacznie trudniejsze niż zadanie kontroli pisowni. Po pierwsze dlatego, że jako obowiązkowy element zawiera zadanie kontroli pisowni, a po drugie dlatego, że problem analizy składniowej tekstów nieformalnych nie został jeszcze w pełni rozwiązany. Jednak częściowa kontrola składniowa tekstów jest całkiem możliwa. Można to zrobić na dwa sposoby: albo skompilować w miarę reprezentatywne słowniki maszynowe referencyjnych struktur syntaktycznych i porównać z nimi struktury składniowe analizowanego tekstu; lub opracować złożony system reguł sprawdzania spójności gramatycznej elementów tekstu. Bardziej obiecująca wydaje nam się pierwsza ścieżka, choć oczywiście nie wyklucza ona możliwości wykorzystania elementów drugiej ścieżki. Strukturę syntaktyczną tekstów należy opisywać w kategoriach klas gramatycznych słów (dokładniej w postaci ciągów zbiorów informacji gramatycznej dla słów).

Zadanie kontroli semantycznej tekstów w celu wykrycia w nich błędów semantycznych należy zaliczyć do zadań sztuczna inteligencja. Można go w pełni rozwiązać jedynie na podstawie modelowania procesów ludzkiego myślenia. W tym przypadku najwyraźniej konieczne będzie stworzenie potężnych encyklopedycznych baz wiedzy i narzędzi programowych do manipulacji wiedzą. Niemniej jednak w przypadku ograniczonych obszarów tematycznych i sformalizowanych informacji zadanie to jest całkowicie wykonalne. Należy go postawić i rozwiązać jako problem semantyczno-syntaktycznego sterowania tekstami.

Wydział Filologiczny Wyższej Szkoły Ekonomicznej uruchamia nowy kierunek studiów magisterskich poświęcony lingwistyce obliczeniowej: mile widziani są kandydaci z wykształceniem humanitarnym i matematycznym Podstawowa edukacja oraz wszystkich zainteresowanych rozwiązywaniem problemów w jednej z najbardziej obiecujących dziedzin nauki. Jej dyrektorka, Anastasia Bonch-Osmolovskaya, opowiedziała Theories and Practitioners, czym jest lingwistyka obliczeniowa, dlaczego roboty nie zastąpią człowieka i czego będą uczyć w ramach studiów magisterskich HSE z lingwistyki obliczeniowej.

Program ten jest prawie jedyny w swoim rodzaju w Rosji. Gdzie się uczyłeś?

Studiowałem na Moskiewskim Uniwersytecie Państwowym na wydziale lingwistyki teoretycznej i stosowanej wydziału filologicznego. Nie trafiłem tam od razu, najpierw trafiłem na wydział rosyjski, ale potem poważnie zainteresowałem się lingwistyką i urzekła mnie atmosfera, która panuje na wydziale do dziś. Jest najważniejsza rzecz dobry kontakt pomiędzy nauczycielami i uczniami oraz ich obopólne interesy.

Kiedy miałam dzieci i musiałam zarabiać na życie, zajęłam się lingwistyką komercyjną. W 2005 roku nie było do końca jasne, na czym polega ten obszar działalności jako taki. Pracowałem w różnych firmach językowych: Zacząłem od małej firmy na stronie Public.ru - jest to rodzaj biblioteki multimediów, w której zacząłem pracować nad technologiami językowymi. Potem przez rok pracowałem w Rosnanotechu, gdzie pojawił się pomysł do zrealizowania portalu analitycznego dzięki czemu znajdujące się na nim dane są automatycznie strukturyzowane. Następnie kierowałem działem lingwistycznym w firmie Avicomp – to już poważna produkcja z zakresu lingwistyki komputerowej i technologii semantycznych. W tym samym czasie prowadziłem kurs lingwistyki komputerowej na Moskiewskim Uniwersytecie Państwowym i starałem się uczynić go bardziej nowoczesnym.

Dwa zasoby dla lingwisty: - strona stworzona przez lingwistów w celu badań naukowych i stosowanych związanych z językiem rosyjskim. Jest to model języka rosyjskiego, przedstawiony przy użyciu ogromnej gamy tekstów z różnych gatunków i epok. Teksty wyposażone są w znaczniki językowe, za pomocą których można uzyskać informacje o częstotliwości występowania określonych zjawisk językowych. Wordnet to ogromna leksykalna baza danych języka angielskiego; główną ideą Wordnetu jest połączenie nie słów, ale ich znaczeń w jedną dużą sieć. Wordnet można pobrać i używać do własnych projektów.

Czym zajmuje się lingwistyka komputerowa?

Jest to najbardziej interdyscyplinarna dziedzina. Najważniejsze jest tutaj zrozumienie, co się dzieje w elektronicznym świecie i kto pomoże Ci w konkretnych sprawach.

Otacza nas bardzo duża liczba informacji cyfrowej, istnieje wiele projektów biznesowych, których powodzenie zależy od przetwarzania informacji, projekty te mogą dotyczyć dziedziny marketingu, polityki, ekonomii i wszystkiego innego. A bardzo ważne jest, aby umieć efektywnie posługiwać się tymi informacjami – najważniejsza jest nie tylko szybkość przetwarzania informacji, ale także łatwość, z jaką po odfiltrowaniu szumu można pozyskać potrzebne dane i stworzyć kompletny zdjęcie z niego.

Wcześniej z lingwistyką komputerową kojarzono pewne globalne idee, np.: ludzie myśleli, że tłumaczenie maszynowe zastąpi tłumaczenie ludzkie, że zamiast ludzi będą działać roboty. Ale teraz wydaje się to utopią, a w wyszukiwarkach stosuje się tłumaczenie maszynowe, aby szybko wyszukiwać w nieznanym języku. Oznacza to, że obecnie lingwistyka rzadko zajmuje się abstrakcyjnymi problemami - głównie małymi rzeczami, które można włożyć do dużego produktu i na tym zarobić.

Jednym z dużych zadań współczesnej językoznawstwa jest sieć semantyczna, w której wyszukiwanie odbywa się nie tylko na podstawie dopasowania słów, ale także znaczenia, a wszystkie witryny są w taki czy inny sposób oznaczone semantyką. Może to być przydatne na przykład w przypadku raportów policyjnych lub medycznych sporządzanych codziennie. Analiza powiązań wewnętrznych wiele daje niezbędne informacje, a ręczne czytanie i liczenie jest niezwykle czasochłonne.

W skrócie mamy tysiąc tekstów, trzeba je posortować w grupy, przedstawić każdy tekst w formie struktury i otrzymać tabelę, z którą możemy już pracować. Nazywa się to nieustrukturyzowanym przetwarzaniem informacji. Z kolei lingwistyka komputerowa zajmuje się na przykład tworzeniem sztucznych tekstów. Jest taka firma, która wymyśliła mechanizm generowania tekstów na tematy, o których człowiekowi nudzi się pisanie: zmiany cen nieruchomości, prognoza pogody, raport o mecze piłki nożnej. Dużo droższe jest zamówienie takich tekstów na osobę, a teksty komputerowe na takie tematy pisane są spójnym, ludzkim językiem.

Yandex aktywnie angażuje się w rozwój w dziedzinie wyszukiwania nieustrukturyzowanych informacji w Rosji; Kaspersky Lab zatrudnia grupy badawcze badające uczenie maszynowe. Czy ktoś na rynku próbuje wymyślić coś nowego w dziedzinie lingwistyki komputerowej?

**Książki z zakresu lingwistyki komputerowej:**

Daniel Jurafsky, Przetwarzanie mowy i języka

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, „Wprowadzenie do wyszukiwania informacji”

Jakow Testelets, „Wprowadzenie do składni ogólnej”

Większość opracowań językowych jest własnością dużych firm, praktycznie nic nie można w nich znaleźć otwarty dostęp. To spowalnia rozwój branży, nie mamy wolnego rynku językowego i pakietowych rozwiązań.

Ponadto brakuje kompleksowych zasobów informacyjnych. Istnieje taki projekt jak Narodowy Korpus Języka Rosyjskiego. Jest to jeden z najlepszych budynków narodowych na świecie, który szybko się rozwija i otwiera niesamowite możliwości badań naukowych i stosowanych. Różnica jest mniej więcej taka sama jak w biologii – przed badaniami DNA i po.

Ale wiele zasobów nie istnieje w języku rosyjskim. Nie ma więc analogii do tak cudownego Zasób w języku angielskim, podobnie jak Framenet, jest siecią pojęciową, w której formalnie reprezentowane są wszystkie możliwe powiązania danego słowa z innymi słowami. Na przykład jest słowo „latać” - kto potrafi latać, gdzie, z jakim przyimkiem jest użyte to słowo, z jakimi słowami jest połączone i tak dalej. Ten zasób pomaga połączyć język z prawdziwe życie, czyli monitorować jego zachowanie konkretne słowo na poziomie morfologii i składni. To jest bardzo użyteczne.

Firma Avicomp pracuje obecnie nad wtyczką umożliwiającą wyszukiwanie artykułów o podobnej treści. Oznacza to, że jeśli interesuje Cię artykuł, możesz szybko zapoznać się z historią fabuły: kiedy pojawił się temat, co zostało napisane i kiedy było największe zainteresowanie tym problemem. Przykładowo za pomocą tej wtyczki będzie można, zaczynając od artykułu poświęconego wydarzeniom w Syrii, bardzo szybko sprawdzić, jak podczas ostatni rok rozwinęły się tam wydarzenia.

Jak będzie zorganizowany proces uczenia się w programie magisterskim?

Kształcenie w HSE jest zorganizowane w odrębnych modułach, podobnie jak na zachodnich uniwersytetach. Studenci zostaną podzieleni na małe zespoły, ministartupy – czyli powinniśmy otrzymać kilka skończone projekty. Chcemy uzyskać prawdziwe produkty, które następnie udostępnimy ludziom i pozostawimy w domenie publicznej.

Oprócz bezpośrednich kierowników projektów uczniów, chcemy znaleźć dla nich kuratorów spośród ich potencjalnych pracodawców - na przykład tego samego Yandexa, którzy również zagrają w tę grę i udzielą uczniom rad.

Mam nadzieję, że ludzie z jak najbardziej różne obszary: programiści, lingwiści, socjolodzy, marketerzy. Będziemy mieli kilka kursów adaptacyjnych z lingwistyki, matematyki i programowania. Potem będziemy mieli dwa poważne kierunki z lingwistyki, które będą związane z najnowszymi teoriami językowymi; chcemy, aby nasi absolwenci potrafili czytać i rozumieć współczesne artykuły językoznawcze. Podobnie jest z matematyką. Będziemy mieć kurs zatytułowany „Matematyczne podstawy lingwistyki obliczeniowej”, który zarysuje te gałęzie matematyki, na których opiera się współczesna lingwistyka obliczeniowa.

Aby zapisać się na studia magisterskie, musisz zdać egzamin Egzamin wstępny języka i zdać konkurs na portfolio.

Oprócz przedmiotów głównych w ofercie znajdzie się szereg przedmiotów do wyboru.Zaplanowaliśmy kilka cykli – dwa z nich skupiają się na pogłębionym zapoznaniu się z poszczególnymi tematami, do których zalicza się np. tłumaczenie maszynowe i lingwistyka korpusowa, a jeden, przeciwnie, jest związany z pokrewnymi obszarami: takimi jak , Media społecznościowe, uczenie maszynowe czy humanistyka cyfrowa – kierunek, na którym, mamy nadzieję, będzie nauczany język angielski.

PRACA KURSOWA

w dyscyplinie „Informatyka”

na temat: „Lingwistyka komputerowa”


WSTĘP

2. Nowoczesne interfejsy dla lingwistyki komputerowej

WNIOSEK

LITERATURA


Wstęp

Zautomatyzowane technologie informacyjne odgrywają ważną rolę w życiu współczesnego społeczeństwa. Z biegiem czasu ich znaczenie stale rośnie. Ale rozwój technologii informatycznych jest bardzo nierówny: jeśli nowoczesny poziom technologii komputerowej i komunikacji jest niesamowity, to w dziedzinie semantycznego przetwarzania informacji sukcesy są znacznie skromniejsze. Sukcesy te zależą przede wszystkim od osiągnięć w badaniu procesów ludzkiego myślenia, procesów werbalnej komunikacji między ludźmi oraz umiejętności modelowania tych procesów na komputerze.

Jeśli chodzi o tworzenie obiecujących technologii informatycznych, na pierwszy plan wysuwają się problemy automatycznego przetwarzania informacji tekstowych prezentowanych w językach naturalnych. Wynika to z faktu, że myślenie danej osoby jest ściśle związane z jej językiem. Co więcej, język naturalny jest narzędziem myślenia. Jest także uniwersalnym środkiem komunikacji między ludźmi – środkiem percepcji, gromadzenia, przechowywania, przetwarzania i przekazywania informacji. Nauka lingwistyki komputerowej zajmuje się problematyką wykorzystania języka naturalnego w systemach automatycznego przetwarzania informacji. Nauka ta powstała stosunkowo niedawno – na przełomie lat pięćdziesiątych i sześćdziesiątych ubiegłego wieku. W ciągu ostatniego półwiecza uzyskano znaczące wyniki naukowe i praktyczne w dziedzinie lingwistyki komputerowej: systemy maszynowego tłumaczenia tekstów z jednego języka naturalnego na inny, systemy automatycznego wyszukiwania informacji w tekstach, systemy automatycznej analizy i syntezy wypowiedzi ustnych mowy i wiele innych zostało stworzonych. Niniejsza praca poświęcona jest budowie optymalnego interfejsu komputerowego z wykorzystaniem lingwistyki komputerowej podczas prowadzenia badań lingwistycznych.


1. Miejsce i rola lingwistyki komputerowej w badaniach językoznawczych

We współczesnym świecie lingwistyka komputerowa jest coraz częściej wykorzystywana do prowadzenia różnych badań językowych.

Lingwistyka komputerowa jest dziedziną wiedzy związaną z rozwiązywaniem problemów automatycznego przetwarzania informacji prezentowanych w języku naturalnym. Centralnymi problemami naukowymi lingwistyki komputerowej są problem modelowania procesu rozumienia znaczenia tekstów (przejście od tekstu do sformalizowanej reprezentacji jego znaczenia) oraz problem syntezy mowy (przejście od sformalizowanej reprezentacji znaczenia do tekstów w języku naturalnym język). Problemy te powstają przy rozwiązywaniu szeregu problemów stosowanych, a w szczególności problemów automatycznego wykrywania i korygowania błędów przy wprowadzaniu tekstów do komputera, automatycznej analizy i syntezy mowy ustnej, automatycznego tłumaczenia tekstów z jednego języka na drugi, komunikacji z komputer w języku naturalnym, automatyczna klasyfikacja i indeksowanie dokumentów tekstowych, automatyczne ich wyodrębnianie, wyszukiwanie dokumentów w pełnotekstowych bazach danych.

Narzędzia językowe tworzone i wykorzystywane w lingwistyce obliczeniowej można podzielić na dwie części: deklaratywną i proceduralną. Część deklaratywna obejmuje słowniki jednostek języka i mowy, teksty oraz różnego rodzaju tablice gramatyczne, część proceduralna obejmuje środki manipulacji jednostkami języka i mowy, tekstami i tablicami gramatycznymi. Interfejs komputerowy odnosi się do proceduralnej części lingwistyki komputerowej.

Sukces w rozwiązywaniu problemów stosowanych lingwistyki komputerowej zależy przede wszystkim od kompletności i dokładności reprezentacji środków deklaratywnych w pamięci komputera oraz od jakości środków proceduralnych. Do chwili obecnej wymagany poziom rozwiązania tych problemów nie został jeszcze osiągnięty, chociaż prace w dziedzinie lingwistyki komputerowej prowadzone są we wszystkich rozwiniętych krajach świata (Rosja, USA, Anglia, Francja, Niemcy, Japonia itp. ).

Niemniej jednak można odnotować poważne osiągnięcia naukowe i praktyczne w dziedzinie lingwistyki komputerowej. W ten sposób w wielu krajach (Rosja, USA, Japonia itp.) zbudowano eksperymentalne i przemysłowe systemy do maszynowego tłumaczenia tekstów z jednego języka na inny, zbudowano szereg eksperymentalnych systemów komunikacji z komputerami w języku naturalnym trwają prace nad stworzeniem banków danych terminologicznych, tezaurusów, dwujęzycznych i wielojęzycznych słowników maszynowych (Rosja, USA, Niemcy, Francja itp.), budowane są systemy automatycznej analizy i syntezy mowy ustnej (Rosja, USA, Japonia itp.) .), prowadzone są badania w zakresie konstrukcji modeli języka naturalnego.

Ważnym problemem metodologicznym stosowanej lingwistyki obliczeniowej jest prawidłowa ocena niezbędnej relacji pomiędzy komponentem deklaratywnym i proceduralnym systemów automatycznego przetwarzania informacji tekstowych. Co powinno być preferowane: potężne procedury obliczeniowe oparte na stosunkowo małych systemach słownictwa z bogatą informacją gramatyczną i semantyczną, czy też potężny komponent deklaratywny ze stosunkowo prostymi interfejsami komputerowymi? Większość naukowców uważa, że ​​lepszy jest drugi sposób. Szybciej doprowadzi to do osiągnięcia celów praktycznych, bo będzie mniej ślepych zaułków i trudnych przeszkód do pokonania, a tu będzie można na szerszą skalę wykorzystać komputery do automatyzacji badań i rozwoju.

Konieczność mobilizacji wysiłków przede wszystkim nad rozwojem komponentu deklaratywnego systemów automatycznego przetwarzania informacji tekstowych potwierdza półwieczne doświadczenie w rozwoju lingwistyki komputerowej. Przecież tutaj, pomimo niezaprzeczalnych sukcesów tej nauki, zamiłowanie do procedur algorytmicznych nie przyniosło oczekiwanego sukcesu. Doszło nawet do pewnego rozczarowania możliwościami środków proceduralnych.

W świetle powyższego obiecujące wydaje się opracowanie takiej ścieżki rozwoju lingwistyki komputerowej, gdzie główne wysiłki będą skierowane na tworzenie potężnych słowników języków i jednostek mowy, badanie ich struktury semantyczno-syntaktycznej oraz tworzenie podstawowych procedur morfologicznych, Analiza semantyczno-syntaktyczna i konceptualna oraz synteza tekstów. Pozwoli nam to w przyszłości rozwiązać szeroki zakres stosowanych problemów.

Przed lingwistyką komputerową stoją przede wszystkim zadania językowego wsparcia procesów gromadzenia, gromadzenia, przetwarzania i wyszukiwania informacji. Najważniejsze z nich to:

1. Automatyzacja kompilacji i przetwarzania językowego słowników maszynowych;

2. Automatyzacja procesów wykrywania i korygowania błędów przy wprowadzaniu tekstów do komputera;

3. Automatyczne indeksowanie dokumentów i wniosków o informacje;

4. Automatyczna klasyfikacja i abstrakcja dokumentów;

5. Wsparcie językowe procesów wyszukiwania informacji w jednojęzycznych i wielojęzycznych bazach danych;

6. Tłumaczenie maszynowe tekstów z jednego języka naturalnego na inny;

7. Budowa procesorów językowych zapewniających komunikację użytkownika ze zautomatyzowanymi inteligentnymi systemami informatycznymi (w szczególności systemami ekspertowymi) w języku naturalnym lub języku zbliżonym do naturalnego;

8. Wydobywanie informacji faktograficznych z tekstów nieformalnych.

Zatrzymajmy się szczegółowo nad problemami najbardziej istotnymi dla tematu badań.

W praktycznej działalności ośrodków informacyjnych istnieje potrzeba rozwiązania problemu automatycznego wykrywania i korygowania błędów w tekstach wprowadzanych do komputera. To złożone zadanie można warunkowo podzielić na trzy zadania - zadania kontroli ortograficznej, składniowej i semantycznej tekstów. Pierwszy z nich można rozwiązać za pomocą procedury analizy morfologicznej, która wykorzystuje dość potężny słownik maszynowy tematów wyrazów. W procesie kontroli pisowni słowa tekstu poddawane są analizie morfologicznej i jeśli ich podstawy zostaną utożsamione z podstawami słownika podręcznego, wówczas uznaje się je za prawidłowe; jeśli nie zostaną zidentyfikowane, wówczas wraz z mikrokontekstem są prezentowane osobie do obejrzenia. Osoba wykrywa i koryguje zniekształcone słowa, a odpowiedni system oprogramowania wprowadza te poprawki do poprawionego tekstu.

Zadanie kontroli syntaktycznej tekstów w celu wykrycia w nich błędów jest znacznie trudniejsze niż zadanie kontroli pisowni. Po pierwsze dlatego, że jako obowiązkowy element zawiera zadanie kontroli pisowni, a po drugie dlatego, że problem analizy składniowej tekstów nieformalnych nie został jeszcze w pełni rozwiązany. Jednak częściowa kontrola składniowa tekstów jest całkiem możliwa. Można to zrobić na dwa sposoby: albo skompilować w miarę reprezentatywne słowniki maszynowe referencyjnych struktur syntaktycznych i porównać z nimi struktury składniowe analizowanego tekstu; lub opracować złożony system reguł sprawdzania spójności gramatycznej elementów tekstu. Bardziej obiecująca wydaje nam się pierwsza ścieżka, choć oczywiście nie wyklucza ona możliwości wykorzystania elementów drugiej ścieżki. Strukturę syntaktyczną tekstów należy opisywać w kategoriach klas gramatycznych słów (dokładniej w postaci ciągów zbiorów informacji gramatycznej dla słów).

Zadanie semantycznej kontroli tekstów w celu wykrycia w nich błędów semantycznych należy zaliczyć do klasy zadań sztucznej inteligencji. Można go w pełni rozwiązać jedynie na podstawie modelowania procesów ludzkiego myślenia. W tym przypadku najwyraźniej konieczne będzie stworzenie potężnych encyklopedycznych baz wiedzy i narzędzi programowych do manipulacji wiedzą. Niemniej jednak w przypadku ograniczonych obszarów tematycznych i sformalizowanych informacji zadanie to jest całkowicie wykonalne. Należy go postawić i rozwiązać jako problem semantyczno-syntaktycznego sterowania tekstami.

Problem automatyzacji indeksowania dokumentów i zapytań jest tradycyjny w przypadku zautomatyzowanych systemów wyszukiwania informacji tekstowych. Początkowo indeksowanie rozumiano jako proces nadawania dokumentom i zapytaniom indeksów klasyfikacyjnych odzwierciedlających ich zawartość tematyczną. Następnie koncepcja ta uległa transformacji i termin „indeksowanie” zaczął odnosić się do procesu tłumaczenia opisów dokumentów i zapytań z języka naturalnego na język sformalizowany, w szczególności na język „obrazów wyszukiwania”. Wyszukiwanie obrazów dokumentów zaczęto z reguły przedstawiać w formie list słowa kluczowe i frazy odzwierciedlające ich treść tematyczną oraz obrazy zapytań - w formie konstrukcji logicznych, w których słowa kluczowe i frazy zostały ze sobą powiązane za pomocą operatorów logicznych i syntaktycznych.

Wygodne jest automatyczne indeksowanie dokumentów na podstawie tekstów ich abstraktów (jeśli istnieją), ponieważ abstrakty odzwierciedlają główną treść dokumentów w skoncentrowanej formie. Indeksowanie można przeprowadzić z kontrolą tezaurusa lub bez niej. W pierwszym przypadku w tekście tytułu dokumentu i jego streszczenia wyszukiwane są słowa i frazy kluczowe słownika maszynowego odniesienia i do AML włączane są tylko te, które w nim się znajdują. W drugim przypadku słowa i frazy kluczowe są izolowane z tekstu i umieszczane w POD, niezależnie od ich przynależności do jakiegokolwiek słownika referencyjnego. Wdrożono także trzecią opcję, gdzie obok terminów z tezaurusu maszynowego w AML znalazły się także terminy wyodrębnione z tytułu i pierwszego zdania streszczenia dokumentu. Eksperymenty wykazały, że POD kompilowane automatycznie przy użyciu tytułów i streszczeń dokumentów zapewniają większą kompletność wyszukiwania niż POD kompilowane ręcznie. Wyjaśnia to fakt, że automatyczny system indeksowania pełniej odzwierciedla różne aspekty treści dokumentu niż ręczny system indeksowania.

Automatyczne indeksowanie zapytań stwarza mniej więcej te same problemy, co automatyczne indeksowanie dokumentów. Tutaj również musisz wyodrębnić słowa kluczowe i frazy z tekstu oraz znormalizować słowa zawarte w tekście zapytania. Powiązania logiczne pomiędzy słowami kluczowymi i frazami oraz operatorami kontekstowymi można wprowadzać ręcznie lub za pomocą zautomatyzowanej procedury. Istotnym elementem procesu automatycznego indeksowania zapytania jest dodanie składających się na nie słów kluczowych i wyrażeń wraz z ich synonimami i hiponimami (czasami także hiperonimami i innymi terminami kojarzonymi z hasłami oryginalnego zapytania). Można to zrobić automatycznie lub interaktywnie, korzystając z tezaurusu maszynowego.

Częściowo rozważaliśmy już problem automatyzacji wyszukiwania informacji dokumentacyjnych w związku z zadaniem automatycznego indeksowania. Najbardziej obiecujące jest tutaj wyszukiwanie dokumentów z wykorzystaniem ich pełnych tekstów, gdyż stosowanie w tym celu wszelkiego rodzaju zamienników (opisów bibliograficznych, obrazów wyszukiwania dokumentów i tekstów ich abstraktów) prowadzi do utraty informacji w trakcie wyszukiwania. Największe straty powstają w przypadku stosowania opisów bibliograficznych w zastępstwie dokumentów pierwotnych, a najmniejsze w przypadku stosowania abstraktów.

Ważnymi cechami jakości wyszukiwania informacji są ich kompletność i dokładność. Kompletność poszukiwań można zapewnić poprzez maksymalne uwzględnienie paradygmatycznych powiązań między jednostkami języka i mowy (słowa i frazy), a dokładność - poprzez uwzględnienie ich powiązań syntagmatycznych. Istnieje opinia, że ​​​​kompletność i dokładność wyszukiwania są odwrotnie powiązane: działania mające na celu poprawę jednej z tych cech prowadzą do pogorszenia drugiej. Ale dotyczy to tylko ustalonej logiki wyszukiwania. Jeśli ulepszymy tę logikę, wówczas obie cechy można poprawić jednocześnie.

Wskazane jest budowanie procesu wyszukiwania informacji w pełnotekstowych bazach danych jako procesu interaktywnej komunikacji pomiędzy użytkownikiem a systemem wyszukiwania informacji (IRS), w którym przegląda on sekwencyjnie fragmenty tekstu (akapity) spełniające warunki logiczne żądanie i wybiera te, które są dla niego istotne i są interesujące. Ostateczne wyniki wyszukiwania mogą pojawić się jako pełne teksty dokumentów i ich fragmentów.

Jak widać z poprzednich dyskusji, automatyczne wyszukiwanie informacji wymaga pokonania bariera językowa, powstające pomiędzy użytkownikiem a systemem informacyjnym w związku z różnorodnością form reprezentacji tego samego znaczenia, jaka występuje w tekstach. Bariera ta staje się tym bardziej znacząca, jeżeli przeszukiwanie musi odbywać się w wielojęzycznych bazach danych. Radykalnym rozwiązaniem problemu mogłoby być automatyczne tłumaczenie tekstów dokumentów z jednego języka na drugi. Można to zrobić albo z wyprzedzeniem, przed załadowaniem dokumentów do wyszukiwarki, albo w trakcie wyszukiwania informacji. W ten ostatni przypadekŻądanie użytkownika musi zostać przetłumaczone na język zbioru dokumentów, w którym prowadzone jest wyszukiwanie, a wyniki wyszukiwania muszą zostać przetłumaczone na język żądania. Tego rodzaju Wyszukiwarki już pracuje w internecie. VINITI RAS zbudowało także system Cyrillic Browser, który umożliwia wyszukiwanie informacji w tekstach rosyjskojęzycznych za pomocą zapytań w języku angielskim z wynikami wyszukiwania także w języku użytkownika.

Ważnym i obiecującym zadaniem lingwistyki komputerowej jest budowa procesorów językowych zapewniających komunikację użytkownika z inteligentnymi zautomatyzowanymi systemami informacyjnymi (w szczególności systemami ekspertowymi) w języku naturalnym lub języku zbliżonym do naturalnego. Ponieważ we współczesnych inteligentnych systemach informacje są przechowywane w sformalizowanej formie, procesory językowe, pełniąc rolę pośredników między człowiekiem a komputerem, muszą rozwiązać następujące główne zadania: 1) zadanie przejścia z tekstów żądań informacji wejściowych i komunikatów w języku naturalnym język do przedstawienia ich znaczenia w sformalizowanym języku (przy wprowadzaniu informacji do komputera); 2) zadanie przejścia od sformalizowanej reprezentacji znaczenia komunikatów wyjściowych do jej reprezentacji w języku naturalnym (przy przekazywaniu informacji osobie). Pierwsze zadanie należy rozwiązać poprzez analizę morfologiczną, syntaktyczną i pojęciową zapytań i komunikatów wejściowych, drugie - poprzez syntezę pojęciową, syntaktyczną i morfologiczną komunikatów wyjściowych.

Analiza pojęciowa żądań i komunikatów informacyjnych polega na rozpoznaniu ich struktury pojęciowej (granic nazw pojęć i relacji pomiędzy pojęciami w tekście) i przełożeniu tej struktury na język sformalizowany. Przeprowadza się ją po analizie morfologicznej i składniowej żądań i komunikatów. Synteza pojęciowa komunikatów polega na przejściu od reprezentacji elementów ich struktury w sformalizowanym języku do reprezentacji werbalnej (werbalnej). Następnie komunikatom nadawany jest niezbędny format syntaktyczny i morfologiczny.

Do maszynowego tłumaczenia tekstów z jednego języka naturalnego na inny konieczne jest posiadanie słowników zgodności tłumaczeniowej pomiędzy nazwami pojęć. Wiedzę na temat takich korespondencji tłumaczeniowych gromadziło wiele pokoleń ludzi i została opracowana w formie specjalnych publikacji - słowników dwujęzycznych lub wielojęzycznych. Dla specjalistów posiadających pewną wiedzę nt języki obce słowniki te stanowiły cenną pomoc w tłumaczeniu tekstów.

W tradycyjnych dwujęzycznych i wielojęzycznych słownikach ogólnego przeznaczenia ekwiwalenty tłumaczeniowe wskazywano przede wszystkim dla pojedynczych słów, a dla fraz – znacznie rzadziej. Wskazanie odpowiedników tłumaczeniowych fraz było bardziej typowe dla specjalistycznych słowników terminologicznych. Dlatego podczas tłumaczenia fragmentów tekstów zawierających wyrazy wieloznaczne uczniowie często napotykali trudności.

Poniżej znajdują się powiązania tłumaczeniowe pomiędzy kilkoma parami zwrotów angielskich i rosyjskich na tematy „szkolne”.

1) Nietoperz wygląda jak mysz ze skrzydłami – Nietoperz wygląda jak mysz ze skrzydłami.

2) Dzieci lubią bawić się w piasku na plaży - Dzieci uwielbiają bawić się w piasku nad brzegiem morza.

3) Kropla deszczu spadła na moją rękę - Kropla deszczu spadła na moją rękę.

4) Suche drewno łatwo się pali – suche drewno pali się dobrze.

5) Udawał, że mnie nie słyszy - Udawał, że mnie nie słyszy.

Tutaj Zwroty angielskie nie są wyrażeniami idiomatycznymi. Jednak ich tłumaczenie na język rosyjski można tylko w pewnym stopniu uznać za proste tłumaczenie słowo po słowie, ponieważ prawie wszystkie zawarte w nich słowa są niejednoznaczne. Dlatego studentom mogą tu pomóc jedynie osiągnięcia lingwistyki komputerowej.

Plan:

1. Czym jest lingwistyka komputerowa?

2. Przedmiot i przedmiot lingwistyki komputerowej

4. Problemy lingwistyki komputerowej

5. Metody badawcze lingwistyki komputerowej

6. Historia i przyczyny powstania lingwistyki komputerowej

7. Podstawowe pojęcia lingwistyki komputerowej

8. Naukowcy pracujący nad problemem lingwistyki komputerowej

9. Stowarzyszenia i konferencje dotyczące lingwistyki komputerowej

10. Wykorzystana literatura.


Lingwistyka komputerowa – samodzielny kierunek lingwistyki stosowanej, skupiający się na wykorzystaniu komputerów do rozwiązywania problemów związanych z użyciem języka naturalnego. (Schilikhina K.M.)


Lingwistyka komputerowa– będąc jedną z dziedzin lingwistyki stosowanej, zajmuje się lingwistycznymi podstawami informatyki oraz wszelkimi aspektami powiązań języka z myśleniem, modelowaniem języka i myślenia w środowisku komputerowym za pomocą programów komputerowych, a jej zainteresowania skupiają się w obszarach: 1) optymalizacja komunikacji w oparciu o wiedzę językową 2) tworzenie interfejsu języka naturalnego i typologii rozumienia języka na potrzeby komunikacji człowiek-maszyna 3) tworzenie i modelowanie informatycznych systemów informatycznych (Sosnina E.P.)


Przedmiot lingwistyki komputerowej– analiza języka w jego stanie naturalnym, jakim jest używany przez ludzi różne sytuacje komunikacji i sposobu formułowania cech języka.


Zadania lingwistyki komputerowej:


Metody badawcze lingwistyki komputerowej:

1. metoda modelowania- specjalny przedmiot badań, którego nie można uzyskać poprzez bezpośrednią obserwację. Według definicji matematyka K. Shannona model to reprezentacja obiektu w jakiejś formie odmiennej od formy jego rzeczywistego istnienia.

2. metoda teorii reprezentacji wiedzy implikuje metody reprezentacji wiedzy zorientowane na automatyczne przetwarzanie przez nowoczesne komputery.

3. Metoda teorii języka programowania(teoria języka programowania) to dziedzina informatyki zajmująca się projektowaniem, analizą, charakteryzacją, klasyfikacją i badaniem języków programowania Cechy indywidulane.


Przyczyny powstania lingwistyki komputerowej

1. Pojawienie się komputerów

2. Problem komunikacji z komputerami nieprzeszkolonych użytkowników


1. System wyszukiwania słownikowego opracowany w Birkbeck College w Londynie w 1948 roku.

2. Memorandum Warrena Weavera

3. Początek wprowadzenia pierwszych komputerów w dziedzinie tłumaczeń maszynowych

4. Projekt Georgetown w 1954 r


1. ALPAC (Komitet Doradczy ds. Automatycznego Przetwarzania Języka) / Komitet Doradczy ds. Automatycznego Przetwarzania Języka 2. Nowa scena w rozwoju technologii komputerowych i ich zastosowań aktywne użytkowanie w problematyce językowej 3. tworzeniu nowej generacji komputerów i języków programowania 4. rosnącym zainteresowaniu tłumaczeniem maszynowym 60

-70-te XX wieku


Koniec lat 80. – początek 90. ​​XX wieku

    Powstanie i aktywny rozwój Internetu

  • Gwałtowny wzrost ilości informacji tekstowych w formie elektronicznej

  • Potrzeba automatycznego przetwarzania tekstów w języku naturalnym


1. Produkty PROMT i ABBY (Lingvo) 2. Technologie tłumaczeń maszynowych 3. Technologie pamięci tłumaczeniowych

Nowoczesne systemy komercyjne

  • Odświeżanie tekstów

  • Modele komunikacji

  • Leksykografia komputerowa

  • Tłumaczenie maszynowe

  • Korpus tekstów


Analiza tekstu w języku naturalnym

3 poziomy struktury tekstu:
  • Powierzchniowa struktura składniowa

  • Głęboka struktura syntaktyczna

  • Poziom semantyczny


Problem syntezy jest odwrotnością problemu analizy

Ożywianie tekstu

1. Wymiana tekstów poprzez obrazy wizualne na ekranie wyświetlacza

2. 2 modalności ludzkiego myślenia: symboliczne i wizualne.


1. Naśladowanie procesu komunikacji. 2. Stworzenie efektywnego modelu dialogu Modele komunikacji


Hipertekst- specjalny sposób organizacji i prezentacji tekstu, w którym można połączyć ze sobą kilka tekstów lub fragmentów tekstu różne rodzaje znajomości.


Różnice między hipertekstem a tekstem tradycyjnym

Hipertekst

    1. przetwarzanie języka mówionego

  • 2. przetwarzanie tekstu pisanego


Przetwarzanie mowy mówionej

1. automatyczna synteza mowy

A) rozwój syntezatorów zamiany tekstu na mowę. Zawiera 2 bloki: blok przetwarzania tekstu językowego I blok syntezy akustycznej.

2. automatyczne rozpoznawanie mowy


1) rozpoznawanie tekstu

2) analiza tekstu

3) synteza tekstu


IRS (system wyszukiwania informacji)– są to systemy oprogramowania służące do przechowywania, wyszukiwania i wydawania interesujących informacji.

Zacharow V.P. wierzy, że IPS to uporządkowany zbiór dokumentów i technologii informacyjnych przeznaczony do przechowywania i wyszukiwania informacji - tekstów lub danych.


3 rodzaje IPS

3 rodzaje IPS

    podręcznik- To jest wyszukiwanie w bibliotece.

  • Zmechanizowany IPS to środki techniczne zapewniające wybór niezbędnych dokumentów

  • Automatyczny- wyszukiwanie informacji za pomocą komputerów


Leksykografia komputerowa

Leksykografia komputerowa– jedna z ważnych dziedzin lingwistyki stosowanej, zajmuje się teorią i praktyką tworzenia słowników.

W leksykografii wyróżnia się 2 kierunki:
  • Tradycyjna leksykografia kompiluje tradycyjne słowniki

  • Leksykografia maszynowa zajmuje się automatyzacją tworzenia słowników oraz rozwiązuje problemy tworzenia słowników elektronicznych


Zadania leksykografii komputerowej

  • Automatyczne uzyskiwanie różnych słowników z tekstu

  • Tworzenie słowników będących wersjami elektronicznymi słowników tradycyjnych lub złożonych elektronicznych słowników językowych do pracy ze słownikami tradycyjnymi np. LINGVO

  • Opracowanie teoretycznych i praktycznych aspektów tworzenia specjalnych słowników komputerowych, np. do wyszukiwania informacji, tłumaczenia maszynowego


Tłumaczenie maszynowe

Tłumaczenie maszynowe– konwersja tekstu w jednym języku naturalnym na inny język naturalny za pomocą komputera.

Rodzaje tłumaczeń maszynowych
  • FAMT(Fully Automated Machine Translation) – tłumaczenie w pełni automatyczne

  • HAMT(Human Aided Machine Translation) – tłumaczenie maszynowe z udziałem człowieka

  • MAHT(Machine Aided Human Translation) – tłumaczenie wykonywane przez osobę przy pomocy oprogramowania pomocniczego i narzędzi językowych.


  • 2) zawodowy poseł– tłumaczenie wyższej jakości, po którym następuje redakcja przez człowieka

  • 3) interaktywny poseł– uważa się za tłumaczenie w specjalnych systemach wsparcia, odbywa się w trybie dialogu z system komputerowy. Jakość MP zależy od opcji dostosowywania, zasobów i rodzaju tekstów.

Korpus tekstów

Korpus tekstów- jest to pewien zbiór tekstów, który opiera się na koncepcji logicznej, logicznej idei spajającej te teksty.

Korpus językowy- duży, prezentowany elektronicznie, ujednolicony, ustrukturyzowany, oznaczony, filologicznie kompetentny zestaw danych językowych, zaprojektowany w celu rozwiązania określonych problemów językowych.


Reprezentatywność jest najważniejszą właściwością korpusu


Celem korpusu językowego jest pokazanie funkcjonowania jednostek językowych w ich naturalnym środowisku kontekstowym



Na podstawie korpusu można uzyskać następujące dane:

1. o częstotliwości kategorie gramatyczne

2. o zmianach częstotliwości

3. o zmianach kontekstów w różnych okresach czasu

5. o współwystępowaniu jednostek leksykalnych

6. o cechach ich kompatybilności


Korpus Brązowy


Korpus tekstów - jest to pewien zbiór tekstów, który opiera się na koncepcji logicznej, logicznej idei spajającej te teksty. Ucieleśnienie tej logicznej idei: zasady organizowania tekstów w korpus, algorytmy i programy do analizy korpusu tekstów, związana z nimi ideologia i metodologia. Korpus Narodowy Jest dany język na pewnym etapie (lub etapach) swojego istnienia i w całej różnorodności gatunków, stylów, opcji terytorialnych i społecznych itp. Podstawowe pojęcia lingwistyki komputerowej

    Języki programowania (LP) to klasa języków sztucznych przeznaczonych do przetwarzania informacji za pomocą komputera. Każdy język programowania jest ścisłym (formalnym) systemem znaków, za pomocą którego pisane są programy komputerowe. Według różnych szacunków obecnie istnieje od tysiąca do dziesięciu tysięcy różnych języków programowania.

  • Informatyka(Informatyka) - nauka o wzorach rejestrowania, przechowywania, przetwarzania, przesyłania i wykorzystywania informacji za pomocą środków technicznych.



Szukać informacji (Wyszukiwanie informacji) to proces wyszukiwania takich dokumentów (tekstów, zapisów i

itp.), które odpowiadają otrzymanemu żądaniu.

« System wyszukiwania informacji (IPS) to uporządkowany zbiór dokumentów (tablice dokumentów) i technologie informacyjne przeznaczone do przechowywania i wyszukiwania informacji - tekstów (dokumentów) lub danych (fakty).

Leksykografia maszynowa(leksykografia obliczeniowa) zajmuje się automatyzacją przygotowywania słowników i rozwiązuje problemy rozwoju elektronicznego

słowniki.

Tłumaczenie maszynowe to komputerowa transformacja tekstu na jeden

język naturalny na tekst o równoważnej treści w innym języku

język naturalny.

Hipertekst to technologia organizowania informacji i specjalnie ustrukturyzowanego tekstu, podzielonego na osobne bloki, posiadające nieliniową prezentację, w celu efektywnej prezentacji informacji w środowiskach komputerowych.


    Rama jest strukturą reprezentującą deklaratywną wiedzę o typizowanej, tematycznie ujednoliconej sytuacji, tj. struktura danych o stereotypowej sytuacji.

  • Scenariusz - jest to sekwencja kilku epizodów w czasie, jest to także przedstawienie stereotypowej sytuacji lub stereotypowego zachowania, jedynie elementami scenariusza są kroki algorytmu lub instrukcje.
  • Plan – reprezentacja wiedzy o możliwych działaniach niezbędnych do osiągnięcia określonego celu.



Naukowcy zajmujący się lingwistyką obliczeniową:

  • Naukowcy radzieccy i rosyjscy: Alexey Lyapunov, Igor Melchuk, Olga Kulagina, Yu.D. Apresyan, N.N. Leontyeva, Yu.S. Martemyanov, Z.M. Shalyapina, Igor Boguslavsky, A.S. Narignani, A.E. Kibrik, Baranov A.N.

  • Zachodni naukowcy W rolach głównych: Yorick Wilks, Gregory Grefenstette, Gravil Corbett, John Carroll, Diana McCarthy, Luis Marquez, Dan Moldovan, Joakim Nivre, Victor Raskin, Eduard Hovey.


Stowarzyszenia i konferencje z zakresu lingwistyki komputerowej:
  • "Dialog"- główna rosyjska konferencja nt lingwistyka komputerowa z udziałem międzynarodowym.

Priorytetem Dialogu jest modelowanie komputerowe Język rosyjski. Językami roboczymi konferencji są rosyjski i angielski. Główna część, aby przyciągnąć zagranicznych recenzentów prace stosowane serwowane w języku angielskim.

Główne kierunki konferencji:
  • Semantyka językowa i analizę semantyczną

  • Modele języka formalnego i ich zastosowania

  • Teoretyczne i komputerowe leksykografia

  • Metody oceny systemów analizy tekstu i tłumaczenia maszynowego

  • Językoznawstwo korpusowe. Tworzenie, zastosowanie, ocena korpusów

  • Internet jako źródło językowe. Technologie językowe w Internecie

  • Ontologie. Ekstrakcja wiedzy z tekstów

  • Komputerowa analiza dokumentów: abstrakcja, Klasyfikacja, szukaj

  • Automatyczna analiza nastrojów w tekstach

  • Tłumaczenie maszynowe

  • Modele komunikacji. Komunikacja, dialog i akt mowy

  • Analiza i synteza mowy



2. Stowarzyszenie Lingwistyki Komputerowej (ACL) to międzynarodowe stowarzyszenie naukowo-zawodowe skupiające osoby pracujące nad problemami związanymi z językiem naturalnym i informatyką. Coroczne spotkania odbywają się każdego lata w lokalizacjach, w których prowadzone są znaczące badania z zakresu lingwistyki obliczeniowej. Założona w 1962 roku, pierwotnie nazwany Stowarzyszenie Tłumaczeń Maszynowych i Lingwistyki Komputerowej (AMTCL). W 1968 roku zmieniło nazwę na ACL.
  • UACL ma europejski (EACL) i Ameryki Północnej (NAACL) gałęzie.

  • Dziennik ACL, Lingwistyka komputerowa, jest najważniejszym forum badań w dziedzinie lingwistyki obliczeniowej i przetwarzania języka naturalnego. Od 1988 roku czasopismo wydawane jest dla ACL MIT Press.
  • Seria książek ACL, Badania nad przetwarzaniem języka naturalnego, opublikowany Wydawnictwo Uniwersytetu Cambridge.

  • Co roku ACL i jej oddziały organizują międzynarodowe konferencje w różnych krajach.

Targi ACL 2014 odbyły się w Baltimore w USA.

  • Bibliografia:

  • 1. Marchuk Yu.N. Lingwistyka komputerowa: podręcznik/Yu.N. Marchuk.- M.:AST: Wschód-Zachód, 2007-317 s.

  • 2. Shilikhina K.M. Podstawy lingwistyki stosowanej: podręcznik dla specjalności 021800 (031301) - Lingwistyka teoretyczna i stosowana, Woroneż, 2006.

  • 3. Boyarsky K.K. Wprowadzenie do lingwistyki komputerowej. Podręcznik - St. Petersburg: NRU ITMO, 2013. - 72 s.

  • 4. Shchipitsina L.Yu. Technologie informacyjne w językoznawstwie: podręcznik / L.Yu. Shchipitsina.- M.: FLINTA: nauka, 2013.- 128 s.

  • 5. Sosnina E.P. Wprowadzenie do lingwistyki stosowanej: podręcznik / E.P. Sosnina - wyd. 2, poprawione. i dodatkowe – Uljanowsk: Państwowy Uniwersytet Techniczny w Uljanowsku, 2012. -110 s.

  • 6. Baranow A.N. Wprowadzenie do lingwistyki stosowanej: Podręcznik - M.: Wydawnictwo URSS, 2001. - 360 s.

  • 7. Lingwistyka stosowana: Podręcznik / L.V. Bondarko, Los Angeles Werbitskaja, G.Ya. Martynenko i inni; Reprezentant. Redaktor A.S. Gerda. Petersburg: wydawnictwo St. Petersburg. Uniwersytet, 1996.- 528 s.

  • 8. Shemyakin Yu.I. Początki lingwistyki komputerowej: Podręcznik. M.: Wydawnictwo MGOU, JSC „Rosvuznauka”, 1992.

  • Lingwistyka (z łac. lingua -
    język), językoznawstwo, językoznawstwo - nauka,
    studiowanie języków.
    Jest to ogólnie nauka o naturalnym języku ludzkim
    i o wszystkich językach świata, takich jak jego
    indywidualni przedstawiciele.
    W szerokim znaczeniu tego słowa, językoznawstwo
    dzieli się na naukowe i praktyczne. Częściej
    dokładnie to, co należy rozumieć przez językoznawstwo
    lingwistyka naukowa. Jest to część semiotyki, jak
    nauka o znakach.
    Lingwistyka jest profesjonalnie studiowana przez lingwistyków.

    Lingwistyka i Informatyka.
    Zautomatyzowane systemy odgrywają ważną rolę w życiu współczesnego społeczeństwa.
    technologia informacyjna. Ale rozwój technologii informatycznych ma miejsce
    bardzo nierównomiernie: jeśli nowoczesny poziom technologii komputerowej i
    środki komunikacji zadziwiają wyobraźnię, następnie w obszarze przetwarzania semantycznego
    informacji, sukcesy są znacznie skromniejsze. Sukcesy te zależą przede wszystkim od
    osiągnięcia w badaniu procesów myślenia człowieka, procesów mowy
    komunikacja między ludźmi i możliwość symulacji tych procesów na komputerze. Jest to zadanie niezwykle złożone, jeśli chodzi o tworzenie obiecujących produktów
    informatyka, następnie problemy automatycznego przetwarzania tekstu
    na pierwszy plan wysuwają się informacje prezentowane w językach naturalnych.
    Wynika to z faktu, że myślenie danej osoby jest ściśle związane z jej językiem. Więcej
    Co więcej, język naturalny jest narzędziem myślenia. On jest także
    uniwersalny środek komunikacji między ludźmi - środek percepcji,
    gromadzenie, przechowywanie, przetwarzanie i przekazywanie informacji.
    Problemy używania języka naturalnego w automatyce
    Nauka lingwistyki komputerowej zajmuje się przetwarzaniem informacji. Ta nauka
    powstały stosunkowo niedawno – na przełomie lat pięćdziesiątych i sześćdziesiątych
    ostatni wiek. Początkowo w trakcie swojego powstawania miał różne
    tytuły: lingwistyka matematyczna, lingwistyka komputerowa, inżynieria
    językoznawstwo. Ale na początku lat osiemdziesiątych nadano mu tę nazwę
    lingwistyka komputerowa.

    Lingwistyka komputerowa jest dziedziną wiedzy związaną z rozwiązywaniem problemów
    automatyczne przetwarzanie informacji prezentowanych w języku naturalnym.
    Problemem są centralne problemy naukowe lingwistyki obliczeniowej
    modelowanie procesu rozumienia znaczenia tekstów (przejście od tekstu do
    sformalizowane przedstawienie jego znaczenia) i problem syntezy mowy (przejście z
    sformalizowana reprezentacja znaczenia tekstów w języku naturalnym). Te problemy
    powstają przy rozwiązywaniu szeregu stosowanych problemów:
    1) automatyczne wykrywanie i korygowanie błędów przy wprowadzaniu tekstów do komputera,
    2) automatyczna analiza i synteza mowy ustnej,
    3) automatyczne tłumaczenie tekstów z jednego języka na inny,
    4) komunikacja z komputerem w języku naturalnym,
    5) automatyczna klasyfikacja i indeksowanie dokumentów tekstowych, ich
    automatyczne abstrahowanie, wyszukiwanie dokumentów w pełnotekstowych bazach danych.
    W ciągu ostatniego półwiecza w dziedzinie lingwistyki komputerowej uzyskano wiele
    znaczące wyniki naukowe i praktyczne: stworzono systemy maszynowe
    tłumaczenie tekstów z jednego języka naturalnego na inny, systemy zautomatyzowane
    wyszukiwanie informacji w tekstach, systemy automatycznej analizy i syntezy mowy ustnej oraz
    wiele innych. Ale były też rozczarowania. Na przykład problem tłumaczenia maszynowego
    teksty z jednego języka na drugi okazały się znacznie trudniejsze, niż sobie wyobrażano
    pionierzy tłumaczenia maszynowego i ich zwolennicy. To samo można powiedzieć o
    automatyczne wyszukiwanie informacji w tekstach oraz zadanie analizy i syntezy wypowiedzi ustnej
    przemówienie. Najwyraźniej naukowcy i inżynierowie będą musieli pracować o wiele więcej
    osiągnąć pożądane rezultaty.

    Przetwarzanie języka naturalnego; syntaktyka,
    analiza morfologiczna, semantyczna tekstu). Obejmuje to również:
    Lingwistyka korpusowa, tworzenie i wykorzystanie elektronicznych korpusów tekstowych
    Tworzenie słowników elektronicznych, tezaurusów, ontologii. Na przykład Lingvo. Słowniki
    używany na przykład do automatycznego tłumaczenia i sprawdzania pisowni.
    Automatyczne tłumaczenie tekstów. Popularny wśród tłumaczy języka rosyjskiego
    jest Promt. Wśród bezpłatnych znajduje się Tłumacz Google.
    Automatyczne wyodrębnianie faktów z tekstu (ekstrakcja informacji)
    ekstrakcja, eksploracja tekstu)
    Automatyczne podsumowanie tekstu. Ta funkcja jest włączona
    na przykład w programie Microsoft Word.
    Budowa systemów zarządzania wiedzą. Zobacz Systemy ekspertowe
    Tworzenie systemów odpowiadania na pytania.
    Optyczne rozpoznawanie znaków (OCR). Na przykład program FineReader
    Automatyczne rozpoznawanie mowy (ASR). Istnieją programy płatne i bezpłatne
    Automatyczna synteza mowy