ภาษาศาสตร์เชิงคำนวณ นักภาษาศาสตร์เชิงคำนวณทำอะไร?


1. กิจกรรมเสริมสร้างความรู้เกี่ยวกับภาษาธรรมชาติในระดับต่างๆ เพื่อนำไปใช้ในเทคโนโลยีคอมพิวเตอร์ 2. สาขาวิชาความรู้ นักแก้ปัญหาการสื่อสารระหว่างบุคคลกับคอมพิวเตอร์ในภาษาธรรมชาติ 3. การใช้เครื่องมือคอมพิวเตอร์ที่หลากหลาย เช่น โปรแกรม เทคโนโลยีคอมพิวเตอร์ในการจัดระเบียบและประมวลผลข้อมูล เพื่อสร้างแบบจำลองการทำงานของภาษาในบางสภาวะ สถานการณ์ พื้นที่ปัญหา


ปัญญาประดิษฐ์เป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์โดยมีเป้าหมายเพื่อพัฒนาระบบคอมพิวเตอร์ที่สามารถทำหน้าที่ต่างๆ ที่แต่เดิมถือว่าเป็นสติปัญญา เช่น เข้าใจภาษาธรรมชาติ การอนุมานเชิงตรรกะ การใช้ความรู้ที่สั่งสมมา การฝึกอบรม การวางแผนปฏิบัติการ ฯลฯ






3. การสร้างอัลกอริทึมสำหรับการวิเคราะห์ทางภาษา - การพัฒนาอัลกอริทึมสำหรับการวิเคราะห์ข้อความภาษาธรรมชาติสำหรับทุกคน ระดับภาษา: สัทศาสตร์, สัณฐานวิทยา, สัณฐานวิทยา, วากยสัมพันธ์, ในทางปฏิบัติ การสร้างแผนผังการพึ่งพาวากยสัมพันธ์ (โครงการประมวลผลข้อความอัตโนมัติ)


4. ภาษาศาสตร์คอร์ปัส - เกี่ยวข้องกับการพัฒนา การสร้าง และการใช้ข้อความ (ภาษาศาสตร์) คอร์ปอรา หน้าแรกเว็บไซต์ของ National Corpus ของภาษารัสเซีย


5. การแปลด้วยเครื่องเป็นทิศทางของการวิจัยทางวิทยาศาสตร์ที่เกี่ยวข้องกับการสร้างระบบอัตโนมัติสำหรับการแปลข้อความจากภาษาธรรมชาติหนึ่งไปยังอีกภาษาหนึ่ง หน้าแรกของเว็บไซต์ Google แปล


6. การสรุปอัตโนมัติ – การสร้างโปรแกรมสำหรับการนำเสนอข้อความภาษาธรรมชาติแบบบีบอัด บริการสร้างบทคัดย่อบนเว็บไซต์ Visual World


7. การดึงข้อมูลข้อความแบบเต็ม - การพัฒนาระบบการสืบค้นข้อมูลพร้อมการวิเคราะห์ภาษาของข้อความในอาร์เรย์ข้อมูลและคำขอของผู้ใช้ ข้อมูลหน้าหลัก - เครื่องมือค้นหายานเดกซ์











งานหลักสูตร

ในสาขาวิชา "สารสนเทศ"

ในหัวข้อนี้: " ภาษาศาสตร์เชิงคำนวณ»


การแนะนำ

1. สถานที่และบทบาทของภาษาศาสตร์คอมพิวเตอร์ในการวิจัยภาษาศาสตร์

2. อินเทอร์เฟซที่ทันสมัยสำหรับภาษาศาสตร์เชิงคำนวณ

บทสรุป

วรรณกรรม


การแนะนำ

ในชีวิต สังคมสมัยใหม่เทคโนโลยีสารสนเทศอัตโนมัติมีบทบาทสำคัญ เมื่อเวลาผ่านไป ความสำคัญก็เพิ่มขึ้นอย่างต่อเนื่อง แต่การพัฒนาเทคโนโลยีสารสนเทศนั้นไม่สม่ำเสมอมาก: ถ้า ระดับทันสมัยแม้ว่าเทคโนโลยีคอมพิวเตอร์และการสื่อสารจะน่าทึ่ง แต่ในด้านการประมวลผลข้อมูลเชิงความหมายนั้นมีความก้าวหน้าน้อยกว่ามาก ความสำเร็จเหล่านี้ประการแรกขึ้นอยู่กับความสำเร็จในการศึกษากระบวนการคิดของมนุษย์ กระบวนการสื่อสารด้วยวาจาระหว่างผู้คน และความสามารถในการจำลองกระบวนการเหล่านี้บนคอมพิวเตอร์

เมื่อพูดถึงการสร้างเทคโนโลยีสารสนเทศที่มีแนวโน้ม ปัญหาของการประมวลผลข้อมูลที่เป็นข้อความโดยอัตโนมัติที่นำเสนอในภาษาธรรมชาติมาก่อน สิ่งนี้ถูกกำหนดโดยความจริงที่ว่าความคิดของบุคคลนั้นเชื่อมโยงอย่างใกล้ชิดกับภาษาของเขา นอกจากนี้ ภาษาธรรมชาติยังเป็นเครื่องมือในการคิดอีกด้วย เขายังเป็น การรักษาแบบสากลการสื่อสารระหว่างผู้คน – วิธีการรับรู้ การสะสม การจัดเก็บ การประมวลผล และการส่งข้อมูล ศาสตร์แห่งภาษาศาสตร์คอมพิวเตอร์เกี่ยวข้องกับปัญหาการใช้ภาษาธรรมชาติในระบบประมวลผลข้อมูลอัตโนมัติ วิทยาศาสตร์นี้เกิดขึ้นค่อนข้างเร็ว ๆ นี้ - เมื่อถึงช่วงเปลี่ยนทศวรรษที่ห้าสิบและหกสิบของศตวรรษที่ผ่านมา ในช่วงครึ่งศตวรรษที่ผ่านมา ได้รับผลลัพธ์ทางวิทยาศาสตร์และการปฏิบัติที่สำคัญในด้านภาษาศาสตร์คอมพิวเตอร์: ระบบการแปลข้อความด้วยเครื่องจากภาษาธรรมชาติหนึ่งไปยังอีกภาษาหนึ่ง ระบบสำหรับการดึงข้อมูลอัตโนมัติในข้อความ ระบบการวิเคราะห์และสังเคราะห์คำพูดอัตโนมัติ คำพูดและอื่น ๆ อีกมากมายได้ถูกสร้างขึ้น งานนี้อุทิศให้กับการสร้างส่วนต่อประสานคอมพิวเตอร์ที่เหมาะสมที่สุดโดยใช้ภาษาศาสตร์คอมพิวเตอร์เมื่อทำการวิจัยทางภาษา


ใน โลกสมัยใหม่ภาษาศาสตร์เชิงคอมพิวเตอร์ถูกนำมาใช้มากขึ้นในการศึกษาภาษาศาสตร์ต่างๆ

ภาษาศาสตร์เชิงคำนวณเป็นสาขาวิชาความรู้ที่เกี่ยวข้องกับการแก้ปัญหาการประมวลผลข้อมูลโดยอัตโนมัติที่นำเสนอในภาษาธรรมชาติ ปัญหาทางวิทยาศาสตร์ที่สำคัญของภาษาศาสตร์คอมพิวเตอร์คือปัญหาในการสร้างแบบจำลองกระบวนการทำความเข้าใจความหมายของข้อความ (การเปลี่ยนจากข้อความเป็นการแสดงความหมายอย่างเป็นทางการ) และปัญหาการสังเคราะห์คำพูด (การเปลี่ยนจากการแสดงความหมายอย่างเป็นทางการเป็นข้อความตามธรรมชาติ ภาษา). ปัญหาเหล่านี้เกิดขึ้นเมื่อแก้ไขปัญหาที่ใช้จำนวนหนึ่งและโดยเฉพาะอย่างยิ่งปัญหาการตรวจจับอัตโนมัติและการแก้ไขข้อผิดพลาดเมื่อป้อนข้อความลงในคอมพิวเตอร์ การวิเคราะห์และการสังเคราะห์คำพูดอัตโนมัติ การแปลข้อความอัตโนมัติจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง การสื่อสารด้วย คอมพิวเตอร์ในภาษาธรรมชาติ การจำแนกและจัดทำดัชนีเอกสารข้อความโดยอัตโนมัติ การสรุปอัตโนมัติ การค้นหาเอกสารในฐานข้อมูลข้อความแบบเต็ม

เครื่องมือทางภาษาที่สร้างขึ้นและใช้งานในภาษาศาสตร์เชิงคำนวณสามารถแบ่งออกเป็นสองส่วน: ส่วนประกาศและขั้นตอน ส่วนที่ประกาศประกอบด้วยพจนานุกรมหน่วยภาษาและคำพูด ข้อความและตารางไวยากรณ์ประเภทต่างๆ ส่วนขั้นตอนรวมถึงวิธีการจัดการหน่วยภาษาและคำพูด ข้อความและตารางไวยากรณ์ อินเทอร์เฟซคอมพิวเตอร์หมายถึงส่วนขั้นตอนของภาษาศาสตร์เชิงคำนวณ

ความสำเร็จในการแก้ปัญหาประยุกต์ของภาษาศาสตร์คอมพิวเตอร์นั้นขึ้นอยู่กับความสมบูรณ์และความถูกต้องของการเป็นตัวแทนของวิธีการประกาศในหน่วยความจำคอมพิวเตอร์และคุณภาพของวิธีขั้นตอน จนถึงปัจจุบันยังไม่บรรลุระดับที่ต้องการในการแก้ปัญหาเหล่านี้แม้ว่าจะมีการดำเนินงานในด้านภาษาศาสตร์คอมพิวเตอร์ในประเทศที่พัฒนาแล้วทั้งหมดของโลก (รัสเซีย, สหรัฐอเมริกา, อังกฤษ, ฝรั่งเศส, เยอรมนี, ญี่ปุ่น ฯลฯ ).

อย่างไรก็ตามสามารถสังเกตความสำเร็จทางวิทยาศาสตร์และการปฏิบัติอย่างจริงจังในสาขาภาษาศาสตร์คอมพิวเตอร์ได้ ดังนั้นในหลายประเทศ (รัสเซีย สหรัฐอเมริกา ญี่ปุ่น ฯลฯ) จึงได้มีการสร้างระบบทดลองและอุตสาหกรรมสำหรับการแปลข้อความจากภาษาหนึ่งไปอีกภาษาหนึ่งด้วยเครื่อง และมีระบบทดลองจำนวนหนึ่งสำหรับการสื่อสารกับคอมพิวเตอร์ในภาษาธรรมชาติได้ถูกสร้างขึ้น งานกำลังดำเนินการเพื่อสร้างธนาคารข้อมูลคำศัพท์ อรรถาภิธาน พจนานุกรมเครื่องจักรสองภาษาและหลายภาษา (รัสเซีย สหรัฐอเมริกา เยอรมนี ฝรั่งเศส ฯลฯ) กำลังสร้างระบบสำหรับการวิเคราะห์และการสังเคราะห์คำพูดอัตโนมัติ (รัสเซีย สหรัฐอเมริกา ญี่ปุ่น ฯลฯ) .) กำลังดำเนินการวิจัยในด้านการสร้างแบบจำลองภาษาธรรมชาติ

ปัญหาด้านระเบียบวิธีที่สำคัญของภาษาศาสตร์คอมพิวเตอร์ประยุกต์คือการประเมินความสัมพันธ์ที่จำเป็นระหว่างองค์ประกอบที่ประกาศและขั้นตอนของระบบประมวลผลข้อมูลข้อความอัตโนมัติอย่างถูกต้อง สิ่งที่ควรเลือก: ขั้นตอนการคำนวณที่ทรงพลังซึ่งใช้ระบบคำศัพท์ที่ค่อนข้างเล็กพร้อมข้อมูลไวยากรณ์และความหมายที่หลากหลาย หรือองค์ประกอบการประกาศที่ทรงพลังพร้อมอินเทอร์เฟซคอมพิวเตอร์ที่ค่อนข้างง่าย นักวิทยาศาสตร์ส่วนใหญ่เชื่อว่าวิธีที่สองจะดีกว่า มันจะนำไปสู่การบรรลุเป้าหมายในทางปฏิบัติได้เร็วขึ้น เนื่องจากจะมีทางตันน้อยลงและมีอุปสรรคยากๆ ที่จะเอาชนะ และที่นี่ คุณจะสามารถใช้คอมพิวเตอร์ในวงกว้างขึ้นเพื่อทำการวิจัยและพัฒนาโดยอัตโนมัติ

ความจำเป็นในการระดมความพยายามประการแรกในการพัฒนาองค์ประกอบที่ประกาศของระบบประมวลผลข้อมูลข้อความอัตโนมัติได้รับการยืนยันจากประสบการณ์ครึ่งศตวรรษในการพัฒนาภาษาศาสตร์คอมพิวเตอร์ ท้ายที่สุดแล้ว แม้ว่าวิทยาศาสตร์นี้จะประสบความสำเร็จอย่างปฏิเสธไม่ได้ แต่ความหลงใหลในขั้นตอนอัลกอริทึมก็ไม่ได้นำมาซึ่งความสำเร็จที่คาดหวัง มีความผิดหวังในความสามารถของวิธีการดำเนินการด้วยซ้ำ

จากที่กล่าวมาข้างต้นดูเหมือนว่าจะมีแนวโน้มที่จะพัฒนาเส้นทางการพัฒนาภาษาศาสตร์คอมพิวเตอร์เมื่อความพยายามหลักจะมุ่งเป้าไปที่การสร้างพจนานุกรมที่มีประสิทธิภาพของหน่วยภาษาและคำพูดศึกษาโครงสร้างทางความหมายและวากยสัมพันธ์และสร้างขั้นตอนพื้นฐานสำหรับทางสัณฐานวิทยา ความหมายวากยสัมพันธ์และ การวิเคราะห์แนวคิดและการสังเคราะห์ข้อความ สิ่งนี้จะช่วยให้เราสามารถแก้ไขปัญหาที่ประยุกต์ใช้มากมายในอนาคต

ประการแรกภาษาศาสตร์คอมพิวเตอร์เผชิญกับงานสนับสนุนทางภาษาสำหรับกระบวนการรวบรวม สะสม ประมวลผล และเรียกค้นข้อมูล สิ่งสำคัญที่สุดคือ:

1. ระบบอัตโนมัติของการรวบรวมและการประมวลผลภาษาของพจนานุกรมเครื่องจักร

2. ระบบอัตโนมัติของกระบวนการตรวจจับและแก้ไขข้อผิดพลาดเมื่อป้อนข้อความลงในคอมพิวเตอร์

3. การจัดทำดัชนีเอกสารและการร้องขอข้อมูลอัตโนมัติ

4. การจำแนกประเภทและการสรุปเอกสารโดยอัตโนมัติ

5. การสนับสนุนทางภาษาสำหรับกระบวนการดึงข้อมูลในฐานข้อมูลเดียวและหลายภาษา

6. การแปลข้อความด้วยเครื่องจากภาษาธรรมชาติหนึ่งไปยังอีกภาษาหนึ่ง

7. การสร้างตัวประมวลผลทางภาษาที่รับประกันการสื่อสารของผู้ใช้กับระบบข้อมูลอัจฉริยะอัตโนมัติ (โดยเฉพาะระบบผู้เชี่ยวชาญ) ในภาษาธรรมชาติหรือในภาษาที่ใกล้เคียงกับธรรมชาติ

8. ดึงข้อมูลข้อเท็จจริงจากข้อความที่ไม่เป็นทางการ

ให้เราดูรายละเอียดเกี่ยวกับปัญหาที่เกี่ยวข้องกับหัวข้อการวิจัยมากที่สุด

ใน กิจกรรมภาคปฏิบัติ ศูนย์ข้อมูลจำเป็นต้องแก้ไขปัญหาการตรวจจับอัตโนมัติและแก้ไขข้อผิดพลาดในข้อความเมื่อป้อนลงในคอมพิวเตอร์ งานที่ซับซ้อนนี้สามารถแบ่งได้ตามเงื่อนไขออกเป็นสามงาน - งานการควบคุมข้อความแบบออร์โธกราฟิกวากยสัมพันธ์และเชิงความหมาย ประการแรกสามารถแก้ไขได้โดยใช้ขั้นตอนการวิเคราะห์ทางสัณฐานวิทยาซึ่งใช้พจนานุกรมเครื่องอ้างอิงที่มีประสิทธิภาพพอสมควรของก้านคำ ในกระบวนการควบคุมการสะกด คำในข้อความจะต้องได้รับการวิเคราะห์ทางสัณฐานวิทยา และหากฐานของคำเหล่านั้นถูกระบุด้วยฐานของพจนานุกรมอ้างอิง ก็จะถือว่าคำนั้นถูกต้อง หากไม่ได้ระบุบุคคลเหล่านั้นจะถูกนำเสนอพร้อมกับไมโครคอนเท็กซ์ให้บุคคลดู มนุษย์ค้นพบและแก้ไข คำที่บิดเบี้ยวและระบบซอฟต์แวร์ที่เกี่ยวข้องจะทำการแก้ไขเหล่านี้เป็นข้อความที่ถูกแก้ไข

งานการควบคุมข้อความทางวากยสัมพันธ์เพื่อตรวจจับข้อผิดพลาดนั้นยากกว่างานควบคุมการสะกดคำมาก ประการแรก เนื่องจากรวมงานการควบคุมการสะกดคำไว้ในองค์ประกอบเป็นองค์ประกอบบังคับ และประการที่สอง เนื่องจากปัญหาการวิเคราะห์วากยสัมพันธ์ของข้อความที่ไม่เป็นทางการยังไม่ได้รับการแก้ไขอย่างสมบูรณ์ อย่างไรก็ตาม การควบคุมข้อความทางวากยสัมพันธ์บางส่วนค่อนข้างเป็นไปได้ ที่นี่คุณสามารถทำได้สองวิธี: รวบรวมพจนานุกรมเครื่องที่เป็นตัวแทนของโครงสร้างวากยสัมพันธ์อ้างอิงอย่างเป็นธรรมและเปรียบเทียบโครงสร้างวากยสัมพันธ์ของข้อความที่วิเคราะห์กับพวกเขา หรือพัฒนาระบบกฎที่ซับซ้อนสำหรับตรวจสอบความสอดคล้องทางไวยากรณ์ขององค์ประกอบข้อความ เส้นทางแรกดูเหมือนมีแนวโน้มมากขึ้นสำหรับเราแม้ว่าแน่นอนว่าจะไม่รวมความเป็นไปได้ในการใช้องค์ประกอบของเส้นทางที่สองก็ตาม โครงสร้างวากยสัมพันธ์ของข้อความควรอธิบายในแง่ของคลาสไวยากรณ์ของคำ (แม่นยำยิ่งขึ้นในรูปแบบของลำดับชุดข้อมูลไวยากรณ์สำหรับคำ)

งานการควบคุมความหมายของข้อความเพื่อตรวจจับข้อผิดพลาดเชิงความหมายควรจัดประเภทเป็นงานปัญญาประดิษฐ์ประเภทหนึ่ง สามารถแก้ไขได้อย่างสมบูรณ์บนพื้นฐานของการสร้างแบบจำลองกระบวนการคิดของมนุษย์เท่านั้น ในกรณีนี้ เห็นได้ชัดว่าจำเป็นต้องสร้างฐานความรู้สารานุกรมที่มีประสิทธิภาพและเครื่องมือซอฟต์แวร์สำหรับการจัดการความรู้ อย่างไรก็ตาม สำหรับสาขาวิชาที่จำกัดและสำหรับข้อมูลที่เป็นทางการ งานนี้สามารถแก้ไขได้อย่างสมบูรณ์ มันควรจะถูกวางและแก้ไขในฐานะปัญหาของการควบคุมข้อความทางความหมายและวากยสัมพันธ์

นักภาษาศาสตร์คอมพิวเตอร์มีส่วนร่วมในการพัฒนาอัลกอริธึมการรู้จำข้อความและคำพูดการสังเคราะห์คำพูดประดิษฐ์การสร้างระบบการแปลความหมายและการพัฒนาปัญญาประดิษฐ์ (ในความหมายคลาสสิกของคำ - เพื่อทดแทนสติปัญญาของมนุษย์ - มัน ไม่น่าจะเคยปรากฏแต่ระบบผู้เชี่ยวชาญต่าง ๆ ขึ้นอยู่กับการวิเคราะห์ข้อมูล)

อัลกอริธึมการรู้จำเสียงจะถูกใช้มากขึ้นในชีวิตประจำวัน - บ้านอัจฉริยะและอุปกรณ์อิเล็กทรอนิกส์จะไม่มีรีโมทคอนโทรลและปุ่ม แต่จะใช้อินเทอร์เฟซเสียงแทน เทคโนโลยีนี้กำลังได้รับการปรับปรุง แต่ก็ยังมีความท้าทายมากมาย: เป็นการยากที่คอมพิวเตอร์จะจดจำคำพูดของมนุษย์เพราะว่า ผู้คนที่หลากหลายพวกเขาพูดแตกต่างออกไปมาก ดังนั้นตามกฎแล้ว ระบบการจดจำจึงทำงานได้ดีทั้งเมื่อได้รับการฝึกฝนสำหรับผู้พูดหนึ่งคนและปรับให้เข้ากับคุณสมบัติการออกเสียงของเขาแล้ว หรือเมื่อจำนวนวลีที่ระบบสามารถจดจำได้มีจำกัด (เช่น ในคำสั่งเสียงสำหรับ ทีวี)

ผู้เชี่ยวชาญในการสร้างโปรแกรมแปลความหมายยังคงมีงานอีกมากรออยู่ข้างหน้า: ช่วงเวลานี้อัลกอริธึมที่ดีได้รับการพัฒนาสำหรับการแปลเป็นและจากภาษาอังกฤษเท่านั้น มีปัญหามากมายที่นี่ - ภาษาที่แตกต่างกันมีโครงสร้างทางความหมายที่แตกต่างกันซึ่งแตกต่างกันแม้ในระดับของการสร้างวลีและไม่สามารถถ่ายทอดความหมายทั้งหมดของภาษาหนึ่งโดยใช้เครื่องมือความหมายของภาษาอื่นได้ นอกจากนี้ โปรแกรมจะต้องแยกแยะคำพ้องเสียง จดจำส่วนของคำพูดได้อย่างถูกต้อง และเลือกความหมายที่ถูกต้องของคำพหุความหมายที่เหมาะกับบริบท

การสังเคราะห์คำพูดเทียม (เช่น สำหรับหุ่นยนต์ที่บ้าน) ก็เป็นงานที่ต้องใช้ความอุตสาหะเช่นกัน เป็นการยากที่จะทำให้เสียงคำพูดที่สร้างขึ้นโดยธรรมชาติฟังดูเป็นธรรมชาติสำหรับหูของมนุษย์ เนื่องจากมีความแตกต่างนับล้านที่เราไม่ได้ใส่ใจ แต่ถ้าไม่มีทุกอย่างก็ไม่ "เหมือนเดิม" อีกต่อไป - การเริ่มต้นที่ผิดพลาด การหยุดชั่วคราว ความลังเล ฯลฯ การไหลของคำพูดมีความต่อเนื่องและในเวลาเดียวกันแยกจากกัน: เราพูดโดยไม่หยุดระหว่างคำ แต่ก็ไม่ใช่เรื่องยากสำหรับเราที่จะเข้าใจว่าคำหนึ่งสิ้นสุดและอีกคำหนึ่งเริ่มต้นอย่างไร แต่สำหรับเครื่องจักรนี่อาจเป็นปัญหาใหญ่

ทิศทางที่ใหญ่ที่สุดในภาษาศาสตร์คอมพิวเตอร์เกี่ยวข้องกับข้อมูลขนาดใหญ่ ท้ายที่สุดแล้ว มีคลังข้อความจำนวนมาก เช่น ฟีดข่าว ซึ่งจำเป็นต้องแยกข้อมูลบางอย่างออกไป เช่น เน้นฟีดข่าวหรือปรับแต่ง RSS ให้เหมาะกับรสนิยมของผู้ใช้โดยเฉพาะ เทคโนโลยีดังกล่าวมีอยู่แล้วและจะยังคงพัฒนาต่อไป เนื่องจากพลังการประมวลผลมีการเติบโตอย่างรวดเร็ว การวิเคราะห์ทางภาษาข้อความยังใช้เพื่อความปลอดภัยทางอินเทอร์เน็ตและค้นหาข้อมูลที่จำเป็นสำหรับบริการข่าวกรอง

จะเรียนที่ไหนเพื่อเป็นนักภาษาศาสตร์คอมพิวเตอร์? ในประเทศของเรา น่าเสียดาย ความเชี่ยวชาญพิเศษที่เกี่ยวข้องกับภาษาศาสตร์คลาสสิกและการเขียนโปรแกรม สถิติ และการวิเคราะห์ข้อมูลค่อนข้างแยกจากกัน และเพื่อที่จะเป็นนักภาษาดิจิทัลได้ คุณต้องเข้าใจทั้งสองอย่าง ใน มหาวิทยาลัยต่างประเทศมีโปรแกรมอยู่ อุดมศึกษาในด้านภาษาศาสตร์คอมพิวเตอร์ แต่ตอนนี้ทางเลือกที่ดีที่สุดสำหรับเราคือการได้รับการศึกษาด้านภาษาขั้นพื้นฐาน จากนั้นจึงเชี่ยวชาญพื้นฐานของไอที เป็นเรื่องดีที่ตอนนี้มีหลักสูตรออนไลน์ที่แตกต่างกันมากมายในตัวฉัน ปีนักศึกษาไม่มีสิ่งนั้น ฉันเรียนที่คณะภาษาศาสตร์ประยุกต์ที่ Moscow State Linguistics University ซึ่งเรามีหลักสูตรเกี่ยวกับปัญญาประดิษฐ์และการรู้จำคำพูด แต่ก็ยังมีปริมาณไม่เพียงพอ ขณะนี้บริษัทไอทีกำลังพยายามโต้ตอบกับสถาบันต่างๆ ฉันและเพื่อนร่วมงานจาก Kaspersky Lab ก็พยายามเข้าร่วมด้วย กระบวนการศึกษา: เราบรรยาย จัดประชุมนักศึกษา มอบทุนให้นักศึกษาระดับบัณฑิตศึกษา แต่จนถึงขณะนี้ความคิดริเริ่มนี้มาจากนายจ้างมากกว่าจากมหาวิทยาลัย

การแนะนำ

ภาษาศาสตร์เชิงคำนวณคืออะไร?

ภาษาศาสตร์คอมพิวเตอร์ ทิศทางในภาษาศาสตร์ประยุกต์เน้นการใช้เครื่องมือคอมพิวเตอร์ - โปรแกรม เทคโนโลยีคอมพิวเตอร์เพื่อจัดระเบียบและประมวลผลข้อมูล - เพื่อสร้างแบบจำลองการทำงานของภาษาในบางสภาวะ สถานการณ์ พื้นที่ปัญหา ฯลฯ ตลอดจนขอบเขตทั้งหมดของ การประยุกต์แบบจำลองภาษาคอมพิวเตอร์ในภาษาศาสตร์และ สาขาวิชาที่เกี่ยวข้อง- จริงๆแล้วมีแค่ใน. กรณีหลังและเรากำลังพูดถึงภาษาศาสตร์ประยุกต์ในความหมายที่เข้มงวด เนื่องจากการสร้างแบบจำลองภาษาด้วยคอมพิวเตอร์ถือได้ว่าเป็นสาขาหนึ่งของการประยุกต์ใช้วิทยาการคอมพิวเตอร์และทฤษฎีการเขียนโปรแกรมในการแก้ปัญหาทางวิทยาศาสตร์ของภาษา อย่างไรก็ตาม ในทางปฏิบัติ ภาษาศาสตร์เชิงคำนวณประกอบด้วยเกือบทุกอย่างที่เกี่ยวข้องกับการใช้คอมพิวเตอร์ในภาษาศาสตร์

ภาษาศาสตร์เชิงคำนวณกลายเป็นสาขาวิทยาศาสตร์พิเศษในทศวรรษ 1960 คำว่า "ภาษาศาสตร์คอมพิวเตอร์" ในภาษารัสเซียเป็นคำแปลจากภาษาศาสตร์คอมพิวเตอร์ภาษาอังกฤษ เนื่องจากคำคุณศัพท์การคำนวณในภาษารัสเซียสามารถแปลได้ว่า "การคำนวณ" คำว่า "ภาษาศาสตร์เชิงคำนวณ" จึงพบได้ในวรรณคดีด้วย แต่ในวิทยาศาสตร์รัสเซียจะใช้ความหมายที่แคบกว่าโดยเข้าใกล้แนวคิดของ "ภาษาศาสตร์เชิงปริมาณ" กระแสของสิ่งพิมพ์ในพื้นที่นี้มีขนาดใหญ่มาก นอกเหนือจากคอลเลกชั่นตามธีมแล้ว วารสาร Computer Linguistics ยังได้รับการตีพิมพ์ทุกไตรมาสในสหรัฐอเมริกา องค์กรมากขึ้นและ งานทางวิทยาศาสตร์ดำเนินการโดยสมาคมภาษาศาสตร์คอมพิวเตอร์ซึ่งมีโครงสร้างระดับภูมิภาค (โดยเฉพาะสาขายุโรป) ทุก ๆ สองปี จะมีการจัดการประชุมนานาชาติเกี่ยวกับภาษาศาสตร์เชิงคำนวณ (COLING) ประเด็นที่เกี่ยวข้องมักจะนำเสนออย่างกว้างขวางในการประชุมต่างๆ เกี่ยวกับปัญญาประดิษฐ์

งาน

ภาษาศาสตร์เชิงคำนวณ แก้ไขปัญหาทางภาษาที่แท้จริงของการสร้างแบบจำลองกิจกรรมทางภาษาด้วยคอมพิวเตอร์ วัตถุประสงค์คือเพื่อสร้างแบบจำลองทางภาษาที่แม่นยำและสมบูรณ์ยิ่งขึ้น ตลอดจนอัลกอริธึมการวิเคราะห์และการสังเคราะห์ขั้นสูงยิ่งขึ้น

ทิศทางหลักสามารถระบุได้:

1) ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์: การควบคุม - ภาษาการเขียนโปรแกรม การถ่ายโอนข้อมูล - ส่วนต่อประสาน

2) การทำงานกับข้อความ: การจัดทำดัชนี การวิเคราะห์และการจำแนกประเภท การแก้ไขอัตโนมัติ (การแก้ไขข้อผิดพลาด) การระบุความรู้ การแปลด้วยคอมพิวเตอร์

เรื่องราว

การสร้างชุดย่อยของภาษาอังกฤษอย่างง่ายสำหรับการเข้าถึงฐานข้อมูลนั้นจัดทำโดยหนึ่งในระบบอเมริกันยุคแรก ๆ LIFER (สิ่งอำนวยความสะดวกอินเทอร์เฟซภาษาซึ่ง Elipsis และ Recursion) สร้างขึ้นในยุค 70 หลังจากนั้น ระบบอื่นๆ ที่มีความยืดหยุ่นมากขึ้นก็ปรากฏขึ้นในตลาดคอมพิวเตอร์ โดยมีอินเทอร์เฟซภาษาธรรมชาติที่จำกัดกับคอมพิวเตอร์

ในยุค 80 มีบริษัทจำนวนหนึ่งก่อตั้งขึ้นในสหรัฐอเมริกา โดยมีส่วนร่วมในการพัฒนาและจำหน่ายอินเทอร์เฟซภาษาธรรมชาติกับฐานข้อมูลและระบบผู้เชี่ยวชาญ ในปี 1985 Semantek Corporation นำเสนอแพ็คเกจซอฟต์แวร์ถามตอบดังกล่าว และบริษัท Carnegie Group เสนอแพ็คเกจ LanguageCraft ที่คล้ายกัน

งานที่กำลังดำเนินการอยู่กำลังดำเนินการเพื่อสร้างระบบการแปลอัตโนมัติ ระบบการแปลอัตโนมัติ SYSTRAN ซึ่งพัฒนาภายใต้การนำของ D. Tom สำหรับกองทัพอากาศสหรัฐฯ ได้กลายเป็นที่แพร่หลาย ระหว่างปี พ.ศ. 2517 - 2518 สมาคมการบินและอวกาศของนาซ่าใช้ระบบนี้เพื่อแปลเอกสารสำหรับโครงการอะพอลโล-โซยุซ ปัจจุบัน เธอแปลจากหลายภาษาประมาณ 100,000 หน้าต่อปี

ในยุโรป งานเกี่ยวกับการสร้างระบบการแปลด้วยคอมพิวเตอร์ได้รับแรงกระตุ้นจากการก่อตั้งเครือข่ายข้อมูลแห่งยุโรป (EURONET DIANA) ในปี 1982 ประชาคมเศรษฐกิจยุโรปได้ประกาศจัดตั้งโครงการ EUROTRA ของยุโรป โดยมีเป้าหมายเพื่อพัฒนาระบบการแปลโดยใช้คอมพิวเตอร์ช่วยสำหรับทุกคน ภาษายุโรป- โครงการนี้ประเมินในตอนแรกที่ 12 ล้านดอลลาร์ในปี 1987 ผู้เชี่ยวชาญได้กำหนดต้นทุนรวมของโครงการนี้ไว้ที่มากกว่า 160 ล้านดอลลาร์

ในญี่ปุ่น การวิจัยด้านภาษาศาสตร์คอมพิวเตอร์มีศูนย์กลางเกี่ยวกับโปรแกรมคอมพิวเตอร์รุ่นที่ 5 ทั่วประเทศที่ประกาศในปี 1981

มีโครงการทางทหารหลายโครงการเพื่อสร้างส่วนต่อประสานระหว่างมนุษย์กับเครื่องจักรในภาษาธรรมชาติ ในสหรัฐอเมริกาส่วนใหญ่ดำเนินการภายใต้กรอบของ Strategic Computer Initiative ซึ่งเป็นโครงการสิบปีที่กระทรวงกลาโหมนำมาใช้ในปี 2526 เป้าหมายคือการสร้างอาวุธและระบบทหาร "อัจฉริยะ" รุ่นใหม่ใน เพื่อให้มั่นใจถึงความเหนือกว่าทางเทคโนโลยีในระยะยาวของสหรัฐอเมริกา

โดยธรรมชาติแล้วผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ซึ่งเชี่ยวชาญด้านคอมพิวเตอร์และภาษาโปรแกรมได้เริ่มแก้ไขปัญหาการทำความเข้าใจภาษาโดยใช้วิธีการของตนเองอย่างกระตือรือร้น มีการค้นหาอัลกอริธึมภาษาธรรมชาติ โปรแกรมการทำความเข้าใจภาษาที่ซับซ้อนถูกสร้างขึ้นสำหรับพื้นที่เฉพาะทางที่แคบมาก โปรแกรมแปลภาษาด้วยเครื่องบางส่วน และอื่นๆ อีกมากมายได้ถูกนำมาใช้ แต่ไม่มีความคืบหน้าในการแก้ปัญหาการทำความเข้าใจภาษา ภาษาและผู้คนเชื่อมโยงกันมากจนนักวิทยาศาสตร์ต้องจัดการกับปัญหาความเข้าใจของมนุษย์เกี่ยวกับโลก และนี่คือขอบเขตของปรัชญาอยู่แล้ว

แนวคิดพื้นฐานของภาษาศาสตร์

เนื้อหาของบทความ

ภาษาศาสตร์คอมพิวเตอร์ทิศทางภาษาศาสตร์ประยุกต์ เน้นการใช้เครื่องมือคอมพิวเตอร์ โปรแกรม เทคโนโลยีคอมพิวเตอร์ในการจัดระเบียบและประมวลผลข้อมูล เพื่อสร้างแบบจำลองการทำงานของภาษาในบางสภาวะ สถานการณ์ พื้นที่ปัญหา ฯลฯ ตลอดจนขอบเขตการประยุกต์ใช้ทั้งหมด แบบจำลองภาษาคอมพิวเตอร์ทางภาษาศาสตร์และสาขาวิชาที่เกี่ยวข้อง ที่จริงแล้ว เฉพาะในกรณีหลังนี้เท่านั้นที่เรากำลังพูดถึงภาษาศาสตร์ประยุกต์ในความหมายที่เข้มงวด เนื่องจากการสร้างแบบจำลองภาษาด้วยคอมพิวเตอร์ถือได้ว่าเป็นสาขาการประยุกต์ใช้วิทยาการคอมพิวเตอร์และทฤษฎีการเขียนโปรแกรมในการแก้ปัญหาทางวิทยาศาสตร์ของภาษา อย่างไรก็ตาม ในทางปฏิบัติ ภาษาศาสตร์เชิงคำนวณประกอบด้วยเกือบทุกอย่างที่เกี่ยวข้องกับการใช้คอมพิวเตอร์ในภาษาศาสตร์

ภาษาศาสตร์เชิงคำนวณกลายเป็นสาขาวิทยาศาสตร์พิเศษในทศวรรษ 1960 คำว่า "ภาษาศาสตร์คอมพิวเตอร์" ในภาษารัสเซียเป็นคำแปลจากภาษาศาสตร์คอมพิวเตอร์ภาษาอังกฤษ เนื่องจากคำคุณศัพท์การคำนวณในภาษารัสเซียสามารถแปลได้ว่า "การคำนวณ" คำว่า "ภาษาศาสตร์เชิงคำนวณ" จึงพบได้ในวรรณคดีด้วย แต่ในวิทยาศาสตร์รัสเซียจะใช้ความหมายที่แคบกว่าโดยเข้าใกล้แนวคิดของ "ภาษาศาสตร์เชิงปริมาณ" กระแสของสิ่งพิมพ์ในพื้นที่นี้มีขนาดใหญ่มาก นอกเหนือจากคอลเลกชั่นตามธีมแล้ว วารสาร Computer Linguistics ยังได้รับการตีพิมพ์ทุกไตรมาสในสหรัฐอเมริกา งานด้านองค์กรและวิทยาศาสตร์จำนวนมากดำเนินการโดยสมาคมภาษาศาสตร์คอมพิวเตอร์ซึ่งมีโครงสร้างระดับภูมิภาค (โดยเฉพาะสาขายุโรป) ทุก ๆ สองปี จะมีการจัดการประชุมนานาชาติเกี่ยวกับภาษาศาสตร์เชิงคำนวณ (COLING) ประเด็นที่เกี่ยวข้องมักจะนำเสนออย่างกว้างขวางในการประชุมต่างๆ เกี่ยวกับปัญญาประดิษฐ์

ชุดเครื่องมือสำหรับภาษาศาสตร์เชิงคำนวณ

ภาษาศาสตร์เชิงคำนวณเป็นสาขาวิชาประยุกต์พิเศษที่มีความโดดเด่นด้วยเครื่องมือเป็นหลัก - เช่น เกี่ยวกับการใช้เครื่องมือคอมพิวเตอร์ในการประมวลผลข้อมูลภาษา เนื่องจากโปรแกรมคอมพิวเตอร์ที่สร้างแบบจำลองลักษณะการทำงานของภาษาสามารถใช้เครื่องมือการเขียนโปรแกรมได้หลากหลาย ดังนั้นจึงไม่จำเป็นต้องพูดถึงเครื่องมือแนวความคิดทั่วไปของภาษาศาสตร์คอมพิวเตอร์ อย่างไรก็ตามมันไม่ใช่ มีอยู่ หลักการทั่วไปการสร้างแบบจำลองการคิดทางคอมพิวเตอร์ซึ่งนำไปใช้ในทางใดทางหนึ่ง รุ่นคอมพิวเตอร์- มีพื้นฐานอยู่บนทฤษฎีความรู้ ซึ่งเดิมได้รับการพัฒนาในสาขาปัญญาประดิษฐ์ และต่อมาได้กลายเป็นหนึ่งในสาขาหนึ่งของวิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจ หมวดหมู่แนวคิดที่สำคัญที่สุดของภาษาศาสตร์คอมพิวเตอร์คือโครงสร้างความรู้เช่น "เฟรม" (แนวคิดหรือตามที่พวกเขากล่าวว่าโครงสร้างแนวคิดสำหรับการนำเสนอความรู้ที่เปิดเผยเกี่ยวกับสถานการณ์ที่เป็นหนึ่งเดียวตามธีมที่พิมพ์ไว้) "สถานการณ์" (โครงสร้างแนวคิดสำหรับขั้นตอน การแสดงความรู้เกี่ยวกับสถานการณ์แบบโปรเฟสเซอร์หรือพฤติกรรมแบบโปรเฟสเซอร์) "แผน" (โครงสร้างความรู้ที่รวบรวมแนวคิดเกี่ยวกับการกระทำที่เป็นไปได้ที่นำไปสู่การบรรลุเป้าหมายที่แน่นอน) แนวคิดของ "ฉาก" ที่เกี่ยวข้องอย่างใกล้ชิดกับหมวดหมู่ของเฟรมคือ หมวดหมู่ฉากถูกใช้เป็นส่วนใหญ่ในวรรณคดีเกี่ยวกับภาษาศาสตร์คอมพิวเตอร์ในฐานะการกำหนดโครงสร้างแนวคิดสำหรับการเป็นตัวแทนที่ประกาศของสิ่งที่เป็นจริงในการแสดงคำพูดและเน้นด้วยวิธีการทางภาษา (คำศัพท์ การสร้างวากยสัมพันธ์ หมวดหมู่ไวยากรณ์ฯลฯ) สถานการณ์และส่วนต่างๆ

ชุดโครงสร้างความรู้ที่จัดระเบียบในลักษณะใดลักษณะหนึ่งก่อให้เกิด "แบบจำลองโลก" ของระบบความรู้ความเข้าใจและแบบจำลองคอมพิวเตอร์ของมัน ในระบบปัญญาประดิษฐ์ โมเดลโลกจะสร้างบล็อกพิเศษซึ่งอาจรวมถึงความรู้ทั่วไปเกี่ยวกับโลก (ในรูปแบบของข้อเสนอง่ายๆ เช่น “อากาศหนาวในฤดูหนาว” หรือในรูปแบบของกฎการผลิต ขึ้นอยู่กับสถาปัตยกรรมที่เลือก) “ ถ้าข้างนอกฝนตกคุณต้องสวมเสื้อกันฝนหรือพกร่ม”) ข้อเท็จจริงบางประการ (“ ยอดเขาที่สูงที่สุดในโลกคือเอเวอร์เรสต์”) รวมถึงคุณค่าและลำดับชั้นซึ่งบางครั้งก็แยกออกเป็น "บล็อก axiological" พิเศษ

องค์ประกอบส่วนใหญ่ของแนวคิดเกี่ยวกับเครื่องมือทางภาษาศาสตร์เชิงคำนวณมีลักษณะเหมือนกัน กล่าวคือ องค์ประกอบเหล่านี้ระบุตัวตนที่แท้จริงของระบบการรับรู้ของมนุษย์ และวิธีการเป็นตัวแทนของเอนทิตีเหล่านี้ซึ่งใช้ในการอธิบายและการสร้างแบบจำลองทางทฤษฎี กล่าวอีกนัยหนึ่ง องค์ประกอบของเครื่องมือแนวความคิดของภาษาศาสตร์คอมพิวเตอร์มีลักษณะทางภววิทยาและเครื่องมือ ตัวอย่างเช่นในด้านภววิทยาการแบ่งความรู้ที่ประกาศและขั้นตอนสอดคล้องกับความรู้ประเภทต่าง ๆ ที่บุคคลมี - ที่เรียกว่าความรู้อะไร (ประกาศ; เช่นความรู้ รหัสไปรษณีย์ของ NN ใด ๆ ) ในอีกด้านหนึ่งและความรู้ HOW (ขั้นตอนเช่นความรู้ที่ช่วยให้คุณค้นหาอพาร์ทเมนต์ของ NN นี้แม้ว่าจะไม่ทราบที่อยู่อย่างเป็นทางการก็ตาม) - ในอีกด้านหนึ่ง ในด้านเครื่องมือ ความรู้สามารถรวมอยู่ในชุดคำอธิบาย (คำอธิบาย) ในชุดข้อมูล ในด้านหนึ่ง และในอัลกอริธึม คำสั่งที่ดำเนินการโดยคอมพิวเตอร์หรือโมเดลอื่น ๆ ของระบบการรับรู้ ในอีกทางหนึ่ง

ทิศทางของภาษาศาสตร์เชิงคำนวณ

สาขาวิชาของ CL มีความหลากหลายมากและรวมถึงสาขาต่างๆ เช่น การสร้างแบบจำลองคอมพิวเตอร์ในการสื่อสาร การสร้างแบบจำลองโครงสร้างพล็อต เทคโนโลยีไฮเปอร์เท็กซ์สำหรับการนำเสนอข้อความ การแปลด้วยคอมพิวเตอร์ และพจนานุกรมคอมพิวเตอร์ ในแง่แคบ ปัญหาของ CL มักจะเกี่ยวข้องกับพื้นที่ประยุกต์แบบสหวิทยาการซึ่งมีชื่อที่ค่อนข้างน่าเสียดายว่า "การประมวลผลภาษาธรรมชาติ" (คำแปลของคำศัพท์ภาษาอังกฤษ การประมวลผลภาษาธรรมชาติ) มันเกิดขึ้นในช่วงปลายทศวรรษ 1960 และพัฒนาภายใต้ระเบียบวินัยทางวิทยาศาสตร์และเทคโนโลยีของ "ปัญญาประดิษฐ์" ในรูปแบบภายใน วลี "การประมวลผลภาษาธรรมชาติ" ครอบคลุมทุกด้านที่คอมพิวเตอร์ใช้ในการประมวลผลข้อมูลภาษา ในขณะเดียวกัน ความเข้าใจที่แคบลงเกี่ยวกับคำนี้ได้ถูกนำมาใช้ในทางปฏิบัติ นั่นคือ การพัฒนาวิธีการ เทคโนโลยี และระบบเฉพาะที่รับประกันการสื่อสารของมนุษย์กับคอมพิวเตอร์ในภาษาธรรมชาติหรือภาษาธรรมชาติที่จำกัด

การพัฒนาอย่างรวดเร็วของสาขา "การประมวลผลภาษาธรรมชาติ" เกิดขึ้นในช่วงทศวรรษ 1970 ซึ่งสัมพันธ์กับการเติบโตแบบก้าวกระโดดของจำนวนผู้ใช้คอมพิวเตอร์ เนื่องจากการสอนภาษาและเทคโนโลยีการเขียนโปรแกรมให้กับผู้ใช้ทุกคนจึงเป็นไปไม่ได้ ปัญหาในการจัดการโต้ตอบกับโปรแกรมคอมพิวเตอร์จึงเกิดขึ้น การแก้ปัญหาการสื่อสารนี้เป็นไปตามสองเส้นทางหลัก ในกรณีแรกมีการพยายามปรับภาษาโปรแกรมและระบบปฏิบัติการให้เข้ากับผู้ใช้ปลายทาง ส่งผลให้ภาษาระดับสูงเช่น Visual Basic ปรากฏขึ้นและสะดวกยิ่งขึ้น ระบบปฏิบัติการสร้างขึ้นในพื้นที่แนวคิดของคำอุปมาอุปมัยที่มนุษย์คุ้นเคย - DESK, LIBRARY วิธีที่สองคือการพัฒนาระบบที่อนุญาตให้มีปฏิสัมพันธ์กับคอมพิวเตอร์ในพื้นที่ปัญหาเฉพาะในภาษาธรรมชาติหรือเวอร์ชันที่จำกัด

สถาปัตยกรรมของระบบประมวลผลภาษาธรรมชาติในกรณีทั่วไปประกอบด้วยบล็อกสำหรับวิเคราะห์ข้อความคำพูดของผู้ใช้ บล็อกสำหรับตีความข้อความ บล็อกสำหรับสร้างความหมายของคำตอบ และบล็อกสำหรับสังเคราะห์โครงสร้างพื้นผิวของข้อความ ส่วนพิเศษของระบบคือองค์ประกอบบทสนทนา ซึ่งจะบันทึกกลยุทธ์ในการดำเนินการเจรจา เงื่อนไขในการใช้กลยุทธ์เหล่านี้ และวิธีการเอาชนะความล้มเหลวในการสื่อสารที่อาจเกิดขึ้น (ความล้มเหลวในกระบวนการสื่อสาร)

ในบรรดาระบบประมวลผลภาษาธรรมชาติของคอมพิวเตอร์ ระบบคำถาม-คำตอบ ระบบการแก้ปัญหาเชิงโต้ตอบ และระบบประมวลผลข้อความที่เชื่อมต่อกัน มักจะมีความแตกต่างกัน เริ่มแรกเริ่มพัฒนาระบบคำถาม-คำตอบเพื่อตอบสนองต่อการเข้ารหัสแบบสอบถามคุณภาพต่ำเมื่อค้นหาข้อมูลในระบบเรียกค้นข้อมูล เนื่องจากพื้นที่ปัญหาของระบบดังกล่าวมีจำกัดมาก จึงค่อนข้างทำให้อัลกอริธึมสำหรับการแปลแบบสอบถามเป็นตัวแทนในภาษาที่เป็นทางการค่อนข้างง่ายขึ้น และขั้นตอนย้อนกลับสำหรับการแปลงการนำเสนออย่างเป็นทางการเป็นข้อความในภาษาธรรมชาติ ในบรรดาการพัฒนาในประเทศ โครงการประเภทนี้รวมถึงระบบ POET ที่สร้างขึ้นโดยทีมนักวิจัยภายใต้การนำของ E.V. ระบบประมวลผลคำขอเป็นภาษารัสเซีย (โดยมีข้อจำกัดเล็กน้อย) และสังเคราะห์คำตอบ ผังงานของโปรแกรมเกี่ยวข้องกับการผ่านทุกขั้นตอนของการวิเคราะห์ (สัณฐานวิทยา วากยสัมพันธ์ และความหมาย) และขั้นตอนการสังเคราะห์ที่สอดคล้องกัน

ระบบการแก้ปัญหาการสนทนาซึ่งแตกต่างจากระบบประเภทก่อนหน้ามีบทบาทอย่างแข็งขันในการสื่อสารเนื่องจากงานของพวกเขาคือการได้รับการแก้ไขปัญหาตามความรู้ที่นำเสนอและข้อมูลที่สามารถได้รับจากผู้ใช้ ระบบประกอบด้วยโครงสร้างความรู้ที่บันทึกลำดับการดำเนินการโดยทั่วไปสำหรับการแก้ปัญหาในพื้นที่ปัญหาที่กำหนด ตลอดจนข้อมูลเกี่ยวกับทรัพยากรที่จำเป็น เมื่อผู้ใช้ถามคำถามหรือกำหนดงานเฉพาะ สคริปต์ที่เกี่ยวข้องจะถูกเปิดใช้งาน หากส่วนประกอบสคริปต์บางส่วนหายไปหรือทรัพยากรบางส่วนหายไป ระบบจะเริ่มต้นการสื่อสาร นี่คือวิธีการทำงานของระบบ SNUKA เช่น นักแก้ปัญหาการวางแผนปฏิบัติการทางทหาร

ระบบการประมวลผลข้อความที่เชื่อมต่อมีโครงสร้างค่อนข้างหลากหลาย คุณลักษณะทั่วไปของพวกเขาถือได้ว่าเป็นการใช้เทคโนโลยีการแทนความรู้อย่างแพร่หลาย หน้าที่ของระบบประเภทนี้คือการเข้าใจข้อความและตอบคำถามเกี่ยวกับเนื้อหา ความเข้าใจไม่ถือเป็นหมวดหมู่สากล แต่เป็นกระบวนการในการดึงข้อมูลจากข้อความ ซึ่งกำหนดโดยจุดประสงค์ในการสื่อสารที่เฉพาะเจาะจง กล่าวอีกนัยหนึ่ง ข้อความจะ "อ่าน" เท่านั้นโดยมีข้อสันนิษฐานว่าสิ่งที่ผู้ใช้ต้องการทราบเกี่ยวกับข้อความนั้นอย่างแน่นอน ดังนั้นระบบในการประมวลผลข้อความที่เชื่อมต่อจึงไม่ได้เป็นสากล แต่เป็นเชิงปัญหา ตัวอย่างทั่วไประบบประเภทที่อยู่ระหว่างการสนทนาอาจเป็นระบบ RESEARCHER และ TAILOR ซึ่งรวมเป็นชุดซอฟต์แวร์เดียวที่อนุญาตให้ผู้ใช้รับข้อมูลจากบทคัดย่อสิทธิบัตรที่อธิบายวัตถุทางกายภาพที่ซับซ้อน

สาขาวิชาที่สำคัญที่สุดของภาษาศาสตร์คอมพิวเตอร์คือการพัฒนาระบบสืบค้นข้อมูล (IRS) อย่างหลังเกิดขึ้นในช่วงปลายทศวรรษ 1950 และต้นทศวรรษ 1960 เนื่องจากการตอบสนองต่อปริมาณข้อมูลทางวิทยาศาสตร์และทางเทคนิคที่เพิ่มขึ้นอย่างรวดเร็ว ขึ้นอยู่กับประเภทของข้อมูลที่จัดเก็บและประมวลผลตลอดจนคุณลักษณะการค้นหา ระบบการสืบค้นข้อมูลจะแบ่งออกเป็นสอง: กลุ่มใหญ่– สารคดีและข้อเท็จจริง ระบบเรียกค้นข้อมูลสารคดีจะจัดเก็บข้อความของเอกสารหรือคำอธิบาย (บทคัดย่อ การ์ดบรรณานุกรม ฯลฯ) Factual IRS จัดการกับคำอธิบายข้อเท็จจริงเฉพาะเจาะจง และไม่จำเป็นต้องอยู่ในรูปแบบข้อความ สิ่งเหล่านี้อาจเป็นตาราง สูตร และการนำเสนอข้อมูลประเภทอื่นๆ นอกจากนี้ยังมีระบบข้อมูลที่หลากหลายทั้งเอกสารและข้อมูลข้อเท็จจริง ปัจจุบันระบบสารสนเทศที่เป็นข้อเท็จจริงถูกสร้างขึ้นบนพื้นฐานของเทคโนโลยีฐานข้อมูล (DB) เพื่อให้แน่ใจว่าการดึงข้อมูลในระบบการดึงข้อมูลจะมีการสร้างภาษาการดึงข้อมูลพิเศษซึ่งขึ้นอยู่กับพจนานุกรมการดึงข้อมูล ภาษาการดึงข้อมูลเป็นภาษาทางการที่ออกแบบมาเพื่ออธิบายบางแง่มุมของแผนเนื้อหาของเอกสารที่จัดเก็บไว้ในระบบการดึงข้อมูลและการร้องขอ ขั้นตอนในการอธิบายเอกสารในภาษาเรียกข้อมูลเรียกว่าการทำดัชนี ผลจากการจัดทำดัชนี เอกสารแต่ละฉบับจะได้รับการกำหนดคำอธิบายอย่างเป็นทางการในภาษาที่ใช้เรียกข้อมูล ซึ่งเป็นรูปภาพสำหรับค้นหาเอกสาร ข้อความค้นหาได้รับการจัดทำดัชนีในลักษณะเดียวกัน โดยมีการกำหนดรูปภาพข้อความค้นหาและข้อกำหนดในการค้นหา อัลกอริธึมการดึงข้อมูลจะขึ้นอยู่กับการเปรียบเทียบข้อกำหนดในการค้นหากับรูปภาพการค้นหาของข้อความค้นหา เกณฑ์ในการออกเอกสารตามคำขออาจเป็นการจับคู่รูปภาพการค้นหาของเอกสารและคำแนะนำในการค้นหาทั้งหมดหรือบางส่วน ในบางกรณีผู้ใช้มีโอกาสที่จะกำหนดเกณฑ์การออกเอง สิ่งนี้ถูกกำหนดโดยความต้องการข้อมูลของเขา ระบบเรียกค้นข้อมูลอัตโนมัติมักใช้ภาษาเรียกข้อมูลอธิบาย เรื่องของเอกสารถูกอธิบายโดยชุดคำอธิบาย คำอธิบายคือคำและคำศัพท์ที่แสดงถึงหมวดหมู่และแนวคิดเบื้องต้นที่เรียบง่ายของปัญหา เนื่องจากมีการระบุคำอธิบายจำนวนมากลงในรูปภาพการค้นหาของเอกสาร เนื่องจากมีหัวข้อต่างๆ ครอบคลุมอยู่ในเอกสาร ไม่จำกัดจำนวนตัวอธิบาย ซึ่งช่วยให้คุณสามารถอธิบายเอกสารในเมทริกซ์คุณลักษณะหลายมิติได้ บ่อยครั้งในภาษาการเรียกข้อมูลคำอธิบาย มีการกำหนดข้อจำกัดเกี่ยวกับความเข้ากันได้ของคำอธิบาย ในกรณีนี้ เราสามารถพูดได้ว่าภาษาในการดึงข้อมูลมีไวยากรณ์

หนึ่งในระบบแรกๆ ที่ทำงานร่วมกับภาษาอธิบายคือระบบ American UNITERM ซึ่งสร้างโดย M. Taube คำสำคัญในเอกสาร—หน่วย—ทำหน้าที่เป็นตัวอธิบายในระบบนี้ ลักษณะเฉพาะของ IRS นี้คือในตอนแรกไม่ได้ระบุพจนานุกรมของภาษาข้อมูล แต่เกิดขึ้นในกระบวนการจัดทำดัชนีเอกสารและแบบสอบถาม การพัฒนาระบบเรียกค้นข้อมูลสมัยใหม่มีความเกี่ยวข้องกับการพัฒนาระบบเรียกค้นข้อมูลที่ไม่ใช่พจนานุกรม ระบบข้อมูลดังกล่าวทำงานร่วมกับผู้ใช้ในภาษาธรรมชาติที่จำกัด และการค้นหาจะดำเนินการผ่านข้อความของบทคัดย่อในเอกสาร ผ่านคำอธิบายบรรณานุกรม และบ่อยครั้งผ่านตัวเอกสารเอง สำหรับการจัดทำดัชนีใน IRS ที่ไม่ใช่พจนานุกรม จะใช้คำและวลีที่เป็นภาษาธรรมชาติ

ในระดับหนึ่งสาขาภาษาศาสตร์คอมพิวเตอร์อาจรวมถึงงานในด้านการสร้างระบบไฮเปอร์เท็กซ์ซึ่งถือเป็น วิธีพิเศษการจัดระเบียบข้อความและแม้กระทั่งเป็นข้อความรูปแบบใหม่โดยพื้นฐาน ซึ่งแตกต่างในคุณสมบัติหลายประการกับข้อความธรรมดาที่เกิดขึ้นในประเพณีการพิมพ์ของกูเทนแบร์ก แนวคิดเรื่องไฮเปอร์เท็กซ์เกี่ยวข้องกับชื่อของ Vannevar Bush ที่ปรึกษาด้านวิทยาศาสตร์ของประธานาธิบดี F. Roosevelt V. Bush ยืนยันโครงการระบบทางเทคนิค Memex ในทางทฤษฎี ซึ่งอนุญาตให้ผู้ใช้เชื่อมต่อข้อความและชิ้นส่วนโดยใช้การเชื่อมต่อประเภทต่างๆ โดยส่วนใหญ่มาจากความสัมพันธ์แบบเชื่อมโยง การขาดเทคโนโลยีคอมพิวเตอร์ทำให้โครงการนี้ดำเนินการได้ยาก เนื่องจากระบบกลไกมีความซับซ้อนเกินไปสำหรับการปฏิบัติจริง

แนวคิดของบุชเกิดใหม่ในปี 1960 ในระบบ Xanadu ของ T. Nelson ซึ่งเกี่ยวข้องกับการใช้เทคโนโลยีคอมพิวเตอร์อยู่แล้ว “Xanadu” อนุญาตให้ผู้ใช้อ่านชุดข้อความที่ป้อนเข้าสู่ระบบด้วยวิธีต่างๆ ในลำดับที่ต่างกัน ซอฟต์แวร์ทำให้สามารถจดจำลำดับของข้อความที่ดูและเลือกข้อความเกือบทั้งหมดได้ตลอดเวลา ชุดข้อความที่มีความสัมพันธ์เชื่อมโยงกัน (ระบบการเปลี่ยนภาพ) ถูกเรียกว่าไฮเปอร์เท็กซ์โดย T. Nelson นักวิจัยหลายคนมองว่าการสร้างไฮเปอร์เท็กซ์เป็นจุดเริ่มต้นของยุคข้อมูลใหม่ ซึ่งตรงกันข้ามกับยุคของการพิมพ์ ความเป็นเส้นตรงของการเขียนซึ่งสะท้อนถึงความเป็นเส้นตรงของคำพูดภายนอกกลายเป็นหมวดหมู่พื้นฐานที่จำกัดการคิดและความเข้าใจของมนุษย์ในข้อความ โลกแห่งความหมายนั้นไม่เชิงเส้น ดังนั้นการบีบอัดข้อมูลความหมายในส่วนของคำพูดเชิงเส้นนั้นจำเป็นต้องใช้ "แพ็คเกจการสื่อสาร" พิเศษ - แบ่งออกเป็นธีมและรูปแบบ การแบ่งแผนเนื้อหาของคำพูดให้ชัดเจน (คำแถลง ข้อเสนอ โฟกัส) และชั้นโดยนัย (ข้อสันนิษฐาน ผลที่ตามมา วาทกรรมโดยนัย) ตามที่นักทฤษฎีกล่าวไว้ การปฏิเสธความเป็นเส้นตรงของข้อความทั้งในกระบวนการนำเสนอต่อผู้อ่าน (เช่น ระหว่างการอ่านและทำความเข้าใจ) และในกระบวนการสังเคราะห์ จะนำไปสู่การ "ปลดปล่อย" ของการคิดและแม้แต่การเกิดขึ้นของความคิด แบบฟอร์มใหม่

ในระบบคอมพิวเตอร์ ไฮเปอร์เท็กซ์จะถูกนำเสนอในรูปแบบของกราฟ ซึ่งโหนดประกอบด้วยข้อความแบบดั้งเดิมหรือส่วนย่อย รูปภาพ ตาราง วิดีโอ ฯลฯ โหนดเชื่อมต่อกันด้วยความสัมพันธ์ที่หลากหลาย ประเภทที่กำหนดโดยนักพัฒนาซอฟต์แวร์ไฮเปอร์เท็กซ์หรือโดยผู้อ่านเอง ความสัมพันธ์กำหนดความเป็นไปได้ของการเคลื่อนไหวหรือการนำทางผ่านไฮเปอร์เท็กซ์ ความสัมพันธ์อาจเป็นแบบทิศทางเดียวหรือแบบสองทิศทาง ด้วยเหตุนี้ ลูกศรสองทิศทางจึงทำให้ผู้ใช้สามารถเคลื่อนที่ได้ทั้งสองทิศทาง ในขณะที่ลูกศรทิศทางเดียวทำให้ผู้ใช้สามารถเคลื่อนที่ไปในทิศทางเดียวเท่านั้น สายโซ่ของโหนดที่ผู้อ่านผ่านเมื่อดูส่วนประกอบของข้อความทำให้เกิดเส้นทางหรือเส้นทาง

การใช้คอมพิวเตอร์ไฮเปอร์เท็กซ์สามารถเป็นแบบลำดับชั้นหรือแบบเครือข่ายได้ โครงสร้างไฮเปอร์เท็กซ์แบบลำดับชั้นเหมือนต้นไม้จำกัดความเป็นไปได้ของการเปลี่ยนแปลงระหว่างส่วนประกอบต่างๆ อย่างมาก ในไฮเปอร์เท็กซ์ดังกล่าว ความสัมพันธ์ระหว่างส่วนประกอบต่างๆ คล้ายคลึงกับโครงสร้างของอรรถาภิธานตามความสัมพันธ์ระหว่างสกุลและสปีชีส์ ไฮเปอร์เท็กซ์ของเครือข่ายอนุญาตให้ใช้ความสัมพันธ์ประเภทต่างๆ ระหว่างส่วนประกอบ ไม่จำกัดเพียงความสัมพันธ์ประเภท-สปีชีส์ ตามวิธีการดำรงอยู่ของไฮเปอร์เท็กซ์ไฮเปอร์เท็กซ์แบบคงที่และไดนามิกจะแตกต่างกัน ไฮเปอร์เท็กซ์แบบคงที่จะไม่เปลี่ยนแปลงระหว่างการทำงาน ในนั้นผู้ใช้สามารถบันทึกความคิดเห็นของเขาได้ แต่จะไม่เปลี่ยนสาระสำคัญของเรื่อง สำหรับไฮเปอร์เท็กซ์แบบไดนามิก การเปลี่ยนแปลงเป็นรูปแบบปกติของการดำรงอยู่ โดยทั่วไปแล้ว ไดนามิกไฮเปอร์เท็กซ์จะทำงานเมื่อจำเป็นต้องวิเคราะห์การไหลของข้อมูลอย่างต่อเนื่อง เช่น ในการให้บริการข้อมูลประเภทต่างๆ ตัวอย่างเช่น ไฮเปอร์เท็กซ์คือ Arizona Information System (AAIS) ซึ่งได้รับการอัปเดตทุกเดือนด้วยบทคัดย่อ 300–500 รายการต่อเดือน

ผู้สร้างสามารถกำหนดความสัมพันธ์ระหว่างองค์ประกอบไฮเปอร์เท็กซ์ได้ในตอนแรก หรืออาจสร้างขึ้นเมื่อใดก็ตามที่ผู้ใช้เข้าถึงไฮเปอร์เท็กซ์ก็ได้ ในกรณีแรกเรากำลังพูดถึงไฮเปอร์เท็กซ์ของโครงสร้างแบบแข็ง และในกรณีที่สอง - เกี่ยวกับไฮเปอร์เท็กซ์ของโครงสร้างแบบอ่อน โครงสร้างที่เข้มงวดนั้นเป็นเทคโนโลยีที่เข้าใจได้ค่อนข้างมาก เทคโนโลยีในการจัดโครงสร้างแบบอ่อนควรขึ้นอยู่กับการวิเคราะห์เชิงความหมายของความใกล้ชิดของเอกสาร (หรือแหล่งข้อมูลอื่น) ระหว่างกัน นี่เป็นงานที่ไม่สำคัญในภาษาศาสตร์เชิงคำนวณ ปัจจุบันการนำเทคโนโลยีโครงสร้างแบบอ่อนเข้ามาใช้ คำหลักโอ้. การเปลี่ยนจากโหนดหนึ่งไปยังอีกโหนดหนึ่งในเครือข่ายไฮเปอร์เท็กซ์นั้นดำเนินการอันเป็นผลมาจากการค้นหาคำหลัก เนื่องจากชุดคำสำคัญอาจแตกต่างกันในแต่ละครั้ง โครงสร้างของไฮเปอร์เท็กซ์จึงเปลี่ยนแปลงในแต่ละครั้ง

เทคโนโลยีสำหรับการสร้างระบบไฮเปอร์เท็กซ์ไม่ได้แยกความแตกต่างระหว่างข้อมูลที่เป็นข้อความและไม่ใช่ข้อความ ในขณะเดียวกัน การรวมข้อมูลภาพและเสียง (วิดีโอ รูปภาพ ภาพถ่าย การบันทึกเสียง ฯลฯ) จำเป็นต้องมีการเปลี่ยนแปลงที่สำคัญในส่วนต่อประสานกับผู้ใช้ รวมถึงซอฟต์แวร์และการสนับสนุนคอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น ระบบดังกล่าวเรียกว่าไฮเปอร์มีเดียหรือมัลติมีเดีย การมองเห็นของระบบมัลติมีเดียได้กำหนดไว้ล่วงหน้าถึงการใช้อย่างแพร่หลายในการสอนและการสร้างสรรค์ ตัวเลือกคอมพิวเตอร์สารานุกรม ตัวอย่างเช่น มีซีดีรอมที่ผลิตอย่างสวยงามพร้อมระบบมัลติมีเดียจากสารานุกรมสำหรับเด็กที่จัดพิมพ์โดย Dorlin Kindersley

ภายในกรอบการทำงานของพจนานุกรมคอมพิวเตอร์ กำลังพัฒนาเทคโนโลยีคอมพิวเตอร์สำหรับการรวบรวมและปฏิบัติการพจนานุกรม โปรแกรมพิเศษ - ฐานข้อมูล ตู้เก็บเอกสารคอมพิวเตอร์ โปรแกรมประมวลผลคำ - ช่วยให้คุณสร้างรายการพจนานุกรมโดยอัตโนมัติ จัดเก็บข้อมูลพจนานุกรมและประมวลผลได้ โปรแกรมพจนานุกรมคอมพิวเตอร์ที่แตกต่างกันจำนวนมากแบ่งออกเป็นสองกลุ่มใหญ่: โปรแกรมสนับสนุนพจนานุกรมและพจนานุกรมอัตโนมัติ หลากหลายชนิดรวมถึงฐานข้อมูลคำศัพท์ พจนานุกรมอัตโนมัติคือพจนานุกรมในรูปแบบเครื่องพิเศษที่ผู้ใช้หรือโปรแกรมประมวลผลคำของคอมพิวเตอร์ใช้บนคอมพิวเตอร์ กล่าวอีกนัยหนึ่ง มีความแตกต่างระหว่างพจนานุกรมอัตโนมัติสำหรับผู้ใช้ปลายทางที่เป็นมนุษย์และพจนานุกรมอัตโนมัติสำหรับโปรแกรมประมวลผลคำ พจนานุกรมอัตโนมัติสำหรับผู้ใช้ปลายทางมีความแตกต่างกันอย่างมากในส่วนต่อประสานและโครงสร้างของรายการพจนานุกรมจากพจนานุกรมอัตโนมัติที่รวมอยู่ในระบบการแปลด้วยเครื่อง ระบบสรุปอัตโนมัติ ระบบเรียกค้นข้อมูล ฯลฯ ส่วนใหญ่มักเป็นพจนานุกรมทั่วไปที่รู้จักกันดีในเวอร์ชันคอมพิวเตอร์ มีพจนานุกรมอธิบายคอมพิวเตอร์ที่คล้ายคลึงกันในตลาดซอฟต์แวร์ เป็นภาษาอังกฤษ(เว็บสเตอร์อัตโนมัติ, อัตโนมัติ พจนานุกรมสำนักพิมพ์ภาษาอังกฤษ Collins พจนานุกรมภาษาอังกฤษ-รัสเซียฉบับใหม่ฉบับอัตโนมัติ เอ็ด Yu.D. Apresyan และ E.M. Mednikova) นอกจากนี้ยังมีพจนานุกรมของ Ozhegov เวอร์ชันคอมพิวเตอร์ด้วย พจนานุกรมอัตโนมัติสำหรับโปรแกรมประมวลผลคำสามารถเรียกได้ว่าเป็นพจนานุกรมอัตโนมัติในแง่ที่เข้มงวด โดยทั่วไปไม่ได้มีไว้สำหรับผู้ใช้ทั่วไป คุณสมบัติของโครงสร้างและขอบเขตของสื่อคำศัพท์นั้นถูกกำหนดโดยโปรแกรมที่โต้ตอบกับพวกเขา

การสร้างแบบจำลองคอมพิวเตอร์ของโครงสร้างพล็อตเป็นอีกสาขาวิชาหนึ่งที่น่าสนใจของภาษาศาสตร์คอมพิวเตอร์ การศึกษาโครงสร้างโครงเรื่องเกี่ยวข้องกับปัญหาการวิจารณ์วรรณกรรมเชิงโครงสร้าง (ในความหมายกว้าง) สัญศาสตร์ และการศึกษาวัฒนธรรม โปรแกรมคอมพิวเตอร์ที่มีอยู่สำหรับการสร้างแบบจำลองพล็อตจะขึ้นอยู่กับรูปแบบพื้นฐานสามประการสำหรับการนำเสนอพล็อต - ทิศทางทางสัณฐานวิทยาและวากยสัมพันธ์ของการนำเสนอพล็อต เช่นเดียวกับแนวทางการรับรู้ แนวคิดเกี่ยวกับโครงสร้างทางสัณฐานวิทยาของโครงสร้างโครงเรื่องกลับไป ผลงานที่มีชื่อเสียงวี.ยา.พรประภา ( ซม.) เกี่ยวกับเทพนิยายรัสเซีย พรอปป์สังเกตว่าเนื่องจากมีตัวละครและเหตุการณ์มากมายในเทพนิยาย จำนวนหน้าที่ของตัวละครจึงมีจำกัด และเขาเสนออุปกรณ์สำหรับอธิบายหน้าที่เหล่านี้ แนวคิดของพรอปป์เป็นพื้นฐานของโปรแกรมคอมพิวเตอร์ TALE ซึ่งจำลองการสร้างพล็อตเรื่องในเทพนิยาย อัลกอริธึมของโปรแกรม TALE ขึ้นอยู่กับลำดับการทำงานของตัวละครในเทพนิยาย ในความเป็นจริง ฟังก์ชันของ Propp ได้กำหนดชุดของสถานการณ์ที่พิมพ์ไว้ ซึ่งเรียงลำดับบนพื้นฐานของการวิเคราะห์เนื้อหาเชิงประจักษ์ ความเป็นไปได้ในการเชื่อมโยงสถานการณ์ต่างๆ ในกฎแห่งการสร้างนั้นถูกกำหนดโดยลำดับของฟังก์ชันทั่วไป - ในรูปแบบที่สามารถสร้างสิ่งนี้ได้จากตำราในเทพนิยาย ในโปรแกรม ลำดับฟังก์ชันทั่วไปถูกอธิบายเป็นสถานการณ์การเผชิญหน้าอักขระทั่วไป

พื้นฐานทางทฤษฎีของแนวทางทางวากยสัมพันธ์ในเนื้อเรื่องของข้อความคือ "ไวยากรณ์เรื่อง" หรือ "ไวยากรณ์เรื่อง" พวกเขาปรากฏตัวในช่วงกลางทศวรรษ 1970 อันเป็นผลมาจากการถ่ายโอนแนวคิดเกี่ยวกับไวยากรณ์กำเนิดของ N. Chomsky ไปเป็นการอธิบายโครงสร้างมหภาคของข้อความ หากองค์ประกอบที่สำคัญที่สุดของโครงสร้างวากยสัมพันธ์ในไวยากรณ์กำเนิดคือวลีกริยาและคำนาม ดังนั้นในไวยากรณ์โครงเรื่องส่วนใหญ่ การแสดงออก (ฉาก) เหตุการณ์และตอนต่างๆ จะถูกแยกออกเป็นองค์ประกอบพื้นฐาน ในทฤษฎีไวยากรณ์ของพล็อตเรื่อง เงื่อนไขของความน้อยที่สุด นั่นคือ ข้อจำกัดที่กำหนดสถานะของลำดับขององค์ประกอบพล็อตเหมือนพล็อตปกติ ได้รับการพูดคุยกันอย่างกว้างขวาง อย่างไรก็ตาม ปรากฎว่าสิ่งนี้ไม่สามารถทำได้โดยใช้วิธีการทางภาษาล้วนๆ ข้อจำกัดหลายประการมีลักษณะทางสังคมวัฒนธรรม โครงเรื่องไวยากรณ์ แม้ว่าชุดหมวดหมู่ในแผนผังรุ่นจะแตกต่างกันอย่างมีนัยสำคัญ แต่ก็มีกฎเกณฑ์ที่จำกัดมากในการปรับเปลี่ยนโครงสร้างการเล่าเรื่อง

ในช่วงต้นทศวรรษ 1980 V. Lehnert นักเรียนคนหนึ่งของ R. Schenk ซึ่งเป็นส่วนหนึ่งของงานของเธอในการสร้างเครื่องกำเนิดพล็อตคอมพิวเตอร์ได้เสนอรูปแบบดั้งเดิมของหน่วยพล็อตทางอารมณ์ (Affective Plot Units) ซึ่งกลายเป็นวิธีการที่ทรงพลัง เป็นตัวแทนโครงสร้างโครงเรื่อง แม้ว่าเดิมทีมันถูกพัฒนาขึ้นสำหรับระบบปัญญาประดิษฐ์ แต่รูปแบบนี้ถูกใช้ในการศึกษาเชิงทฤษฎีล้วนๆ แก่นแท้ของแนวทางของเลเนิร์ตก็คือ โครงเรื่องถูกอธิบายว่าเป็นการเปลี่ยนแปลงตามลำดับในสภาวะการรับรู้และอารมณ์ของตัวละคร ดังนั้น จุดเน้นของพิธีการของเลห์เนิร์ตจึงไม่ได้อยู่ที่องค์ประกอบภายนอกของโครงเรื่อง - การอธิบาย เหตุการณ์ ตอน ศีลธรรม - แต่อยู่ที่คุณลักษณะของเนื้อหา ในแง่นี้ ระเบียบแบบแผนของ Lehnert ส่วนหนึ่งเป็นการกลับไปสู่แนวคิดของ Propp

ความสามารถด้านภาษาศาสตร์คอมพิวเตอร์ยังรวมถึงการแปลภาษาด้วยเครื่อง ซึ่งขณะนี้กำลังประสบกับการเกิดใหม่

วรรณกรรม:

โปปอฟ อี.วี. การสื่อสารกับคอมพิวเตอร์ด้วยภาษาธรรมชาติ- ม., 1982
ซาดูร์ วี.จี. การสื่อสารด้วยเสียงกับคอมพิวเตอร์อิเล็กทรอนิกส์และปัญหาการพัฒนา- – ในหนังสือ การสื่อสารด้วยคำพูด: ปัญหาและโอกาส ม., 1983
บารานอฟ เอ.เอ็น. ประเภทของปัญญาประดิษฐ์ในความหมายทางภาษา เฟรมและสคริปต์- ม., 1987
Kobozeva I.M. , Laufer N.I. , Saburova I.G. การสร้างแบบจำลองการสื่อสารในระบบมนุษย์และเครื่องจักร- – การสนับสนุนทางภาษาของระบบสารสนเทศ ม., 1987
โอลเกอร์ เอช.อาร์. เทพนิยายโศกนาฏกรรมและวิธีการนำเสนอประวัติศาสตร์โลก- – ในหนังสือ: ภาษาและแบบจำลองปฏิสัมพันธ์ทางสังคม. ม., 1987
Gorodetsky B.Yu. ภาษาศาสตร์เชิงคำนวณ: การสร้างแบบจำลองการสื่อสารด้วยภาษา
แมคควีน เค. กลยุทธ์วาทกรรมสำหรับการสังเคราะห์ข้อความภาษาธรรมชาติ- – ใหม่ในภาษาศาสตร์ต่างประเทศ ฉบับที่ XXIV ภาษาศาสตร์คอมพิวเตอร์ ม., 1989
Popov E.V., Preobrazhensky A.B. . คุณสมบัติของการนำระบบ NL ไปใช้
Preobrazhensky A.B. สถานะของการพัฒนาระบบ NL สมัยใหม่- - ปัญญาประดิษฐ์. หนังสือ 1 ระบบการสื่อสารและระบบผู้เชี่ยวชาญ ม., 1990
ซับโบติน เอ็ม.เอ็ม. ไฮเปอร์เท็กซ์ แบบฟอร์มใหม่การสื่อสารที่เป็นลายลักษณ์อักษร- – วินิตี เซอร์. วิทยาการคอมพิวเตอร์ 2537 เล่มที่ 18
บารานอฟ เอ.เอ็น. ภาษาศาสตร์ประยุกต์เบื้องต้น- ม., 2000