Заседание Круглого стола "Платформа LingvoDoc: цифровизация языков народов России и инструменты для исследования"
понедельник, 15 декабря 2025

13 декабря 2025 г. в рамках проекта РНФ «Разработка инструментария и комплексные исследования монгольских языков и их диалектов (с применением технологий анализа больших массивов данных словарных и корпусных материалов)» (руководитель Куканова В. В.) в режиме он-лайн проходило заседание Круглого стола «Платформа LingvoDoc: цифровизация языков народов России и инструменты для исследования». В мероприятии приняли участие ведущие ученые-филологи Москвы, Элисты, Казани, Улан-Удэ и Уфы.
В ходе глобализации с нарастающей интенсивностью происходит исчезновение малых языков или сокращение численности их носителей. В связи с этим большое значение приобретает цифровизация данных, которая способствует сохранению, исследованию и ревитализации языков и культур в целом путем аккумулирования имеющейся информации и предоставления быстрого доступа к ней.
Существуют различные инструменты для цифровой обработки текстовых, аудио- и видеоматериалов. В 2012 г. появилась платформа ИСП РАН ЛингвоДок, предназначенная для хранения и многоуровневой обработки языковых данных, которая в современной отечественной лингвистике является одной из признанных платформ. На данной платформе есть возможность создания, хранения и анализа словарей, материалов по всем языкам и диалектам народов Российской Федерации. Ученые Бурятии, Башкирии, Татарстана и других национальных республик успешно работают на этой платформе.
В результате плодотворной работы были созданы и выложены в открытый доступ десятки текстовых и аудиокорпусов по различным языкам и диалектам, созданы лексические и морфологические словари Созданные корпуса позволяют заново пересмотреть более ранние грамматические описания, сделанные на базе ограниченного количества материалов, но уже опираясь на анализ больших данных. Так, в качестве одного из примеров корпусного анализа можно представить исследование памятников письменности XIX в. в сопоставлении с данными за XX в. Доклады ученых Д. Н. Музраевой («К изучению языка письменных источников на ойратском языке (на материале параллельного тибетско-ойратского корпуса текстов)»), Б. Л. Тушинова («Хадмал-тексты как прототип современного тибетско-ойратского параллельного корпуса»), С. В. Ковылина («Опыт цифровой обработки селькупских и хантыйских языковых материалов»),Ф. Ш. Нуриевой, Г. Г. Галиуллиной и А. Ф. Юсупова(«Сравнительный анализ лексики словника Г. Ф. Миллера и современного татарского языка»;«Графо-фонетическое описание материалов татарского языка XVIII в. на платформе ЛингвоДок: по записям участников Великой Северной экспедиции») основаны на данных этой платформы.
С интересными докладами выступили и сотрудники Института системного программирования им. В. П. Иванникова Российской академии наук (ИСП РАН) — научно-исследовательского учреждения, ведущего фундаментальные и прикладные исследования в области информатики и разработавшего платформу ЛингвоДок. Главный научный сотрудник ИСП РАН, доктор филологических наук Ю. В. Норманскаярассказала о степени близости между дунсянским, баоаньским и шира-югурским языками с точки зрения глоттохронологии и системы регулярных фонетических соответствий. Опытом цифровой обработки селькупских и хантыйских языковых материалов поделился старший научный сотрудник ИСП РАН, кандидат филологических наук С. В. Ковылин.
В 2025 г. в рамках проекта, поддержанного Российским научным фондом, была осуществлена экспедиция в Киргизию, в Иссык-Кульский район, для записи информантов — носителей сарт-калмыцкого говора, компактно проживающих в селах Челпек, Бёрю-Баш, Бурма-Суу, Таш-Кыя.Директор КалмНЦ РАН В. В. Куканова на материале полевых записей исследовала фонетические соответствия калмыцкого и сарт-калмыцкого языков.
Участники Круглого стола пришли к выводу, что перспективы корпусных исследований с применением инструментов компьютерной лингвистики довольно широки. Необходимо и далее накапливать данные, выкладывать их в открытый доступ и продвигать политику открытости обработанных по грантам материалов для использования их в научных, учебных и просветительских целях.








