Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.

Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.

Корпус — это информационно-справочная система, основанная на собрании текстов на неком языке в электрической форме. Государственный корпус представляет данный язык на определенном шаге (либо шагах) его существования и во всём обилии жанров, стилей, территориальных и соц вариантов и т. п.

Под текстовым корпусомв корпусной лингвистике понимается структурированный, размеченный массив текстов либо их Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. значимых фрагментов, представленный в электрическом виде и богатый спец поисковой машиной. Текстовые корпусы могут быть созданы для решения разных лингвистических задач. Цель построения корпуса определяет его тип. Типы корпусов (фундаментальные корпусы текстов; динамические/мониторные vs. статические корпусы; исследовательские vs. иллюстративные корпусы; авторские корпусы) .Важным общим принципом формирования текстовых Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. корпусов является их репрезентативность, которая определяется не только лишь и не столько количеством языкового материала, но сначала его пропорциональностью. Другим отличительным свойством корпуса текстов является разметка(аннотирование) текстового массива.

Корпус российского языка — это информационно-справочная система, основанная на собрании российских текстов в электрической форме, объемом более 140 млн. слов.

Создание корпусов текстов российской речи Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. началось сравнимо не так давно.

Посреди российских текстовых корпусов есть как корпусы, стремящиеся отразить состояние российского языка в целом на современном шаге его существования, так и корпусы, обращенные к отдельным его явлениям и подсистемам. Не все сделанные либо создающиеся корпуса доступны сейчас для широкого круга юзеров. Более презентабельным Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. из российских текстовых корпусов первой группы (в целом) является сейчас Государственный корпус российского языка. К этой же группе корпусов можно отнести, также такие корпусы, как:

– Тюбингенские корпусы российских текстов:

– Корпус российского литературного языка:

Характеризуется представительностью, либо равновесным составом текстов. Это значит, что корпус содержит по способности все типы письменных Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. и устных текстов, выставленные в данном языке (художественные различных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по способности пропорционально их доле в языке соответственного периода, содержит необыкновенную дополнительную информацию о свойствах входящих в него текстов (так именуемую разметку, либо аннотацию). Разметка — основная Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. черта корпуса; она отличает корпус от обычных коллекций (либо «библиотек») текстов, в обилии представленных в современном Вебе, в том числе и на российском языке (таких, как, по-видимому, более популярная «библиотека Максима Мошкова» либо, к примеру, «Русская виртуальная библиотека»).

Предназначен для обеспечения исследований лексики и грамматики Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. языка, тонких, но непрерывных процессов языковых конфигураций, происходящих в языке в протяжении сравнимо маленьких периодов — от 1-го до 2-ух веков. Другая задачка — предоставление различных справок, относящихся к обозначенным областям (лексика, грамматика, акцентология, история языка).

НКРЯоткрыт в сети Веб 29 апреля 2004 г. Текстовый массив корпуса обхватывает период от начала XVIII до начала Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. XXI в., при всем этом количественно преобладают в корпусе тексты современного периода – 2-й половины XX – нач. XXI в. Этот период отражен в НКРЯ также и более многообразно по жанрам и типам речи. Объем НКРЯ в текущее время – более 140 млн. словоупотреблений. Российский язык представлен в НКРЯ в различных соц формах его существования Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. – литературной, разговорной, диалектной. Более много на сегодня отражен в корпусе литературный вариант российского языка, который представлен значимым массивом художественных текстов различных жанров, другими видами письменной и (в наименьшей мере) устной литературной речи: публицистика, научная и научно-популярная литература, личная переписка, дневники, документы, общественные выступления, газетные объявления и т Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности..д. Корпус включает также маленькой пока подкорпус параллельных текстов – британских и российских, германских и российских; планируется создание параллельных текстов и для других языков. СпецифичностьНКРЯ состоит в его принципной «нелитературоцентричности», хотя роль текстов традиционной и современной художественной литературы в корпусе довольно велика. Такая установка продиктована представлением о том, что «учет Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. конкретно этих текстов не является для многих задач приоритетным», рвением представить в корпусе «образцы доминирующего в данном языковом коллективе дискурса». «На роль последнего, – пишет В.А. Плунгян, – может в современной ситуации претендовать быстрее литература, относимая к жанру‘non-fiction’, другими словами литература с мало декларируемой «художественностью», также эталоны устного городского фольклора Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.: смешные рассказы, анонимные «истории из жизни», вербализующие стереотипы и легенды современного массового сознания»

В текущее время в НКРЯ употребляются метатекстовая, морфологическая, семантическая, акцентная разметки, разрабатывается синтаксическая разметка. Структура НКРЯ и система разметки в нем повсевременно совершенствуются.

Тексты, включенные в НКРЯ, не доступны для чтения и копирования как целые тексты Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.. Они служат источниками примеров (контекстов), получаемых в итоге запросов в поисковике. Контекст выдачи равен одному предложению, но по запросу юзера может быть расширен до нескольких предложений. Любая из текстоформ в контексте выдачи снабжена информацией о ее грамматических признаках (итог морфологической разметки), появляющейся в виде всплывающих окон. В НКРЯ предоставляется возможность поиска Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. по слову, словоформе, словосочетанию, сочетанию слов, находящихся на определенном расстоянии друг от друга, по сектору слова, по данным грамматическим и семантическим чертам. В запрос в поисковике могут быть включены также дополнительные признаки: повтор слова либо грамматических черт, знаки препинания (находящиеся до либо после запрашиваемого слова). Поиск в Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. НКРЯ может вестись как по целому корпусу, так и по определенному подмножеству текстов. Юзер может, к примеру, ограничить область поиска текстами определенного создателя, определенного периода, определенного жанра, определенной темы и т.п. Есть также возможность сформировать собственный исследовательский подкорпус по принятым в НКРЯ характеристикам его структурирования корпуса.

НКРЯ – оживленно развивающийся корпус Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.. В его составе интенсивно разрабатываются новые подкорпуса, совершенствуются уже сделанные.

НКРЯ включает подкорпуса: глубоко аннотированный корпус, в каком для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

параллельный русско-английскийкорпус текстов, в каком можно отыскать все переводы для определенного российского либо британского слова либо словосочетания;

корпус диалектных Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. текстов, включающий запись диалектной речи разных регионов Рф с сохранением их грамматической специфичности; предусмотрен особый поиск с учётом диалектной морфологии;

корпус поэтических текстов, в каком вероятен поиск не только лишь по лексическим и грамматическим, да и по специфичным для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности., написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус российского языка — корпус со снятой омонимией, разметка которого нацелена на школьную программку российского языка;

корпус устной речи - включает расшифровки магнитофонных записей общественной и личной устной речи, также транскрипты кинофильмов 1930-2000-х годов.

Все тексты, составляющие Государственный корпус российского языка, находятся на Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. этом веб-сайте и доступны для некоммерческого использования в научно-исследовательских и учебных целях. Тексты, помещаемые на веб-сайт, не предусмотрены ни для чтения, ни для копирования: они могут употребляться в режиме поиска как источники примеров (цитат), иллюстрирующих то либо другое языковое явление.

В Государственный корпус российского языка включены сначала Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. житейские уникальные тексты, представляющие российский литературный язык (с середины XVIII века), но также и переводные сочинения, поэтические тексты, тексты, представляющие разговорную (записи устной речи, общественной и непубличной), диалектную формы.

Основной корпус — тексты, представляющие российский литературный язык, — можно подразделить на три основных массива, имеющих свои особенности: это современные письменные тексты Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. (середина XX — начало XXI века), корпус живой российской речи (записи устных текстов такого же периода) и ранешние тексты (середина XVIII — середина XX века). По дефлоту поиск по этим трём массивам ведётся сразу, избрать какой-то из них (и задать дополнительные характеристики) можно на страничке установки пользовательского подкорпуса.

Все тексты Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности., входящие в основной корпус, проходят функцию метаразметки и морфологической разметки. Морфологическая разметка осуществляется при помощи особых программ автоматического морфологического анализа.

Презентабельный корпус современных текстов с морфологической разметкой является главным и самым объёмным из подкорпусов. Планируемый объем этого корпуса — 100 млн. словоупотреблений. В этот корпус входят разные типы текстов, представляющие современный российский литературный (письменный Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.) язык:

современная художественная проза различных жанров и направлений, современная драматургия, мемуарно-биографическая литература, журнальная публицистика и литературная критика, газетная публицистика и анонсы, научные, научно-популярные и учебные тексты, религиозные и религиозно-философские тексты, производственно-технические тексты, официально-деловые и юридические тексты, бытовые тексты (в том числе Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. тексты, не созданные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, толика художественных текстов (включая драматургию и воспоминания) составляет менее 40%.

Источниками текстов, входящих в Корпус, для размещенных книжных, журнальных и газетных текстов, обычно, являются сверенные электрические Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. версии, предоставляемые издателями этих текстов (и применяемые в Корпусе с разрешения издателей). Ограничить поиск современными текстами можно по параметру «дата создания» на страничке выбора подкорпуса.

http://www.ruscorpora.ru/

Государственный корпус российского языка — доступный для поиска электрический онлайновый корпус российских текстов. Открыт 29 апреля 2004 года.

Объём основного корпуса на 17 января Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. 2013 года составлял 230 млн словоупотреблений, а общий объем корпусов — 384 млн словоупотреблений.

Государственный корпус имеет две принципиальные особенности. Во-1-х, он характеризуется представительностью, либо равновесным составом текстов. Это значит, что корпус содержит по способности все типы письменных и устных текстов, выставленные в данном языке (художественные различных жанров, публицистические, учебные, научные, деловые Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности., разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по способности пропорционально их доле в языке соответственного периода. Следует подразумевать, что не плохая представительность достигается только при значимом объеме корпуса (10-ки и сотки миллионов словоупотреблений).

Во-2-х, корпус содержит необыкновенную дополнительную информацию о свойствах входящих Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. в него текстов (так именуемую разметку, либо аннотацию). Разметка — основная черта корпуса; она отличает корпус от обычных коллекций (либо «библиотек») текстов. Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Государственном корпусе российского языка в текущее время употребляется 5 типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности.. В последнее время планируется внедрение словообразовательной разметки, также упрощённой синтаксической разметки в главном корпусе (хорошей от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки повсевременно совершенствуется.

Государственный корпус российского языка обхватывает сначала период от середины XVIII до начала XXI века: этот период представляет как язык предыдущих Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. эпох, так и современный, в различных социолингвистических вариантах — литературном, разговорном, просторечном, частично диалектном. В корпус врубаются уникальные (непереводные) произведения художественной литературы (проза и драматургия, в предстоящем также поэзия), имеющие культурную значимость, также представляющие энтузиазм исходя из убеждений языка. Но Государственный корпус ни в коей мере не является только корпусом языка художественной Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. литературы. Кроме художественных текстов, в корпус в большенном количестве врубаются и другие эталоны письменного (а для современного шага — и устного) языка: воспоминания, эссеистика, публицистика, научно-популярная и научная литература, общественные выступления, личная переписка, дневники, документы и т. п.

Государственный корпус российского языка в текущее время включает Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. последующие подкорпуса:

-основной корпус, в который входят житейские (включая драматургию) письменные тексты XVIII — начала XXI века;

-синтаксический (глубоко аннотированный) корпус, в каком для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

-газетный корпус (корпус современных СМИ), в каком представлены статьи из сми 1990-2000-х годов;

-параллельные корпуса, в Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. каких можно отыскать все переводы для определенного слова либо словосочетания на российский язык либо с российского языка. В текущее время для поиска доступны англо-русский, русско-английский, немецко-русский, русско-немецкий, французско-русский, русско-французский, испанско-русский, русско-испанский, итальянско-русский, русско-итальянский, польско-русский, русско-польский, украинско-русский, русско-украинский Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности., белорусско-русский, русско-белорусский и многоязычный параллельные корпуса;

-корпус диалектных текстов, включающий запись диалектной речи разных регионов Рф с сохранением их грамматической специфичности; предусмотрен особый поиск с учётом диалектной морфологии;

-корпус поэтических текстов, в каком вероятен поиск не только лишь по лексическим и грамматическим, да и по специфичным для стиха Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

-обучающий корпус российского языка — корпус со снятой омонимией, разметка которого нацелена на школьную программку российского языка;

-корпус устной речи, включающий расшифровки магнитофонных записей общественной и личной устной Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. речи, также транскрипты кинофильмов;

-акцентологический корпус (корпус истории российского ударения) — тексты, несущие информацию об истории российского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;

-мультимедийный корпус, куда входят снабжённые видео- и Корпусы текстов по русскому языку. Национальный корпус русского языка. Текстовая структура, поисковые возможности. аудиорядом куски кинофильмов 1930—2000-х годов. Вероятен поиск не только лишь по произносимому тексту, да и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого деяния (согласие, драматичность и т. п.)


korrekciya-disfunkcii-nsr.html
korrekciya-golosa-posle-chastichnih-rezekcij-gortani.html
korrekciya-i-profilaktika-deviantnogo-povedeniya-u-doshkolnikov.html