Самые популярные слова в песнях яндекс
Обновлено: 22.12.2024
Наши коллеги из The Pudding как-то нарисовали карту англоязычного хип-хопа. Мы решили, что про русский рэп тоже надо сделать такое исследование, — и сделали немного больше. Мы взяли тексты, доступные на Яндекс.Музыке, и нашли самые характерные и самые нехарактерные слова — для жанра вообще и для конкретных рэперов. Посмотрели, какие слова были в моде в разные годы. Сделали тест, в котором надо угадать, кому подражала нейросеть, когда писала строчки вроде «Я горожанин Мордора. На пиру — не сняв ошейника». Карту русского рэпа тоже нарисовали.
В этом исследовании мы изучали тексты, которые были доступны на Яндекс.Музыке в июле 2018 года. Рэпом считали то, что помечено в каталоге сервиса как рэп.
Слова, характерные для жанра в целом
Для каждого слова посчитали, как часто оно встречается в текстах рэперов и всех остальных исполнителей. Чтобы не завышать частотность слов, которые много повторяются в одной песне (например, в припеве), слово учитывали только один раз для каждого трека. Первую частотность делили на вторую — чем больше полученный показатель, тем более характерным для рэпа считали слово. Учитывали только глаголы, существительные и прилагательные, которые встречаются в обоих корпусах.
Чтобы найти самые рэповые строки, мы брали все слова из каждой строчки, складывали их показатели характерности для рэпа и делили на число слов. Чем выше средняя характерность, тем более рэповой считали строчку. Самые нерэповые строчки искали аналогичным образом.
Эпохи
Чтобы составить топы характерных слов для эпох, мы разделили все треки на пять групп по времени выпуска, а затем для каждой группы нашли слова, которые встречаются в текстах соответствующего периода гораздо чаще, чем в среднем за всё время.
Исполнители
Характерные слова искали для рэперов, входящих в топ-250 популярных на Яндекс.Музыке, для которых на сервисе было доступно не менее десяти треков с текстом. Для этого использовали метрику TF-IDF. В качестве документа брали весь репертуар исполнителя, в качестве корпуса — все доступные на сервисе тексты рэперов из топа-250. Чтобы не завышать частотность слов из припевов и других рефренов, мы снова засчитывали слову только одно вхождение для каждого трека, в котором оно звучит.
Для поиска характерной песни применили ту же метрику для каждого трека исполнителя, только теперь считали все упоминания слов в треке, предварительно удалив повторяющиеся строки. Самым характерным треком считали тот, вектор характерности слов которого оказался ближайшим к вектору исполнителя по косинусному расстоянию.
Карта русского рэпа
Полученные векторы исполнителей использовали для составления карты русского рэпа: чем меньше косинусное расстояние между векторами, тем ближе два исполнителя на карте.
Популярные слова
Сначала мы просто нашли пятьсот глаголов, существительных и прилагательных, которые звучат в рэпе чаще всего. Далеко не все из них характерны именно для рэпа: например, ветер и любовь , хоть и входят в рэперский топ-500, в песнях других жанров встречаются в разы чаще; мир и свобода — примерно одинаково часто.
ПО ДАННЫМ ЯНДЕКС.МУЗЫКИ
Наиболее характерными словами для рэпа и хип-хопа оказались, собственно, рэп и хип-хоп . Рэперы вообще много говорят о своей музыке и о процессе её производства. Слова трек, микрофон, бит, рифма или, например, альбом так же характерны для жанра, как обсценная лексика или жаргон — тачка, хата и прочее. Наименее характерны для рэпа слова луна, весна, птица, дождь, река, крыло, тишина, сердце и так далее.
Потом мы решили определить самые-самые характерные и нехарактерные слова — без оглядки на то, как часто их используют. Чтобы найти их, мы снова сравнивали частотность использования того или иного слова в рэпе и в других жанрах, но теперь уже не ограничивались рэперским топом-500.
Самые характерные глаголы для самого многословного из жанров — это базарить и п**деть . Самые нехарактерные описывают разнообразные чувства и порывы — умчаться, отзываться, тосковать и так далее. Топы прилагательных и наречий состоят в основном из мата.
СУЩЕСТВИТЕЛЬНЫЕ ПРИЛАГАТЕЛЬНЫЕ МЕЖДОМЕТИЯ
ПО ДАННЫМ ЯНДЕКС.МУЗЫКИ
Типичные персонажи для рэп-текстов — это рэпер и братик , самые нетипичные — старушка и цыганка . Место действия — студия или блок , но никак не луг и не тайга . Рэп-животные — это зая и псина , их антиподы — соловей и журавль . Ещё в хип-хопе гораздо чаще, чем в других жанрах, упоминаются названия брендов, в первую очередь — найки и гуччи , мерины и бумеры , а также айфоны . Составлять топы брендов мы не стали, потому что другим жанрам просто нечем ответить.
ЧАСТИ ТЕЛАПО ДАННЫМ ЯНДЕКС.МУЗЫКИ
Рассчитав показатели характерности отдельных слов, мы смогли отобрать строчки, максимально насыщенные рэпом. Потом мы отдали эти строчки автопоэту, чтобы получить сверхрэповые четверостишия. В основном получается не очень: строчки разных авторов плохо уживаются вместе. Но бывают и удачи. Интересно, что самые нерэповые строчки соединяются заметно лучше, как будто это детали из одного набора.
удары бита как выстрел автоматавсе фонтан когда район обнял брата
этим летом о рэпе пишут газеты
я проверяю рифмы как на зуб монеты
крикнет чайка над водою
ты теперь навек со мною
прости прощай мой парашют
а на полях цветы цветут
Мы разделили историю русского рэпа на пять периодов и для каждого нашли слова, которые в этот период употребляли намного чаще, чем в другие. Девяностые оказались очень похожи по духу на начало двухтысячных: рэперы много говорили про уличную жизнь, драки и битвы , гордились слогом , ждали наград , искали истину . Вторая половина нулевых отличается распространением сленга вроде рэпчика , тогда же стали мутить и убиваться . С начала десятых в топах стало больше заимствований из английского, особенно много их в списке характерных слов последнего периода: хайп, блант, кэш, коп, трип, хейтер и прочее.
Примеры характерных слов для разных периодов
Примеры набраны из топа-15 существительных, прилагательных и глаголов, характерных для каждого периода.
Показать топы-15- 1991–2000
- радио
- слог
- сынок
- проникать
- уличный
- лирика
- взрыв
- городской
- граница
- шок
- покой
- микрофон
- ощущать
- сомнение
- стон
- 2001–2005
- выть
- награда
- драка
- приглашать
- веселье
- гад
- битва
- истина
- око
- братец
- лишать
- зритель
- заплатить
- теряться
- леди
- 2006–2010
- кепка
- рэпчик
- мэн
- е*ашить
- стул
- замес
- студия
- нрав
- ноздря
- мутить
- пробка
- обойма
- кент
- пост
- убиваться
- 2011–2015
- панч
- потухать
- айфон
- салют
- почерк
- движ
- поступок
- музло
- борт
- вата
- квадрат
- рэпчик
- низы
- влюблённый
- возраст
- 2016–2018
- хайп
- блант
- трип
- движ
- залетать
- бит
- детка
- малышка
- кэш
- тур
- низы
- айфон
- коп
- хейтер
- таблетка
ПО ДАННЫМ ЯНДЕКС.МУЗЫКИ
В девяностые доля матерных слов в текстах рэперов была не сильно выше, чем в песнях представителей других жанров. В начале двухтысячных она заметно выросла и достигла пика во второй половине нулевых, одновременно с началом широкого употребления сленга. Тогда в рэпе мат звучал в семнадцать раз чаще, чем в музыке других жанров, в последние годы — примерно в десять раз. Выше всего доля мата в треках Фейса, THRILL PILL, Сявы, «Кровостока» и Big Russian Boss.
Исполнители
Характерные слова можно найти не только для жанра в целом, но и для отдельных его представителей . Например, тексты Басты можно узнать по частому упоминанию Ростова и пуэра . Характерные слова для Гуфа — это кузня, нормально, планчик, Москва-река и абсолютно . Скриптонит чаще других использует слова вкуривать, поц, шпек и хапка . Тимати — бизнесмен, статус, график, чикса, танцевать . Слава КПСС — бытие, хайп, е*ать и Россия .
При расчётах учитывались тексты песен, которые были доступны на сервисе в июле 2018 года. С тех пор у ряда рэперов успели выйти новые треки. В некоторых случаях (например, выход альбома Фейса «Пути неисповедимы») это могло сильно повлиять на список характерных слов: для этого новые тексты должны сильно отличаться от старых и при этом по объёму составлять значительную часть от всего корпуса текстов автора. На сердцепахнет светом
чёрной правды
Кто бы мог это написать?
Определив характерные слова для всех исполнителей, мы нашли для каждого трек с самым высоким содержанием таких слов. Например, для «Триагрутрики» это песня «Биг сити лайф», а для ATL — «Планета Железяка».
Читайте также: