Эротический корпус, статистика и рок-н-ролл!
Как прошла лекция А. Ч. Пиперски «Ключевые слова любви: наблюдения над корпусом эротических рассказов». 18 +
Что мы можем сказать о последней встрече в рамках «DH Fridays» Центра цифровых гуманитарных исследований НИУ ВШЭ? Огонь, огонь и еще раз огонь! К нам в Центр пришёл лингвист, филолог, популяризатор, а также просто бесстрашный исследователь А. Ч. Пиперски — и рассказал, что интересного корпусная лингвистика может узнать про любительскую эротическую прозу и поэзию.
-
А. Ч. Пиперски рассказывает о некоторых не самых распространенных методах выделения ключевых слов в корпусе
Никогда у нас ещё не было такого аншлага: публика заняла все места и забила проходы стульями, кто-то умудрился притащить даже лавочку, и всё-равно мест не хватало.
Это была первая лекция, на которую мы смело поставили возрастное ограничение 18+ и не ошиблись!
По словам одного из слушателей «ещё ни разу лекция по лингвистике на была такой волнительной». Ещё бы! Корпус из двадцати с лишним тысяч эротических рассказов (а ещё поэзия), сорок с половиной миллионов словоформ, считая знаки препинания, метаданные всех сортов и расцветок (только категорий набралось под четыре десятка).
С разметки мы и начали, первым делом посмотрев, какие категории сочетаются друг с другом и могут присваиваться одному тексту, а какие стоят особняком. Например, часто и довольно ожидаемо сочетаются «Измена» и «Служебный роман». Но есть и менее ожидаемые сочетания.
А уже после этого перешли к извлечению ключевых слов из текстов разных категорий и сравнили их друг с другом. Чтобы не удариться в пересказ лекции, скажем лишь, что различий много, частотные словари неожиданные, а идеи «почему так?» — самые смелые!
Александр Чедович Пиперски не только собрал и исследовал корпус, но и вновь проявил незаурядный популяризаторский талант. Он сумел в очередной раз превратить свою лекцию в увлекательное приключение в мир текстов и извилистых языковых тропок. Для тех кто не успел дойти в этот раз, Александр Чедович обещал прийти к нам ещё раз с новыми данными и новыми исследованиями эротического корпуса, так что, надеемся, что лингвистики эротических рассказов хватит на всех.
Если, конечно, нас всех не закроют