Вестник Digital Humanities # 21

Привет, с вами снова Вестник Digital Humanities. Мы пересобрались, и теперь рассылку делает независимая ассоциация DH CLOUD. Мы по-прежнему будем рассказывать о Digital Humanities в мире и в русскоязычном пространстве. Если вам это уже не интересно, отписаться можно здесь. А подписаться — здесь (вторую ссылку можно отправить друзьям, например).

Ниже мы расскажем о последних DH-событиях в мире и в России. Всего охватить невозможно, но мы попытались осветить яркое и заметное.

Cобытия в мире DH

Мировая конференция DH 2023 в Граце

Глобальная DH-конференция тоже пересобралась — она прошла очно впервые с до-ковидного 2019-го. В конференции участвовали 847 человек, из которых лишь 98 были онлайн, а остальные 749 — очно. Автор этого текста слышал, как накануне первого дня конференции организаторы с нотками паники в голосе обсуждали, хватит ли на открытии конференции мест в зале для всех участников.

 

В итоге под «зонтиком» DH все как-то уместились, а конференция оказалась четырьмя днями бесконечной «развиртуализации»: на кофе-брейках впервые встречались люди, которые годами знают друг друга по зумам и твиттеру (иксу?), может быть даже написали вместе статью, но физически в одном пространстве оказались впервые. С научными итогами конференции можно познакомиться по этой ссылке. А мы собрали для вас несколько человеческих отзывов от участников из разных стран (и совершенно разных академических культур):

Отзыв Яэль Нетцер (Университет Тель-Авива / Еврейский университет в Иерусалиме / Университет Хайфы):

Участие в международной конференции с более чем 800 участниками и пятью параллельными сессиями держит в постоянном напряжении и приводит к перегрузке. Но когда ты часть растущего сообщества и можешь встретиться с коллегами со всего мира — это заряжает энергией для будущих исследований. Похоже на баланс между точностью и полнотой: очень трудно максимизировать и то, и другое сразу. Конференция в Граце была слишком интересной. Она была прекрасно организованной, но трудно усваиваемой.

Я послушала много докладов по исследованиям и проектам, выступила с докладом о нашем исследовании музейных каталогов, провела секцию по языковым моделям в DH. Но наиболее ценными оказались мета-доклады и воркшопы, посвященные организации DH исследований и DH-центров. Например, воркшоп «Lab for Labs». Осознание того, что мои повседневные вопросы как руководителя исследований в Центре цифровых гуманитарных наук Еврейского университета в Иерусалиме и в Elijah Lab в университете Хайфы не уникальны, ими одновременно задаются многие люди. Я вернулась домой с осознанием того, что нужно сделать, например: организовать еженедельное собрание всех людей, работающих в центре — ученых, их ассистентов, менеджеров, аспирантов.

Отзыв Артема Шели (Институт польского языка Академии наук Польши / Университет Тарту):

Грац стал моей первой ADHO конференцией — в доковидные времена мои студенческие заявки несколько раз отклоняли и я «вырос» без большого ежегодного праздника. Поэтому наверное мое самое главное впечатление от конференции — это ее плотность, населенность, которая превращает все виртуальные социальные сети и связи в осязаемые, физические кучки людей, болтающих за обедом или опаздывающих на сессию. В былые времена сказали бы: “весь твиттер был здесь”. Это сильное чувство, которое не только размечает сообщество, но и размещает тебя самого в нем. Невольно думаешь “Ого! DH — это тоже я”, когда пять дней не прерываясь говоришь и не успеваешь при этом сказать “привет” ближайшим коллегам и друзьям.

Июль 2023 года оказался сценой из романа воспитания: главные герои и их поколение выросло, вокруг война, эпидемия и медленный экологический апокалипсис. Но мы все еще здесь, мы все еще присутствуем и возимся тут, и это уже немало в мире полном работы и страданий (см. латышский глагол strādāt, “работать”).

Июль 2023 года оказался сценой из романа воспитания

Тема следующей DH конференции это “Reinvention and Responsibility”. Я бы назвал ее вообще одним словом “Responsibility”, потому что за новые поколения ученых и будущее всего исследовательского проекта (игриво и задорно запущенного 10-15 лет назад), за скрипящие километры строк кода и цифровые коллекции, XML-стандарты и кривые линейные регрессии отвечать всем нам.

Отзыв Луки Джованнини (Университет Падуи / Университет Потсдама):

Кажется безумным, что Грац смог организовать такую огромную конференцию и она прошла так гладко. Что касается презентаций, то мне было интереснее слушать не о проектах от больших команд, поддержанных крупными грантами, а наоборот: небольшие нишевые проекты, основанные на безумных идеях и гипотезах.

Больше всего в DH мне нравится неформальная атмосфера. Не могу себе представить другую конференцию, где аспирант мог бы неформально поболтать за бокалом с председателем организационного комитета.

Конференция «Информационные технологии в гуманитарных исследованиях» в Красноярске

Большая очная DH-конференция прошла и в России. Как и раньше, ее принял Красноярск — единственная точка на карте РФ, где умеют проводить DH-события с размахом.

Красноярск традиционно известен своей сильной историко-археологической школой, в которой давно и уверенно применяют цифровые методы (3D-моделирование, анализ данных, GIS-системы). Секция, посвященная этой тематике, действительно заняла целый день программы. Но на прошедшей конференции историю и археологию уравновесила почти такая же по числу докладчиков секция компьютерного анализа текста. В дистанционном и очном режиме прозвучали выступления исследователей из разных городов РФ, среди которых выделялись представительные «делегации» Санкт-Петербурга (НИУ ВШЭ) и Ростова-на-Дону (ЮФУ).

Заметное внимание было уделено стилометрии, которая прочно вошла в инструментарий отечественных ученых. Слушателей не могло не порадовать разнообразие привлекаемого к анализу материала — от сочинений маршала Жукова до эротических фанфиков.

Как и всякая большая конференция, красноярская стала возможностью для того, чтобы встретиться, поговорить, обсудить общие планы и проекты представителям разных наук — лингвистам, историкам, литературоведам. Так СФУ раз в два года старается наладить диалог между специалистами разного профиля, не дать им окуклиться внутри своего предметного поля, сохранить дух DH, дух поиска в диалоге.

На той же конференции была представлена монография “Цифровые гуманитарные исследования” – первая такая книга, написанная в России российскими учеными. Главы монографии посвящены данным в гуманитарных науках (автор главы А.Ю. Володин), культурному наследию и цифровым коллекциям (И.А. Кижнер, М.В. Румянцев), культуромике (А.А. Бонч-Осмоловская), базам данных и моделям данных (Д.А. Гагарина), компьютерному анализу текста (Б.В. Орехов), геоинформационным системам (Е.С.Гришин), 3D-моделированию и виртуальной реконструкции (Л.И. Бородкин), сетевому анализу (А.В. Сметанин), информационной инфраструктуре цифровых гуманитарных исследований (А.Б. Антопольский, А.Ю. Володин). А самая первая глава (А.Ю. Володин, Б.В. Орехов) посвящена такой традиционной для DH теме как «(само)определение» (и еще в ней есть обзор направлений).

DH-статьи

С момента выхода предыдущего «Вестника» вышло огромное количество интересных статей. Обозреть их все в одном выпуски невозможно. Мы подсветим лишь некоторые, которые кажутся нам интересными или которые явно релевантны для российской аудитории

  1. Статья «История и контекст Digital Humanities в России» (Kizhner I., Terras M., Orekhov B., Manovich L., Kim I., Rumyantsev M., Bonch-Osmolovskaya A. The History and Context of the Digital Humanities in Russia // Global Debates in the Digital Humanities / ed. Domenico Fiormonte, Paola Ricaurte, Sukanta Chaudhuri. University of Minnesota Press, 2022. — P. 55—70).
    Звездный состав авторов из нескольких частей света рассказывает, как поколения российских/советских филологов, историков, лингвистов, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве цифровых гуманитарных исследований задолго до появления собственно «диджитала» и международного ребрендинга всего движения в «digital humanities».
  2. Статья «К событийной модели сюжета: подход на основе компьютерной нарратологи» (Gius, E. & Vauth, M. Towards an Event Based Plot Model. A Computational Narratology Approach // Journal of Computational Literary Studies 1(1). 2022.). Для цифровой филологии особенно важными нам кажутся попытки вырваться за пределы сакраментального «подсчета слов», к коему сводится так много методов. Здесь авторы сначала дают разбор существующих подходов к формализации сюжета и затем предлагают свой, пытаясь попасть в sweet spot: сохранив связь с нарратологической теорией, тем не менее сделать рабочий (как любят говорить на Западе, «операционализируемый») компьютерный инструмент разметки сюжета.
  3. Статья «Delta Берроуза для древнегреческих авторов: опыт применения» ( Алиева О.В. Delta Берроуза для древнегреческих авторов: опыт применения // Scholae. Философское антиковедение и классическая традиция. – 2022. – Т. 16. – №. 2. – С. 693-705.)
    Филолог-классик Ольга Алиева постепенно превращается в одного из ключевых экспертов по Дельте Барроуза в российской науке: если пока не по известности, то по глубине проникновения в метод. В отличие от многих из нас, кто просто немножко посмотрел на формулы, научился запускать stylo и воспринял стилометрию как феномен, данный нам в результатах кластеризации, Ольга Алиева глубоко погрузилась в код, соотнесла его с математическим выражением метода Delta и уже после этого применила его к древнегреческому корпусу с целью определить оптимальные параметры для атрибуции авторства (число слов, необходимость лемматизации и т.п.). Ольга Алиева показывает, что в этом корпусе классификатор ошибается «на одной и той же небольшой группе текстов». В частности, смешиваются авторы-врачи, а также представители «второй софистики».
  4. Графические нейросети давно умеют изображать узнаваемых Ван Гога и Кaндинского по заказу, а что с языковыми моделями? Получается ли у них генерировать похоже на конкретных писателей? В этом году вышли две статьи про генеративные нейросети и стилизацию, которые затрагивают тему с разных сторон и применитеольно к разным сетям:
  5. Статья «GPT-3 против Delta: применяем стилометрию к большим языковым моделям» (Rebora S. GPT-3 vs. Delta. Applying stylometry to large language models // La memoria digitale: forme del testo e organizzazione della conoscenza. Convegno annuale dell’AIUCD 2023. Siena, 2023). В работе для конференции AIUCD исследователь Симоне Ребора проверил, получается ли у GPT имитировать стиль так, чтобы обмануть Stylo. Чтобы проделать тест, он нагенерировал в GPT-3 текстов «в стиле» десяти английских авторов. Через API закидывались запросы вида «Напиши главу романа в стиле автора А», «Напиши роман, имитирующий автора Б», «Напиши рассказ так, как будто он написан автором В” и т.п. – всего 320 комбинаций. Так постепенно нагенерировали “текстоиды” (термин самих исследователей) длиной не менее 5000 слов. Эти текстоиды затем сравнивались с реальными текстами тех же авторов. Результат получилсяв пользу стилометрии: тексты GPT3 «в стиле» разных авторов похожи не на этих авторов , а друг на друга. Уже вслед за Реборой автор «Вестника» проверял то же самое на русском языке для текстов, сгенерированных GPT-3.5 и GPT 4 и получил тот же результат.
  6. Статья «Идентификация стиля квалифицированным читателем по короткому фрагменту сгенерированных стихов» (Orekhov, Boris. ‘Identifying the Style by a Qualified Reader on a Short Fragment of Generated Poetry’. ArXiv [Cs.CL], 2023. arXiv) — эксперимент совсем другого рода. Во-первых, здесь использовались не гигантские коммерческие GPT-модели, чья стилизация ограничивалась просьбой в затравке, а три LSTM-модели, целиком обученные исследователем на корпусах трех разных поэтов: Николая Некрасова, Осипа Мандельштама и раннего Бориса Пастернака. Во-вторых, «проверка» проводилась не на Delta, а на людях. 94 студента-филолога, которые специализируются на истории литературы, определяли авторство трёх случайно выбранных сгенерированных четверостиший. Студентам нужно было отгадать, на чьём корпусе стихотворений училась нейросеть. После каждого вопроса студенты указывали, насколько хорошо они знают творчество выбранного автора, чтобы исключить случайно верные ответы. Эксперимент показал, что стили поэтов-источников узнаваемы, по крайней мере для среднего студента-филолога.

DH-видео

В 2023 году обходиться только текстовым контентом невозможно. Поэтому добавляем видеоролики, посвященные цифровым гуманитарным исследованиям. Здесь мы даже не пытаемcя лезть в необъятное море англоязычных видео, в подборке ниже — лекции и диалоги о цифровых методах на русском языке от русскоязычных исследователей:

  • Лекция Инны Кижнер “Можно ли делать научные открытия с помощью цифровых коллекций художественных произведений?”. О том, насколько оцифрованные музейные коллекции можно рассматривать в качестве исследовательских датасетов и какие тут есть подводные камни: https://youtu.be/YVw36fKy98Y.
  • Дискуссия Бориса Орехова и Ольги Алиевой: Цифровые инструменты и методы: в чем их польза и как им обучить гуманитария? https://vk.com/video-211800158_456239307
  • Владимир Определенов (CDO в ART.Domains, ранее почти 10 лет работал замдиректора ГМИИ им. Пушкина по цифровому развитию) рассказывает о применении современных коммерческих ИИ-систем в творчестве: https://youtu.be/aztIiNkENuc
  • Интервью Бориса Орехова о проекте «Слово Толстого» (Говорим по-русски): https://www.youtube.com/watch?v=v71Rv4HOyIA
  • Лекция Динары Гагариной «Цифровая трансформация гуманитарных наук»: https://youtu.be/IXTXutUR8JA
  • Интервью Бориса Орехова о корпусе социальных сетей (Говорим по-русски): https://www.youtube.com/watch?v=GpKuALckAuo
  • Лекция Бориса Орехова «Текст и знание в гуманитарных науках в эпоху больших языковых моделей»: https://www.youtube.com/watch?v=SVI9nSmrQWk
  • Доклад Бориса Орехова «Неисследованные горизонты силлабо-тоники»: https://www.youtube.com/watch?v=w3Z2AcjCsEE

DH-аудио

Аудиоподкасты периодически хоронят, но они пока живы и даже периодически появляются новые. На русском языке вышел подкаст “Проверка связей” от Arzamas — о том, зачем филологи, искусствоведы, историки, археологи и антропологи применяют количественные методы и как, например, связаны рост человека и рост экономики. В подкасте вышли пять выпусков:

На английском можно послушать подкаст ADHO. Там про развитие Digital Humanities рассказывают те, кто занимается их развитием и продвижением на международном уровне: https://adho.org/about/podcast/

Спецрубрика «о ChatGPT»

Цифровые гуманитарии не могли обойти самую хайповую цифровую тему последних лет — приход больших языковых моделей в научный (и не только) обиход.

DH-ресурсы

  • Запустился сайт «Слово Толстого», видео о котором мы уже упоминали выше. Умное электронное издание Л.Н. Толстого, о котором так долго говорили цифровые гуманитарии, наконец есть в сети, общедоступное и красивое. Ресурс позволяет проверить цитату, узнать, что писал автор в конкретный день, найти конкретное слово только в нехудожественных произведениях Толстого и много чего еще.
  • Еще запустилcя сайт независимой ассоциации DH CLOUD. Там уже есть довольно много всего русскоязычного по DH, будет еще больше, а мы пока подсветим эту страничку: https://dhcloud.org/python/. Здесь мы собираем полезные инструменты, разработанные сообществом DH CLOUD и студентами магистратур по Digital Humanities.
  • Пушкинский дом (ИРЛИ РАН) сделал ​​Таймлайн жизни русских писателей XVIII века. На графике отражены годы жизни персоналий, вошедших в Словарь русских писателей XVIII века. Для таймлайна отобраны 70 авторов, которым посвящены наиболее длинные статьи в словаре.
  • На базе того же Словаря русских писателей XVIII века построена и социальная сеть персоналий. Из словаря автоматически извлечены и вручную проверены случаи, когда одна статья, посвященная человеку, ссылается на другую статью этого же словаря. Статья словаря представлена как узел сети, а наличие ссылки как ребро между узлами.
  • В Репозиторий открытых данных по русской литературе и фольклору появился датасет “Литературные произведения в государственных стандартах и программах для средней школы 1998–2022 гг.”. Вместе с уже опубликованными в Репозитории датасетами Хрестоматии Российской Империи с 1805 по 1912 гг. и Программы по литературе для средней школы с 1919 по 1991 гг. эта публикация формирует цикл, позволяющий изучать становление и трансформацию школьного литературного канона на хронологическом отрезке более чем в 200 лет.
  • В том же репозитории опубликован датасет «Бытование литературных текстов в ГУЛАГе» — еще один ценнейший источник сведений о рецепции ​​литературного канона в советскую эпоху.
  • Борис Орехов опубликовал датасет генеративной поэзии на немецком языке. Отдельные модели были обучены на стихах Теодора Фонтане, Фридриха Гёльдерлина и Пауля Целана, а еще одна — на образцах немецкого гекзаметра.

DH-медиаресурсы на русском языке

  • Телеграм DH CLOUD: https://t.me/dhcloud
  • Телеграм-канал “Литоисчисление“ цифровой лаборатории Пушкинского Дома: https://t.me/tozhe_nauka
  • Телеграм-канал об античности на языке R https://t.me/rantiquity
  • Телеграм-канал, в котором (среди прочего) ставятся литературные эксперименты с ChatGPT: https://t.me/nonbrevia
  • Телеграм-канал Института цифровых гуманитарных исследований (DHRI) СФУ: https://t.me/DHRIsfu
  • Телеграм-канал об экономической истории: https://t.me/economhistory

Анонсы: конференции и семинары в 2024 году

  • Следующая мировая DH-конференция пройдет в Вашингтоне 6-9 августа, что для многих, конечно, звучит недосягаемо физически, но в Call for papers сказано: All formats can be presented in person and online. Подача заявок на участие — до 5 декабря.
  • 14-16 марта 2024 в Люксембурге будет конференция об эпистемических «грехах и добродетелях» цифровых методов в гуманитарных науках. Обещают говорить про Best (и, видимо, Worst) Practices в Digital Humanities, про дата-колониализм, исключение малых языков, новые формы научного сотрудничества и соавторства и много что еще. Подача заявок на участие — до 1 декабря.
  • 13-14 июня 2024 в Вене пройдет третья Conference of Computational Literary Studies (CCLS2024). CCLS — это хорошая молодая конференция цифровых литературоведов при журнале JCLS. Автор этой рассылки ездил на две предыдущие CCLS и непременно поедет на третью. Подача статей — до 18 января.
  • 23-25 октября в Германском историческом институте в Париже пройдет конференция, посвященная истории цифровой истории. По мнению организаторов, цифровые историки имеют традиционную «слепую зону» в области исторических корней собственной науки. Подача заявок на участие — до 10 января.
  • Продолжит работу серия семинаров ”Цифровая история (в) Центральной Азии”, которые проводятся Университетом Эрлангена – Нюрнберга в сотрудничестве с Немецкой ассоциацией Восточно-Европейских исследований (DGO): https://www.osteuropa.phil.fau.de/digital-history-central-asia/. Среди рабочих языков семинара – русский. Анонсы публикуются на сайте семинара и в телеграм-канале DH CLOUD.