Цифровые методы в гуманитарных науках

вводная лекция, 11 января 2020


Меня зовут Даня, я отсюда:

hum.hse.ru/digital

Хто я?

Хто я?

  • Компьютерный лингвист (специалист по Natural Language Processing)
  • Цифровой литературовед
    • Диссертация по цифровым подходам к исследованию «Войны и мира»
    • Со-основатель проекта rus.dracor.org
  • Программирующий гуманитарий (т.е. занимаюсь Digital Humanities)

Мои активности

Некторые пары проведет Франк Фишер

План на сегодня

  1. Что будет на курсе?
  2. Чем и как мы будем заниматься?
  3. Что это за "цифровые гуманитарии"?🦄
  4. Где они обитают?
  5. Опрос (не на оценку)
  6. ....иииии выходные!🥤

Что будет на курсе?

Чем мы займемся на этом курсе

  • Обсудим, что меняет «погружение культуры в цифру»: какие новые способы исследования у нас появились — и что они могут дать
  • Изучим несколько методов/инструментов цифровых гуманитарных исследований
  • Почитаем важные тексты о цифровых исследованиях культуры, литературы и общества
  • Вы поделаете собственные мини-исследования

Структура курса

Раньше это был полугодовой курс

'Введение в цифровые гуманитарные исследования'

Но потом...

Что будет в "части 1" (модуль 3)

Дата Тема
11 января (сегодня) Цифровые гуманитарии и где они обитают: введение в Digital Humanities с примерами
18 января Культуромика и Cultural Analytics: исследования культуры в эпоху Big Data (лекция, ваши доклады, демо/практика на семинаре)
25 января Distant Reading ("Дальнее чтение") и корпусные методы в филологии (лекция, 1-2 доклада, практика)
Дата Тема
1 февраля Количественные методы определения авторства и стилометрия: почему это работает и к чему можно применить (лекция, начало практики в stylo)
8 февраля Стилометрия: больше практики в stylo, продвинутые возможности, техническая консультация
15 февраля Ваши презентации групповых исследований №1
Дата Тема
22 февраля Сетевой анализ (лекция, начало практики в Gephi)
29 февраля Сетевой анализ: продолжение практики в Gephi, продвинутые возможности, щепотка программирования (для желающих)
14 марта Коворкинг и техническая консультация
Дата Тема
21 марта Ваши презентации групповых исследований №2

Оценка за курс

0,5 * первая презентация + 0,5 * вторая презентация + 0,05 * оценка за индивидуальный доклад

Как происходит ваша работа

  • Вы объединяетесь в команды по 3-4 человека
  • И делаете мини-исследование:
    • Идея
    • Сбор данных
    • Анализ
    • Интерпретация и презентация
  • При анализе нужно применить какой-то из изученных методов (можно сразу несколько)

Исследования прошлых лет можно посмотреть

Коммуникация!

Короткая ссылка на эту презу:

bit.ly/2FIt0HG

Теперь о Digital Humanities

Потому что именно этим мы тут и будем заниматься

Зачем нужна эта лекция?

  • Посмотреть, что есть внутри Digital Humanities...
  • ...и вообще нужен ли этот термин
  • Исчислить главные направления
  • Понять, куда смотреть и за чем следить
  • После этой пары вы легко сориентируетесь сами

А кто слышал про Digital Humanities?

Digital Humanities

или …
  • {fr} Humanités numériques
  • {es} Humanidades digitales
  • {he} מדעי הרוח הדיגיטליים
  • {it} Informatica umanistica
  • {de} Digitale Geisteswissenschaften
  • {ru} Цифровые гуманитарные исследования
  • {ru} Цифровые гуманитарные науки?
  • {ru} Цифровая гуманитаристика
  • Digital Humanities — о том

    …что могут информационные технологии в

    • филологии (литературоведении)
    • культурологии
    • исторической науке
    • ...далее везде!

    Пример 1 (литературный)

    McClure D. W. (2018) Distributions Of Function Words Across Narrative Time In 50,000 Novels. Digital Humanities 2018: Book of Abstracts / Libro de resúmenes.

    Пример 2 (исторический)

    • Марта Баллард была акушеркой в штате Мэн
    • Вела дневник с 1785 по 1812 год
    • Приняла 814 родов и сделала 10000 записей в дневнике
    • Cameron Blevins исследовал дневник с помощью тематич. моделирования

    Дневник исследовали с помощью тематического моделирования

    Темы в дневнике

    1. MIDWIFERY: birth deld safe morn receivd calld left cleverly pm labour fine reward arivd infant expected recd shee born patient
    2. CHURCH: meeting attended afternoon reverend worship foren mr famely performd vers attend public supper st service lecture discoarst administred supt
    3. DEATH: day yesterday informd morn years death ye hear expired expird weak dead las past heard days drowned departed evinn
    4. GARDENING: gardin sett worked clear beens corn warm planted matters cucumbers gatherd potatoes plants ou sowd door squash wed seeds
    5. SHOPPING: lb made brot bot tea butter sugar carried oz chees pork candles wheat store pr beef spirit churnd flower
    6. ILLNESS: unwell mr sick gave dr rainy easier care head neighbor feet relief made throat poorly takeing medisin ts stomach

    Gardening

    cold weather

    Пример 3 (не про тексты)

    Айтрекер

    Цифровые технологии помогают исследовать потребления культурных продуктов (например, комиксов)

    Итак, «дивный цифровой мир» несет гуманитариям

    • новый масштаб анализа
    • новые методы исследования
    • новые объекты исследования

    На этом фоне и возникает хайп по 'Digital Humanities'

    Что есть Digital Humanities (и есть ли они) — повод для тонны рефлексии внутри самих Digital Humanities

    Определения Digital Humanities

    Digital humanities (DH) is an area of scholarly activity at the intersection of computing or digital technologies and the disciplines of the humanities.

    wikipedia.org

    Using computational tools to do the work of the humanities

    John Unsworth, Dean of Libraries, University Librarian, Professor of English University of Virginia

    The use of digital tools and methods in humanities study and dissemination.

    Geoffrey Rockwell, Professor of Philosophy and Humanities Computing at the University of Alberta, Canada

    DH is inquiry enabled by digital methodologies or modes of research, dissemination, design, preservation, and communication that rely on algorithms, software, and/or the Internet network for processing data.

    Tanya Clement, Associate Professor, Department of English, University of Texas

    Но никто же не говорит про «цифровую физику»?


    Kremer J. et al. Big Universe, Big Data: Machine Learning and Image Analysis for Astronomy // IEEE Intell. Syst. 2017. Т. 32. № 2. С. 16–22.

    В гуманитарных науках при переходе к цифровым методам происходит более глубокий сдвиг

    DH is at its best when it embraces the digital not simply as a means to the traditional ends of scholarship, but when it transforms the nature of what humanists do. The digital allows for scholars, librarians, archivists, and curators to engage much more directly with each other and the public. Further, it allows them not simply to write for each other, but to build things for everyone.

    Trevor Owens, Library of Congress

    Это качественный сдвиг

    Это качественный сдвиг

    • Гуманитарии почти не говорили на формальных языках — теперь нужна дискретность
    • У гуманитариев много неоднозначности — компьютеры требуют однозначности
    • Гуманитарии редко производили "продукты" и "проекты" — в Digital Humanities это стандарт
    • Коллективные исследования вместо индивидуальных

    Проектные humanities

    Цифровые гуманитарные науки — это область исследований, обучения и созидания, созданная на стыке компьютерных и гуманитарных наук.

    ru.wikipedia.org

    DIY-humanities

    We don’t just make for the humanities, we just make. [...] One of the defining features of some of the best and the brightest in the digital humanities isn’t digital per-say, it has to do with a pervasive kind of scrappyness. It’s about having a do it yourself mindset.

    Trevor Owens, Library of Congress

    The Digital Humanities is both a field with a discernable set of academic lineages, practices, and methodologies and a vague umbrella term used to describe the application of digital technology to traditional humanistic inquiry. Ultimately, what sets DH apart from many other humanities fields is its methodological commitment to building things as a way of knowing.

    Matthew K. Gold, Associate Professor of English and Digital Humanities, CUNY

    DH is at its best when it embraces the digital not simply as a means to the traditional ends of scholarship, but when it transforms the nature of what humanists do. The digital allows for scholars, librarians, archivists, and curators to engage much more directly with each other and the public. Further, it allows them not simply to write for each other, but to build things for everyone.

    Trevor Owens, Library of Congress

    Digital Humanities is the integration of sophisticated, empirical techniques utilizing tools and technologies typically associated with practical sciences into the study of traditional humanities questions. It represents a more exploratory and less quantitative approach than social sciences in the use of such tools, but it also represents ambitious attempts to model nuanced human wisdom in ways that, like early flying machines, are beautiful, quite impractical and often fail.

    Elijah Meeks, Apple (ранее Digital Humanities at Stanford)

    Строить самолеты в одиночку — тяжело

    [Digital Humanities is] a kind of scholarship that requires design, management, negotiation, and collaboration.

    Jeffrey Schnapp

    Digital Humanities — коллективное дело

    Коммунальные определения Digital Humanities

    It is both a methodology and a community.

    Jason Farman, University of Maryland

    A “community of practice” (to borrow Etienne Wenger’s phrase) whereby the learning, construction, and sharing of humanities knowledge is undertaken with the application of digital technologies in a reflexive, theoretically informed, and collaborative manner.

    Kathryn E. Piquette, Humboldt-Universität zu Berlin

    Коммунальные определения Digital Humanities

    The phrase [digital humanities] has use-value to the degree that it can serve as an umbrella under which to group both people and projects seeking to reshape and reinvigorate contemporary arts and humanities practices, and expand their boundaries.

    The Digital Humanities Manifesto 2.0

    И еще DH — это ценностный момент:

    Taking tools built by warmongers, spy agencies & investment bankers and using them to study literature, philosophy, culture and the classics

    Elijah Meeks, Apple (ранее Digital Humanities at Stanford)

    Закрывая тему: не факт, что определения вообще нужны

    I think digital humanities, like social media, is an idea that will increasingly become invisible as new methods and platforms move from being widely used to being ubiquitous. For now, digital humanities defines the overlap between humanities research and digital tools. But the humanities are the study of cultural life, and our cultural life will soon be inextricably bound up with digital media.

    Ed Finn, Stanford University

    Digital Humanities — это просто удобный лейбл, "временная переменная"

    A name that marks a moment of transition; the current name for humanities inquiry driven by or dependent on computers or digitally born objects of study; a temporary epithet for what will eventually be called merely Humanities.

    Mark Marino, University of Southern California

    А term of tactical convenience

    Matthew Kirschenbaum, Professor of English and Digital Studies, University of Maryland

    Но не стоит недооценивать convenience!

    Типичная команда DH-проекта

    Никогда бы не собралась, если бы не было "зонтика DH" ☂️

    Развлечение

    whatisdigitalhumanities.com — 817 определений

    Зайдите и прочитайте одно

    Далее

    1. 🌌 галактика Digital Humanities: что в ней происходит?
    2. 👽 поиск разумных форм жизни: где обитают цифровые гуманитарии?
    3. 📚 что читать к следующему разу?
    4. 💻 опрос
    5. 🥤 выходные

    Галактика Digital Humanities

    На стыках каких дисциплин рождается Digital Humanities?

    И что делают?

    1. Поиск закономерностей,трендов в больших массивах культурных объектов; масштабированиe Humanities
    2. Новые цифровые методы анализа культурных объектов; моделирование в Humanities
    3. Визуализация и новые формы передачи гуманитарного знания широкой публике
    4. Оцифровка культурного наследия и создание инструментов работы с ним

    Поиск закономерностей и культурных трендов, массовый анализ

    • ...художественных текстов филологами («Distant Reading»)
    • ...любых текстов — для получения новой информации о развитии культуры и общества («Culturomics»)
    • ...медиаконтента, в т.ч. пользовательского («Cultural Analytics»)
    • ...изображений («Visual Analytics») и видео («Distant Viewing»)
    • ...археологических находок
    • ...геоданных (например, исторические GIS)

    Идея "Дальнего" чтения (Distant Reading)

    Идея "Дальнего" чтения (Distant Reading)

    "[…] if you want to look beyond the canon […], close reading will not do it. It’s not designed to do it, it’s designed to do the opposite. […] we know how to read texts, now let’s learn how not to read them. Distant reading: where distance […] is a condition of knowledge […]."

    Идея "Дальнего" чтения (Distant Reading)

    "Если же мы хотим выйти за пределы канона […], то пристальное чтение нам не подходит. Оно не создано для таких задач, оно создано для решения задач противоположных. […] мы умеем читать тексты, теперь нужно научиться не читать их. Дальнее чтение, для которого расстояние […] является условием получения знаний […].»

    Франко Моретти: Гипотезы о мировой литературе (2000; пер. с англ. Олега Собчука). B: Ф. М.: Дальнее чтение. Москва, 2016, стр. 83

    “Literature scholars should stop reading books, and start counting, graphing, and mapping them instead.” Franco Moretti (2005)

    Литературоведы должны прекратить читать книги и начать считать, визуализировать и картографировать их Франко Моретти (2005), перевод мой

    Пример "Дальнего" чтения: затихание романа


    litlab.stanford.edu/LiteraryLabPamphlet7.pdf

    Пример "Дальнего" чтения: сокращение длины названий

    «Основная метаморфоза названий XVIII в. проста: за время жизни двух поколений они становятся намного короче».

    Корпорация стиля: размышления о 7000 заглавий (Ф. Моретти, 2011, пер. 2016)

    А как выглядели длинные?

    Письмо от Х—г—г, эсквайра, одного из лордов опочивальни, к молодому шевалье и единственному человеку из его свиты, сопровождавшему его во время долгого путешествия от Авиньона по Германии и другим местам; содержит множество замечательных и чувствительных происшествий, случившихся с П — в его таинственном странствии. Близкому другу.

    (A letter from H—g—g, Esq; One of the Gentlemen of the Bedchamber to the Young Chevalier, And the Only Person of his Retinue that attended him from Avignon, in his late Journey through Germany, and elsewhere)

    «Сегодня это звучит странно, но на самом деле краткий пересказ в начале романа имеет смысл: роман — это повествование, а заглавие (в случае с титульным листом можно понять, зачем книге требовалась целая страница для титула) в качестве пересказа было укороченным повествованием — оно представляло основные события истории, персонажей, место действия, концовку. Это имело смысл».

    (Ф. Моретти, 2011)

    Так почему же они исчезли?

    Версия Моретти

    <..> культурная экосистема изменялась таким образом, что становилась несовместимой с этими принципами: на протяжении XVIII в. количество опубликованных романов в Британии существенно выросло <..>

    (Ф. Моретти, 2011)

    Версия Моретти

    В третьей и особенно в четвертой четверти XVIII в. Monthly и другие журналы стали печатать рецензии на многочисленные новые романы, что сделало заглавия-пересказы в некотором смысле избыточными <…>

    (Ф. Моретти, 2011)

    Версия Моретти

    Кроме того, поскольку количество новых романов продолжало расти, временное окно для представления каждого из них на рынке сузилось, и для названия стало жизненно необходимым быстро и эффективно привлекать внимание публики. Пересказы не были для этого приспособлены. Они хорошо описывали книгу саму по себе, однако, когда дело касалось переполненного рынка, короткие заглавия справлялись лучше — хотя бы потому, что их было легче запомнить.

    (Ф. Моретти, 2011)

    'Культуромика'

    • Michel, Jean-Baptiste; Liberman Aiden, Erez (2011). Quantitative Analysis of Culture Using Millions of Digitized Books. Science. 331 (6014): 176–82

    Google Books

    • 'We constructed a corpus of digitized texts containing about 4% of all books ever printed. Analysis of this corpus enables us to investigate cultural trends quantitatively. We survey the vast terrain of “culturomics”, focusing on linguistic and cultural phenomena <...>'

    Культуромика в Google Books

    Культуромика в Google Books

    Культуромика в Google Books

    books.google.com/ngrams

    Культуромика в Google Books

    попробовать в Ngrams

    Культуромика в Google Books

    попробовать в Ngrams

    Масштабирование не про тексты

    Длина кадра в кино

    Динамичность и освещенность кадра

    И кинопостеры тоже темнеют

    Эволюция обложки Time

    137 тыс. картин с WikiArt

    Sigaki H.Y.D., Perc M., Ribeiro H.V. History of art paintings through the lens of entropy and complexity // PNAS. 2018. Vol. 115, № 37. P. E8585–E8594.

    Меры энтропии и сложности

    Sigaki H.Y.D., Perc M., Ribeiro H.V. History of art paintings through the lens of entropy and complexity // PNAS. 2018. Vol. 115, № 37. P. E8585–E8594.

    137 тыс. картин с WikiArt

    Sigaki H.Y.D., Perc M., Ribeiro H.V. History of art paintings through the lens of entropy and complexity // PNAS. 2018. Vol. 115, № 37. P. E8585–E8594.

    137 тыс. картин с WikiArt

    Sigaki H.Y.D., Perc M., Ribeiro H.V. History of art paintings through the lens of entropy and complexity // PNAS. 2018. Vol. 115, № 37. P. E8585–E8594.

    Новые цифровые методы анализа культурных объектов, моделирование в Humanities

    • Сетевой анализ в истории и литературе
    • Стилеметрия (авторство, стиль, жанр, translation studies)
    • «Семантическая разметка» художественных текстов
    • 3D-моделирование материальных памятников

    Стилометрия

    Сетевой анализ

    poms.ac.uk

    Сетевой анализ

    Из диссера Дани Скоринкина

    Сетевой анализ

    rus.dracor.org

    Сети можно сочетать с картами (GIS)


    Проект Mapping the Republic of Letters

    computer vision для исследования сериалов

    • T. Arnold, L. Tilton, A. Berke. Visual Style in Two Network Era Sitcoms // Cultural Analytics (preprint), 2018
    • Используют технологии компьютерного зрения (распознавание лиц с помощью нейросетей) для анализа ситкомов

    Два сериала-конкурента — от двух каналов-конкурентов

    Bewitched (у нас — «Моя жена меня приворожила») I Dream of Jeannie («Я мечтаю о Джинни»)
    Телеканал ABC Телеканал NBC
    1964 – 1972 1965 – 1970
    Офисный клерк женится на девушке, та оказывается колдуньей Астронавт при приземлении находит бутылку с джином Джинни, она становится его спутницей, далее — романтическим партнером

    Крупный план

    3D-моделирование объектов культурного наследия

    Визуализация, распространиение, популяризация гуманитарного знания

    • Цифровые издания
    • GIS как метод представления исторических знаний
    • Виртуальная, дополненная, смешанная реальность (музеи, педагогика)
    • Всякая гуманитарная инфографика

    Оцифровка культурного наследия

    • Цифровые архивы
    • Форматы и стандарты представления гуманитарных данных в машиночитаемом виде (TEI, базы данных, LOD)
    • Краудсорсинг для оцифровки
    • OCR (оптическое распознавание символов)

    Виртуальные музеи


    Например, виртуальные прогулки по ГМИИ им. Пушкина

    Музеи с дополненной реальностью

    DH-сообщество заинтересовалось

    Геоинформатика (GIS) и гуманитарии


    The Digital Atlas of Roman and Medieval Civilizations

    GIS и гуманитарии

    Al Thurayya

    GIS и гуманитарии

    Фольклорный архив БашГУ

    GIS и гуманитарии

    voinaimir.com/info/

    Цифровые издания

    Проект World of Dante

    Цифровые издания

    Проект Europeana Regia

    Цифровые издания

    Проект Манускрипт

    Оцифровка и создание инструментов

    OCR (оптическое распознавание символов)

    Оцифровка рукописного текста

    См. Transcribus

    Краудсорсинговая оцифровка

    Стандарт машиночитаемого текста в гуманитарных областях

    Text Encoding Initiative (TEI/XML)

    Это как раз служит основой для штук типа сетевого анализа

    Цифровая консервация в археологии

    Где обитают цифровые гуманитарии?

    Журналы

    Конференции

    Соцсети

    • Twitter
    • Twitter
    • TWITTERRR1111111!!!!
    • и еще Twitter

    См. например, по хэштегу

    Есть несколько исследований Twitter-сообщества DH


    Digital Humanities on Twitter, a small-world?

      А что в России?

      • "Квартира пуста, но мы здесь, здесь мало что есть, но мы есть. Дождь для нас". (В. Цой)
      • Но мы ждем перемен
      • Была мощная конференция DH Russia 2017
      • Тогда официально запустилась российская ассоциация DH (входит в ADHO через EADH)
      • В сентябре будет конференция EADH в Красноярске
      • Есть магистратуры в Вышке, ИТМО, ТГУ, ТюмГУ, ЮФУ...

    Доклады на следующий раз

    Добровольцы?

    Опрос

    https://bit.ly/37UkSQx

    Спасибо за внимание!

    Выходные