Муж, он же Стива, он же Степан Аркадьевич
Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:
1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.
2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…
3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:
1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.
2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…
3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌
Цифровой филолог (Даня Скоринкин)
Муж, он же Стива, он же Степан Аркадьевич Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо…
Для тех, кто не знаком с историей компьютерной лингвистики/NLP последних лет, хочу пояснить, чем так впечатляет результат. Еще 5-7 лет назад просто связать местоимение “он” с именем в тексте было отдельной гигантской задачей (разрешение анафоры), по которой проводились соревнования, под которую писались специально заточенные инструменты, системы и программные библиотеки. Результаты были так себе. Отдельно от нее решалось собственно задача NER — распознавание в тексте людей и прочих именованных сущностей. Потом эти штуки мучительно скручивались вместе, писались всякие надстройки для локальной и глобальной идентификации “кореферентных цепочек” упоминаний персон… И когда буквально несколько лет спустя все эти задачи скопом решает модель, которую вообще этому никто специально не учил, которую даже русскому-то языку учили постольку–поскольку и для которой это какие-нибудь 0.05% всех ее знаний-умений, — это конечно космический прогресс в мире NLP
Жизненная DH-задачка на регулярные выражения (не GPT единым живет DH-разметка).
Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)
Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных
Как бы вы поступили?
Если что, решение на чистых регекспах в чистом блокноте без программирования было найдено. Хотя и слегка костыльное. Расскажу.
Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)
Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных
Как бы вы поступили?
1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:
Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.
- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?
Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.
Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.
Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.
[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал
Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.
- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?
Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.
Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.
Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.
[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал
Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.
Системный Блокъ
Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети
Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники…
Please open Telegram to view this post
VIEW IN TELEGRAM
Литературщина от GPT: иллюстрации к посту выше ⬆️
Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
Сами тексты мы выложили тут, все желающие могут их тоже поисследовоать: https://github.com/lucagiovannini7/ai-storyteller
#личное
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.
В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:
1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.
2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.
3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…
4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.
5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.
С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Сижу читаю разные DH-статьи и просто литературоведческие статьи про диалоги и диалогизм в русских романах, особенно у Толстого и Достоевского. Но никакая статья не родится. Вместо науки мозг постоянно съезжает на невеселые мысли о том, куда ж нам плыть и кем быть. Первые года полтора после эмиграции как-то прошли на адреналине и внезапности происходящего, теперь же накрывает тоскливое осознание тупика. В фейсбуке о таком теперь писать стыдно, пока на людей падают ракеты, напишу хоть тут.
В целом чувствую себя человеком, который опоздал на несколько поездов подряд и теперь не может решить, какой из них догонять и стоит ли пытаться (а поезда тем временем расходятся все дальше в N разных сторон). Размышлять “кавалергард ты будешь или дипломат” в 34 года как будто совсем неприлично, но и не размышлять не получается. Распутье-тупик видится мне следующим образом:
1. С одной стороны, оставлены надежды хоть как-то заскочить в последний вагон технологического паровоза. В 2012 я ради этого поступил в NLP-магистратуру, в 2013-м пошел работать в ABBYY, в 2014 наивно полагал, что задача решена… Формально это было так: я был инженером в большой глобальной IT-компании. По факту оказалось, что я запрыгнул в отцепленный вагон «лингвистического» NLP, который укатили на запасной путь в эпоху машин-лернинга и нейросетей. Сообразить это вовремя не получилось, перестроиться тоже, и лучшее, что я смог, — выпрыгнуть из вагона и перебраться в Digital Humanities, которым и посвящен этот канал.
2. Как видно из названия канала, к Digital Humanities у меня отношение сложное. Главным образом мне непонятно, зачем кому-то нужно знать то, что пытается выяснить Digital Humanities, и как это знание хоть кому-то может помочь. А заниматься игрой в бисер за общественный счет на настолько неблагоустроенной планете мне по-прежнему не хочется.
3. С годами я начал понимать ценность классической гуманитарной науки — ну просто по факту того, что к её объекту есть в обществе какой-то трепет. Важен людям почему-то Толстой — немножко отраженной важности можешь поймать и ты, исследуя Толстого и зная о нем кратно больше среднего человека (функция живой ячейки памяти). Этого было бы достаточно, но проблема в том, что я не настоящий сварщик: никогда на филолога и не учился, а только пришел поковырять Толстого NLP-методами, когда это выглядело свежо и хайпово. Написал диссер, но глубины и научной эрудиции не накопил. Оглядывая необъятные горы написанного о том же русском реалистическом романе, с ужасом думаю, что тут читать лет 10 и не перечитать…
4. Иногда кажется, что при таких исходных данных (jack of all trades, master of none) надо плюнуть на все попытки занятия какой-либо наукой и, пользуясь попутно-накопленным портфолио главреда @sysblok, просто укатиться куда-то в научпоп и надеяться, что сборка научно-популярного контента чуть облагородит коммунальное инфопространство in the long run.
5. Но тут вступают страхи того самого long run-а: допустим, сейчас так поступить можно, а что будет через 10-15 лет? Кому в сжавшейся российской экономике 2040 года будет нужен 50-летний научпоп-журналист? В академии при всей её тоске и бюрократизированности хотя бы понятно, какую ценность можно приносить в 50-60 лет (махать седой бородой и изображать УчОнОгО на бессмысленных заседаниях — унылая, но декоративно нужная функция). А вне её? Непонятно. А способен ли я еще остаться в академии, учитывая п.3 и п.1? Совсем туманно.
С такими мыслями я вошел в новый год. Справедливости ради — все это полная ерунда на фоне войн, заложников, гуманитарных и климатических катастроф. Тем не менее спасибо что дочитали: поделившись с вами, мне стало легче ☺️ Всем добра и мира!
Please open Telegram to view this post
VIEW IN TELEGRAM
Обнаруженная мной параллель между “Твин Пиксом” (1990) и “Физиологией Петербурга” (1845) сегодня была подсвечена прекрасным каналом “Некраткие содержания”. А еще туда нативно вставили выпуск подкаста “Лига айвы”, где я рассказываю Борису Орехову про мои университеты и чем Потсдам отличается от Вышки. И “Содержания”, и “Лигу” всем рекомендую
Telegram
Некраткие содержания 🎙
Некраткие содержания ‒ это неочевидное в прозе и поэзии. Это сам процесс чтения, заметки на полях собраний сочинений или в чертогах разума.
Здесь говорят о литературе свежо и по-новому, с вниманием к деталям и без штампов.
Здесь говорят о литературе свежо и по-новому, с вниманием к деталям и без штампов.
Forwarded from Некраткие содержания 🎙 (Boris Orekhov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда мы готовили сегодняшний материал в Системном Блоке про удивительные экспонаты музейного Госкаталога РФ, меня совершенно покорила композиция из моржового клыка «В ожидании санрейса» 1967 года. Во-первых, это классная демонстрация ценности оцифровки, ведь чтобы увидеть этот экспонат вживую, нужно добраться (по воздуху или по воде) до самого восточного населённого пункта России — села Уэлен на Чукотке. А теперь вот он, доступен мне по клику мышки из середины Европы (ну ладно, с VPN, мы нынче недружественные 👹). Во-вторых, я был впечатлен подробностью описания экспоната в метаданных:
Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо.
Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅
А в третьих, просто посмотрите, как это тонко вырезано:
Подставка стоит на округленных четырех ножках на ней стоят фигуры из клыка моржа: три человека, три оленя, две нарты и собака. Слева направо стоит нарта на ней лежит ребенок, укутанный до головы, с левой стороны от нее сидит на коленях человек в национальной одежде, а впереди в обеих руках держит сумку – аптечку, впереди облокоченный об полозья лежит хорей. Впереди нарты лежит олень, ноги положив под себя, а передняя правая вытянута, голова повернута влево, по левую сторону вторые нарты. Возле нарт стоит человек в национальной одежде, ноги расставлены, левая рука поставлена возле лба и смотрит вдаль, в правой руке держит хорей. Рядом с ним стоит олень, высунув язык. Третьи олень лежит, ноги убрав под себя, голова развернута в сторону стоящего оленя. Собака лежит, голову повернув влево. На одной стороне отгравировано: сцена жизни тундровых чукчей: едущие с пассажирами две собачьи упряжки, а впереди их встречают три человека возле двух яранг. Вторая сторона: самолет, люди с носилками несут больного, две оленьи упряжки едут, две яранги и пастух пасет стадо.
Это ж надо было заморочиться с описанием… И ведь до ChatGPT 😅
А в третьих, просто посмотрите, как это тонко вырезано:
Telegram
Системный Блокъ
Столетний пряник и космическая матрешка: 10 необычных экспонатов Госкаталога
Где можно найти и матрёшку с мордой собаки Стрелки, и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога музейного фонда России — цифрового архива экспонатов…
Где можно найти и матрёшку с мордой собаки Стрелки, и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога музейного фонда России — цифрового архива экспонатов…
Please open Telegram to view this post
VIEW IN TELEGRAM
Корпусный тест Тьюринга и вежливые уши GPT
Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов.
Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel).
Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).
Постоянно вижу новости о том, как в научных статьях, рецензиях на статьи, деловых письмах и прочих “ответственных” текстах просвечивают белыми нитками языковые модели. Вот например на картинке (из этой статьи) статистика употребления некоторых типично GPT-шных слов в рецензиях на конференции ICLR. Вежливые академические прилагательные вроде meticulous или commendable внезапно становятся теми самыми “ушами”, которые торчат из текстов.
Так что пусть классификаторы пока плохо справляются с разделением отдельных текстов на сгенерированные и человеческие, но на уровне корпусов (т.е. больших массивов текстов) все видно. И меня это радует: корпусные методы вновь оказываются актуальными как вспомогательный инструмент в дивном новом мире языковых моделей (о чем уже как-то писала Таня @rybolos_channel).
Глядишь и стилометрия тоже пригодится — как вы помните, она, к примеру, отличает GPT-шные имитации писателей от настоящих текстов этих писателей (хотя эта задача легче).
P.S. Мир переходит на африканский английский?
Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке.
Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке..
Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯
Избыточно вежливый расшаркивающийся английский от GPT породил в твиттере дискуссию о том, насколько на стилистику языковых моделей повлияли особенности английского в Африке.
Вот например Пол Грэм получил какое-то интересное письмо с предложением, а потом увидел там конструкцию delve into и разочаровался, уверившись, что это ChatGPT. Дальше началась дискуссия (местами не вполне политкорректная), что такой вычурный английский характерен для Нигерии и других стран Африки, а еще для Индии. Ну а как известно, люди для дообучения моделей на человеческих инструкциях берутся не в Лондоне и не в Нью-Йорке..
Впрочем, с учетом демографии, переход на африканские варианты английского все равно дело времени 💯
5 коллекций данных для цифрового гуманитария
Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.
🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…
Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.
✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.
А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂
📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.
🏛 4. Госкаталог Музейного фонда РФ —свалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.
🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳
Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.
🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…
Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.
✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.
А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂
📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.
🏛 4. Госкаталог Музейного фонда РФ —
🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳
dracor.org
DraCor – Drama Corpora Project
DraCor is not a website. DraCor is a showcase for the concept of Programmable Corpora. It revolves around an API that provides data extracted from TEI-encoded corpora. This website – dracor.org – uses this API to showcase some of the extractable information.…
Please open Telegram to view this post
VIEW IN TELEGRAM