Цифровой филолог (Даня Скоринкин)

«Системному Блоку» 5 лет! Итоги работы — в цифрах

Системному Блоку исполнилось 5 лет. За это время мы превратились из маленького паблика в немаленькое медиа, которое вещает из каждого утюга. В разных соцсетях к нам суммарно пришли около 150000 читателей (спасибо вам, что вы с нами!).

Мы опубликовали на нашем сайте больше 1000 материалов, устроили практику для сотен студентов, помогли провести десятки пар в университетах… И все это с нулем бюджета и на чистом волонтерстве. На карточках — итоги 5 лет нашей работы. Если хотите поучаствовать — подключайтесь.

668 views15:06

«Впервые я увидел ЭВМ, только когда мы сами ее сделали», или сказка про Кремниевый Арарат 🏔💽

Тут недавно ребята из DataArt, которые сегодня, кажется, главные археологи Советской компьютерной Атлантиды, сделали мега-проект про вычислительную технику Советской Армении. Я сам как раз в августе был в Музее науки и техники в Ереване, который очень сильно сфокусирован на Армянской электронике 1950х—1980х, но это даже круче! В Ереване, конечно, реальная физическая экспозиция с вакуумными трубками, транзисторами, ферритовой памятью и прочими кусками ЭВМ «Арагац», «Раздан» и «Наири» (на последней моя мама училась программировать в 1970-е). А тут вроде как выставка всего лишь виртуальная.. но погружение мощнейшее! Цитата из описания проекта:

В Ереване проектировали и собирали новые машины для науки и образования, промышленности и транспорта, управления и оборонных программ. Среди наиболее заметных разработок ЕрНИИММ компьютеры семейства «Наири», эволюция которого едва не завершилась созданием полноценного советского ПК, первая в СССР автоматизированная система продажи ж/д билетов, самая сбалансированная машина международного проекта ЕС ЭВМ, вычислительные комплексы для стратегической авиации. Проект «Математические машины Армении» освещает их историю на основании не только материалов из открытых источников и публикаций, но также интервью с бывшими сотрудниками ЕрНИИММ: конструкторами и разработчиками.

А еще эти фотки! Это ведь как если бы Саша Привалов у Стругацких поехал не на север в Соловец, а на юг в Закавказье…

Ну и круто, что там все вписано в культурно-общественный контекст: упомянуты и мультики «Арменфильма», и «Цвет граната» Параджанова, и рок-виа-фестиваль «Ереван-81», и строительство Ереванского метро, и футуристическая архитектура аэропорта «Звартноц»…

https://armenianit.dataart.com/

Armenian IT

1.4K viewsedited 10:54

Цифровой филолог (Даня Скоринкин)

P.S. Кстати, когда я сходил поблагодарить главного редактора «Математических машины Армении» за этот королевский подгон архивного материала, он в ответ сказал, что у них только что вышел спецпроект про Виктора Глушкова (ну который ОГАС, несбывшийся советский интернет) и кибернетику Украины: https://museum.dataart.com/en/victor-glushkov/

Эти воспоминания впервые печатаются целиком, их передала DataArt дочь Глушкова Вера, которая умерла в этом году, но успела дать интервью: https://museum.dataart.com/ru/narratives/vera-glushkova (осторожно, тут вас ждут довольно типичные для наследников советской инженерной элиты заходы о том, как “в СССР изобрели” буквально всё на свете раньше американцев в 195[x] году, но если это привычно делить на 5, то остается много интересной фактуры)

DataArt IT Museum

IT Museum DataArt: a multichannel media project dedicated to the history of computer technologies and engineering culture in Eastern…

We explore the history of hardware design, software development, and computer science education, discovering its mutual influence on business, industry, popular culture, and arts.

836 viewsedited 10:59

Цифровой филолог (Даня Скоринкин)

Выступил на «Арзамасе» в любимом жанре ответов на вопрос «ну и нахрена вы полезли со своими цифровыми методами к Пушкину с Толстым»

Arzamas

Зачем что-то считать и измерять в гуманитарных науках

Стилометрия, пирамидальные грузила и алгоритм, восстанавливающий фрески

947 viewsedited 08:32

Цифровой филолог (Даня Скоринкин)

Тут Льву Толстому исполнилось 195 лет. В связи с этим я запилил 12-минутное видео про бесконечную борьбу Толстого с властью и Толстовский Анархизм™

Лев Николаевич Толстой: бунтующий, экстремистский, твой🔥🖤👊

https://youtu.be/Wg_SbNjAwn0

YouTube

«Патриотизм есть рабство»: Лев Толстой как анархист и противник любой власти

Единственное убеждение, которое Лев Толстой не менял за всю свою долгую жизнь, — это неприятие власти. Власти над собой, власти государства, вообще власти одного человека над другим человеком. Толстой сначала сам всю жизнь выламывается из-под чужой власти…

901 views15:46

Цифровой филолог (Даня Скоринкин)

А вы знали про крутейшую украинскую программистку Катерину Ющенко? Там потрясающая судьба: от ареста отца в 1937 за типа “украинский национализм”, изгнания из Киевского университета в возрасте 17 лет и работы взрывником (взрывницей?) на угольной шахте в Узбекистане в 1943-м — до разработки кода для МЭСМ в 1952-м, изобретения Указателя как типа данных в 1955-м и соавторства книги по ЭВМ "Киев" с Виктором Глушковым (тем, который потом будет пытаться пилить советский Арпанет) в 1962-м.

Радуюсь, что успел ее подкинуть во вчерашний материал о женщинах-программистках в компанию к Аде Лавлейс, Грейс Хоппер и прочим.

963 viewsedited 07:08

Цифровой филолог (Даня Скоринкин)

Перевариваю тот факт, что в корпусе TEI-размеченных пьес DraCor, который мы придумали в 2017-2018 году и который с моего легкого языка так называется, уже 16 подкорпусов, 14 языков и 44534 драматических персонажа (из которых 26623 явно мужских и 10600 явно женских). И для каждой из 3121 пьес вы можете скачать сеть совместной встречаемости персонажей, реплики, разбитые по гендеру, сценические ремарки отдельно от текста и т.п.фичи, невозможные без TEI-разметки 😎🧑‍💻 (Все цифры на сегодня, 29 сентября 2023)

А впрочем, как вы понимаете, проект этот абсолютно бесполезен, как и все эти ваши Digital Humanities. Он только добавляет еще больше CO2 в атмосферу нашей планеты, стремительно превращающуюся из просто парника в кровавую баню ☠️☠️☠️ Хорошей пятницы и счастливых вам выходных!🥳

P.S. Да, если кто-то готов научить меня делать в Питоне невсратые барплоты, буду рад. Seaborn не предлагать.

996 views14:34

Цифровой филолог (Даня Скоринкин)

Сегодня по рабочим делам попросил ChatGPT сгенерировать дворовый пересказ Ромео и Джульетты… Взял первый же вариант без черри-пикинга. Какие ошибки видите?

1.0K viewsedited 14:45

Цифровой филолог (Даня Скоринкин)

Придумали тут в комментах, что книжку о том, как языковые модели научились говорить и какие смешные ошибки делал ИИ в “детстве”, можно будет назвать “ЧатДжипити — от двух до пяти”… Учитывая текущую нумерацию версий GPT, осталось недолго

985 viewsedited 12:24

Цифровой филолог (Даня Скоринкин)

Муж, он же Стива, он же Степан Аркадьевич

Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо круто. Что тут важно:

1. это сделано не в один запрос, а питоновским циклом через API OpenAI. Т.е. ID реально сквозной, а число абзацев, которые можно так обработать, ограничено только моим кошельком и рейт-лимитами на GPT-4.

2. Увы, GPT-3.5, которая кратно дешевле, пока не тянет в этой задаче. А с GPT-4 на всего Толстого моих карманных может и не хватить…

3. Выше был подан и самый первый абзац Анны Карениной (Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”), про него сеть сказала “К сожалению, в представленном вами тексте нет упоминаний персонажей. Вы можете предоставить другой фрагмент текста, где есть персонажи, и я с удовольствием помогу с их выделением.” Культура отказа выучена прекрасно👌

1.0K viewsedited 17:52

Цифровой филолог (Даня Скоринкин)

Муж, он же Стива, он же Степан Аркадьевич Это GPT-4 размечает и идентифицирует персонажей в русском тексте (я просил разметить персонажей квадратными скобками, включая анафорические упоминания, и присовить сквозной ID каждому уникальному персонажу). Имхо…

Для тех, кто не знаком с историей компьютерной лингвистики/NLP последних лет, хочу пояснить, чем так впечатляет результат. Еще 5-7 лет назад просто связать местоимение “он” с именем в тексте было отдельной гигантской задачей (разрешение анафоры), по которой проводились соревнования, под которую писались специально заточенные инструменты, системы и программные библиотеки. Результаты были так себе. Отдельно от нее решалось собственно задача NER — распознавание в тексте людей и прочих именованных сущностей. Потом эти штуки мучительно скручивались вместе, писались всякие надстройки для локальной и глобальной идентификации “кореферентных цепочек” упоминаний персон… И когда буквально несколько лет спустя все эти задачи скопом решает модель, которую вообще этому никто специально не учил, которую даже русскому-то языку учили постольку–поскольку и для которой это какие-нибудь 0.05% всех ее знаний-умений, — это конечно космический прогресс в мире NLP

1.1K viewsedited 18:03

Цифровой филолог (Даня Скоринкин)

Жизненная DH-задачка на регулярные выражения (не GPT единым живет DH-разметка).

Дано: в тексте многие имена написаны р а з р я д к о й через пробел
Задача: удалить такие пробелы, используя только регекспы. Для простоты примем, что нас волнуют только слова длиной от 5 букв(имен короче там нет)

Какие я придумал неработающие варианты:
1. Сначала я надеялся, что во вторую группу регекспа на картинке 1 должны попадать все предпробельные буквы. И что можно сделать замену, сохранив из этого регекспа только группы 2 и 4. Но в группе 2 остается только последняя такая буква... (к)
2. Затем я думал находить пары "буква+пробел" по одной, смотреть, что у них впереди достаточно таких же пар (напр., через lookahead как на картинке 2) и заменять их поодиночке. Но так заменяются только часть пробелов, а потом оставшиеся 1-3 будут уже неотличимы от обычных межсловных

Как бы вы поступили?

Если что, решение на чистых регекспах в чистом блокноте без программирования было найдено. Хотя и слегка костыльное. Расскажу.

1.1K views18:04

Цифровой филолог (Даня Скоринкин)

1824 год, Фаддей Булгарин описывает опыт работы с ChatGPT:

Машина для делания прозы хотя устроена была точно таким же образом, но отличалась тем, что для определения тактов имела трубу и барабан, а не фортепьяно и что на косточках написаны были не одни только слова, но даже целые речения и мысли, выбранные из разных авторов.

- Нельзя ли сочинить что-нибудь на заданный предмет? - спросил я.
- Очень можно, - отвечал мой проводник, - что вам угодно?

Тут я хотел привести в затруднение проводника и доказать неудобство сочинительных машин. Я избрал предметом сочинения описание моей родины,любопытствуя, каким образом машина отделается от этой задачи и опишет место не виданное и, может быть, не слыханное ни одним из жителей полярных стран.

Проводник достал с полки словарь древней географии, отыскал в нём название моего отечественного города, подобрал написанные на косточках речения, сходные с книгой, взял принадлежащие к описанию собственные имена, множество прилагательных, несколько вспомогательных глаголов и кучу готовых речений, бросил всё это в ящик, пустил пружину, барабан ударил поход, труба заиграла марш, и косточки начали сыпаться.

Представьте себе моё удивление, когда чрез полчаса вышло довольно подробное описание города, в котором я родился. С первого взгляда показалось мне, что оно не уступает произведениям посредственных умов; но, прочитав со вниманием, я тотчас приметил напыщенность, пошлые изречения, чужие мысли и недостаток связи с целым, которые обнаруживали действие машины, а не ума.

[Ф.В. Булгарин. Правдоподобные небылицы, или Странствование по свету в ХХIX веке (1824)]
UPD: в комментах сообщают, что это придумал Свифт, а Булгарин позаимствовал

Кстати, в СисБлоке есть еще примеры футуристики от авторов Пушкинской эпохи, вот тут.

Системный Блокъ

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники…

9.5K viewsedited 09:40

Цифровой филолог (Даня Скоринкин)

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K viewsedited 11:45

About

Blog

Apps

Platform