Системный Блокъ

Как устроен шрифт Брайля и зачем его распознавать
Рассказывает Ася Ройтберг, инициатор разработки алгоритма распознавания Брайля
#nlp #society

Больше всего распознавание Брайля и его автоматический перевод нужны людям, которые много взаимодействуют с незрячими — обычно это родственники и учителя, — а в некоторых случаях это нужно и самим незрячим людям.

Учителя в школах для слабовидящих обычно читают Брайль глазами, поэтому проверять тетради диктантов из белых точек на белом фоне очень тяжело. Родители часто не могут помочь своему незрячему ребенку с уроками или почитать вместе одну книгу. Также, только в некоторых регионах у незрячих детей есть возможность участвовать в школьных олимпиадах.

Еще одна проблема — оцифровка и переиздание брайлевских книг, изданных в доцифровую эпоху.

Но главная цель — помочь незрячим людям расширить круг общения. Если убрать «языковой барьер», преподавать незрячим людям смогут люди, не умеющие бегло читать на Брайле.

Как устроен шрифт Брайля

Шрифт Брайля изначально придумали для армии. Предполагалось, что с помощью него солдаты смогут бесшумно общаться в полной темноте. В армии язык не пошел: зрячим людям оказалось не под силу читать пальцами рельефные точки. Но не пропадать же изобретению — рельефному шрифту решили научить слепых детей.

Один из этих детей — Луи Брайль — доработал систему, и в итоге получился рельефно-точечный шрифт. Он состоит из выпуклых точек и промежутков, причем точки четко организованы.

Один символ шрифта Брайля — решетка 3×2, в каждой из шести ячеек которой может быть (или не быть) рельефная точка. Получается всего 64 комбинации точек и пустот, поэтому для передачи кириллицы, латиницы, других видов письменности и даже музыкальных нот используют одни и те же символы.

Как и в других письменностях, Брайль бывает печатным и «рукописным». На вид символы не отличаются — отличается способ письма. Печатный вариант — это пластиковые округлые выпуклые точки, наверняка вы видели такие в лифтах или в подписях в музеях. Здесь можно конвертировать в Брайль русский текст, а здесь — текст на латинице.

В школах для слабовидящих детей учат писать «рукописным» Брайлем. Технически это протыкание дырочек специальным шилом (или просто ручкой) в листе бумаги, вставленном в специальный трафарет. На трафарете пишут зеркально: точки продавливают шилом с обратной стороны листа справа-налево. В этом видео подробно показывается, как пишут Брайлем.

Также есть брайлевские печатные машинки. Здесь можно посмотреть, какие они бывают. У них 6 больших кнопок — по кнопке на каждую из шести точек в брайлевской букве, и седьмая клавиша — пробел.

Брайлевские тексты иногда печатают с двух сторон, тогда на странице присутствуют одновременно и выпуклые точки текста, и впадины на местах точек текста с другой стороны листа. Такие тексты очень плохо распознаются с помощью компьютерного зрения и оптического распознавания символов.

Что сделано и не сделано в сфере распознавания Брайля

Распознать Брайль значит взять фотографию или скан текста на Брайле и превратить в машиночитаемые брайлевские символы (а дальше можно сразу конвертировать его в обычный текст на кириллице, латинице и т. д.).

Распознавание Брайля — проект без коммерческого потенциала. Для многих задач эта технология уже не актуальна: есть технические средства, помогающие незрячим при чтение и письме. С ними люди отлично могут набирать текст на компьютере и пользоваться любыми мессенджерами, а рукописный Брайль остается только на этапе начального обучения письму.

К сожалению, все эти технические средства довольно дорогие. В России брайлевская строка и брайлевский дисплей доступны совсем немногим.

Электронные помощники также не решают проблему оцифровки старых книг на Брайле. Но для этого есть аппаратно-программный комплекс — большая и дорогая железная машина с 3D сканером внутри, которая может распознавать только печатный Брайль.

https://sysblok.ru/nlp/kak-ustroen-shrift-brajlja-i-zachem-ego-raspoznavat/

3.0K viewsedited 17:00

Системный Блокъ

«Прямо как в Plague. Inc!» Что объединяет игры и фильмы про эпидемии
#society

В связи с коронавирусом резко выросла популярность не самой новой (2012) игры Plague Inc. Цель игры — истребить или поработить человечество, используя смертельный патоген. Игрок управляет патогеном, наделяет его новыми симптомами и способами передачи. Обычные сюжетные роли перевернуты: злодей является протагонистом.

В последнее время стало появляться много шуток, связывающих игру и пандемию коронавируса. Люди начинают думать в терминах игры и используют игровые тропы для описания реального мира.

Тропы — повествовательные схемы, ментальные конструкции, которые обнаруживаются в разных видах творческих произведений (игры, фильмы, сериалы и прочее) — простой способ описания узнаваемых ситуаций, «кирпичики», составляющие повествование.

Мы решили узнать, какие тропы объединяют Plague Inc. и другие произведения, сюжет которых построен вокруг эпидемий. Для сравнения мы выбрали настольную игру Pandemic, фильмы Contagion и 28 Days Later и видео игру Left 4 Dead.

Мы использовали сетевой анализ. Анализируя тропы сетевым методом, можно быстро получить достаточно полное представление о самом произведении и понять, что его объединяет с другими: сразу видно общие детали сюжета или сеттинга.

Примеры тропов, которые встретились в нескольких произведениях:

Zombie Apocalypse (Зомби-апокалипсис)
Где встречается: Plague Inc., Pandemic, Left 4 Dead.
По-разному реализуется в каждой игре.

Patient Zero (Нулевой пациент)
Где встречается: Plague Inc., Contagion, Pandemic.
Первый зараженный может быть ключом к вакцине.

Ripped From The Headlines («Сюжет стащили из новостей») .
Где встречается: Contagion, Plague Inc., 28 Days Later
Здесь довольно любопытно то, что описание тропа несколько уже его фактического применения. Название и примеры передают больше информации, чем описание. Вкратце: общая канва истории основана на реальных событиях с некоторыми изменениями. Кроме того в Plague Inc. регулярно добавляют новые новости с отсылками, что делает структуру сложнее.

Spreading Disaster Map Graphic (Карта распространения вируса)
Где встречается: Plague Inc., Contagion, Pandemic
Карта с распространением вируса — прямо как в новостях

Oh, Crap! («О, чёрт!»)
Где присутствует: Plague Inc., Contagion, 28 Days Later, Left 4 Dead.
Момент осознания всего ужаса ситуации. Как говорится, «вы находитесь здесь».

Обо всех результатах и о том, как проводится сетевой анализ, читайте по ссылке: https://sysblok.ru/society/prjamo-kak-v-plague-inc-chto-obedinjaet-igry-i-filmy-pro-jepidemii/

2.7K viewsedited 17:20

Системный Блокъ

Как изменились тексты поп-песен за последние 50 лет
#society #arts

Поп-музыка — практически неограниченное пространство для исследователя. Можно изучать ее инструментами социологии, теории музыки, культурологии и еще десятка дисциплин, но самый простой способ — проверить, как меняются тексты.

Анализ текстов методом семантического анализа

В исследовании использовались два датасета: «100 лучших песен года по мнению Billboard», состоящий из широко известных в США песен с 1965 по 2015 годы, и слова песен с сайта Musixmatch, состоящий из более чем 150000 англоязычных песен. Тренды, найденные в Billboard и на Musixmatch, совпали, поэтому можно сказать, что тенденция универсальна.

Англоязычные песни стали негативнее: употребление слов, связанных с негативными эмоциями, выросло на треть, а доля позитивных слов сократилась (см. график ниже). Однако, в целом количество позитивных слов превышает количество негативных в любой момент наблюдения — это универсальная характеристика человеческого языка, также известная как принцип Поллианны, названный в честь оптимистичной протагонистки одноименной книги.

Частотность использования слова «любовь» за 50 лет снизилась вдвое, а слово «ненависть», наоборот, используется сейчас где-то 20–30 раз в год, учитывая, что до 90-х годов в песнях из датасета Billboard его вообще не использовали.

Почему поп-песни стали «грустнее»

Одно из объяснений — это культурная эволюция. Культура способна эволюционировать, следуя принципам Дарвина: при наличии разнообразия, отбора и размножения можно ожидать, что самые успешные культурные характеристики закрепятся, а менее успешные — исчезнут.

Многие поведенческие характеристики передаются социальным путем, и чтобы социальное обучение было успешным, оно должно быть избирательным.На предпочтения в выборе примера для подражания могут влиять: успешность примера, конформизм обучающегося, престиж обучающего и содержание примера. Каждому из них соответствует свой вид смещения.

Избирательность обучения по принципу «насколько хорош результат процесса» можно назвать смещением по успеху, или success bias. Наличие смещения по успеху проверялось сравнением количества негативных текстов песен, вышедших в конкретном году, с количеством негативных текстов песен, вышедших в предыдущие годы; иными словами, правда ли, что авторы песен ориентировались на хиты прошлых лет.

Смещение по престижу (prestige bias) оценивали, проверяя, много ли популярных исполнителей прошедших лет пели песни с негативным содержанием. Под популярным исполнителем понимался такой, который появлялся в чартах неприлично большое количество раз.

Проверяли и смещение по содержанию (content bias): вдруг песни с негативным содержанием в принципе лучше приживались в чартах, вне зависимости от артиста. Если бы это так и было, можно было бы сказать, что в самом содержании негативных песен было что-то такое, что притягивало слушателей.

Влияние смещения по успеху и по престижу в датасете обнаружено не было, зато роль смещения по содержанию в увеличении доли негативных слов в песнях была наибольшей. Негативная информация запоминается и распространяется лучше позитивной (Твиттер — отличное тому подтверждение).

Мария Маслова

https://sysblok.ru/arts/stali-li-sovremennye-pop-pesni-grustnee-za-poslednie-50-let/

3.4K viewsedited 16:15

Системный Блокъ

Картирование криминала и рост средневековых городов: зачем историкам ГИСы
#society #history

Мы пользуемся геоинформационными системами (ГИСами) каждый день, когда лезем в карты на телефоне или едем куда-то по навигатору. А зачем ГИСы историку, если он изучает Российскую империю или средневековый Новгород? Разбор от специалиста по исторической информатике — специально для «Системного Блока».

В широком смысле ГИСы — программное обеспечение, а точнее, информационные системы, способные обрабатывать любую информацию из баз данных. Например, в роли таких приложений могут выступать ArcView, QGIS, MapInfo и др.

Что касается исторической науки, то здесь ГИСами называют как информационные системы, так и сам метод, благодаря которому историк может анализировать различного рода данные. Карта для историка — это набор пространственно-географических и исторических данных, где историк может комбинировать различные характеристики, добавлять иные данные. Проще говоря, у историков появилась возможность собрать значимые данные в привязке к географическому положению и проанализировать их разными способами.

Применение ГИСов для исследования частотности совершения преступлений в губерниях Российской империи

У нас были данные о количестве осужденных за все преступления в Европейской России 1896 года, взятые из обзоров отчетов губернаторов 50 губерний Европейской России. Для представления этой информации на карте нам потребовались также данные переписи населения 1897 года. С их помощью можно получить относительные числа (то есть количество осужденных на 100 000 человек), а без них графическое представление данных вышло бы искаженным.

На первом этапе мы собрали информацию об осужденных в таблицу в Excel. Далее мы привязали эти данные к используемому шаблону карты (который был предоставлен кафедрой исторической информатики МГУ им. М. В. Ломоносова) в программе MapInfo Pro 15.0. Затем по заданному запросу мы сформировали единую таблицу, которая легла в основу создаваемых карт. На последнем этапе мы сформировали сами карты, задав диапазоны и цвета объектов.

Результаты исследования

Изначально у нас была гипотеза о том, что в промышленных и урбанизированных губерниях наиболее часто совершаются преступления против собственности (это разбои, грабежи, кражи и мошенничество), а в сельских — против личности (убийства, нанесение ран и увечий).

Мы увидели, что наибольшее количество осужденных (на 100 000 человек) встречается в прибалтийских губерниях, а также в Киевской. Далее идут губернии центрального промышленного района и других.

Мы выделили три основных типа преступлений для всего региона: это преступления против личности, против собственности и против общественного благоустройства и благочиния.

Мы выяснили, что преступления против собственности характерны для территорий, где проживает больше городского населения, и для промышленных регионов Европейской России в целом, а связь преступлений против личности с сельскими регионами не наблюдается. Этот тип преступлений также связан с регионами с преобладающей долей городского населения.

Помимо карт мы использовали метод подсчета коэффициентов корреляции для числа осужденных за каждое преступление и данных из переписи. В итоге гипотеза была подтверждена лишь частично и с рядом оговорок, так как у нас были все-таки данные не о числе преступлений, а о количестве осужденных за эти преступления — а это разные вещи.

Ниже прикреплена карта относительной плотности осужденных за все преступления в 1896 г. по губерниям Европейской России (на 100 тысяч человек).

Екатерина Олейникова

По ссылке подробно и со скриншотами рассказываем о создании ГИСов, о развитии геоинформатики и о других исследованиях, с ипользованием ГИСов: https://sysblok.ru/history/kartirovanie-kriminala-i-rost-srednevekovyh-gorodov-zachem-istorikam-gisy/

6.1K viewsedited 14:45

Системный Блокъ

У вас стресс, Бэрримор!
#society #history

Сегодня нас раздражают электронная почта, поток каналов в мессенджерах и всяческий киберпанк. Викторианцев же нервировали бесконечные телеграммы, сообщения из газет и… всяческий стимпанк.

В 1869 году американский врач Джордж Миллер Берд выявил новую болезнь. Он дал ей название «неврастения» или «нервное истощение». В ее основе лежало пять элементов — символов XIX века. Ими были паровая энергетика, пресса, телеграфия, развитие науки и рост умственной и профессиональной деятельности женщин. Так появилось понятие «стресс».

Проект «Болезни современной жизни»

Вопрос о возникновении стресса был подробно рассмотрен в исследовательском проекте «Болезни современной жизни». Он финансировался Европейским советом по исследованиям и продолжался с 2014 по 2019 годы. Идея принадлежала Салли Шаттлворт, преподавательнице на факультете английского языка в колледже св. Анны в Оксфорде. В рамках проета изучались явления стресса, перегрузки и другие расстройства в XIX веке. Целью проекта было преодоление разделения психиатрической, экологической и литературной истории и исследование социокультурных явлений в совокупности.

Исследователи предлагали новые способы определения контекста проблем современности в XIX веке. Для этого они опирались на литературу, науку и медицину викторианской эпохи. Это позволило отследить распространение идей тревоги и беспокойства в различных областях. Особое внимание участники уделили роли печати: они рассматривали ее как причину обострения тревог и источник нервозности.

Причины появления стресса

Викторианская эпоха стала временем сильных потрясений и открытий. Ускорился не только технический прогресс, но и само время. Набирала силу урбанизация, строились новые железные дороги и фабрики, появлялись новые социальные классы. Пространства становились все более беспорядочными в социальном отношении. Перемены повлияли на сознание и настроение масс.

В июле 1862 года писатель и литературный критик Эдвард Бульвер-Литтон провел опрос среди британцев. Он обнаружил, что симптомы тревоги стали частью общества. «В состоянии цивилизации, в которой мы пребываем, теперь чаще жалуются из-за переутомления мозга …, нервного истощения и болезни, вызванными чрезмерным раздражением и длительной усталостью …».

По мнению Бульвера-Литтона, «высокоразвитое цивилизованное государство» с помощью прогресса оказывало сильное давление на людей. Этот механизм стал автономной силой, которую стало невозможно контролировать. В результате индустриализация и тревожность британцев создали страх перед современностью. Викторианцы столкнулись с созданной ими реальностью, что и породило стресс. Ниже на рисунке можно увидеть, как, по мнению викторианцев, выглядел этот «безумный новый мир».

О том, чего конкретно боялись британцы и как их лечили от стресса, читайте в нашей статье: https://sysblok.ru/society/u-vas-stress-bjerrimor/

4.9K viewsedited 16:50

Системный Блокъ

Сигнал в будущее: как сообщить потомкам о ядерной угрозе
#society

Около 70 лет прошло с тех пор, как человечество научилось расщеплять атом. За это время на Земле скопилось около 300 тысяч тонн высококонцентрированных радиоактивных отходов, которые будут представлять опасность в течение 100 тысяч лет. Создание прочного и надежного места для захоронения отходов — одна из важнейших инженерных задач современности. В то же время философы, семиотики и лингвисты должны разработать предупреждающий об опасности знак, который будет понятен в будущем более отдаленном, чем мы можем себе представить.

Сейчас проблема ядерных отходов решается их захоронением в геологически стабильных местах нашей планеты. По всему миру разрабатываются и возводятся такие сооружения с расчетом, что отработанное ядерное топливо и другие радиоактивные отходы смогут храниться там от 10 до 100 тысяч лет без какого-либо обслуживания. Наоборот, после того как объект консервируется, вмешательство человека оказывается куда большей проблемой, чем естественный износ или природные катаклизмы.

Экспертное заключение национальных лабораторий Сандия в США предложило три обобщенных сценария развития технологии в будущем: устойчивое развитие, устойчивый упадок и колебание между резкими научными прорывами и крахом технологий. Именно третий сценарий представляет наибольшие опасения, потому что в моменты взлета технологий люди будут иметь техническую возможность обнаружить место захоронения отходов и нарушить его целостность, в то время как периоды упадка могут прервать культурную преемственность человечества настолько, что знания об опасности ядерных отходов затеряются.

Как сделать так, чтобы наши далекие потомки не отнеслись к предупреждениям о реальной опасности так, как мы относимся к проклятиям на египетских пирамидах? В качестве возможных решений:

— атомное братство;
— меняющие цвет коты;
— искусственная луна;
— «Черная дыра»: огромный монолитный блок из черного материала, который поглощает жар пустыни и отражает его, создавая невыносимо высокую температуру вокруг себя;
— «Поле шипов», на котором в случайном порядке построены 15-метровые шипы, наводящие на мысли об опасности;
— наконец, наиболее вероятный сценарий: создание системы долговечных знаков, избыточно маркирующих местонахождение радиоактивных отходов.

Подробнее о каждом из возможных решений — в нашей статье:
https://sysblok.ru/society/signal-v-budushhee-vash-kot-soobshhaet-o-jadernoj-ugroze/

2.4K viewsedited 14:40

Системный Блокъ

Инстаграм в наследство: как быть с аккаунтами умерших в соцсетях
#society #digitalmemory

Различные варианты «смерти» и «бессмертия» в цифровой среде охватывает термин digital afterlife. Цифровизация делает память «непреходящей»: воспоминания, организованные в базы данных и алгоритмы, не дают легко расстаться с прошлым. Социальные сети постоянно напоминают нам о событиях, которые случились ровно год или несколько лет назад, подкидывают страницы знакомых, о которых мы могли забыть. Тем сложнее мысленно расстаться с умершим человеком, данные которого продолжают существовать в сети.

Цифровые призраки

Рано или поздно перед каждым пользователем интернета может встать вопрос о судьбе аккаунтов близкого человека. Очевидное и популярное решение — оставить аккаунты умершего как есть. Любые данные, которые остаются от пользователя после его смерти, исследователь Эрик Стейнхарт определяет как «цифровой призрак». Таким призраком становятся главным образом профили в соцсетях.

По подсчетам экспертов, уже в 2012 году в Facebook было около 400 тысяч «мертвых душ», к 2050 году их число достигнет 500 миллионов, а рано или поздно превысит количество живых людей. Поэтому Facebook предлагает пользователям еще при жизни «завещать» свою страницу доверенному лицу. Такому доверенному человеку не будут видны личные сообщения или посты. Он не сможет удалять старые посты, зато может размещать новые. Если человек не указал «хранителя», то его близкие, документально подтвердив родство, могут удалить страницу или присвоить ей статус памятной.

Выбор доверенного лица по примеру Facebook ввели почти все крупные платформы. Instagram предоставляет возможность создать «посмертную галерею». Google сделал целый раздел «На всякий случай», заполнив который вы решите судьбу вашего аккаунта. Японское отделение Yahoo! в сотрудничестве с ритуальным бюро «Камакура Шиншо» запустило сервис Yahoo! Ending. С его помощью можно собрать все пароли и передать их доверенному лицу.

Цифровое бессмертие

Физическая смерть не обязательно подразумевает прекращение активности аккаунтов. Еще один подход к digital afterlife — публикации от лица умершего пользователя, своего рода цифровое бессмертие. Для этого можно воспользоваться отложенными публикациями или самообучающейся нейросетью. Например, сервис MyWishes предлагает создать прощальные сообщения сразу для нескольких соцсетей.

Британское креативное агентство Lean Mean Fighting Machine в 2013 году представило концепцию «твитов с того света». Приложение LivesOn должно было анализировать построение предложений, часто повторяющиеся слова, фразы и темы, которые человек использует в Twitter, и на основе этого комбинировать новые сообщения. Но сервис так и не запустили.

Стартап румынского дизайнера eterni.me предлагает собирать и анализировать информацию из твитов, переписок, комментариев и создавать на основе этого так называемый «аватар». Если отвечать на вопросы на протяжении долгих лет, тренируя «аватар», то можно создать приближенную к реальности копию себя.

Приложение Roman Mazurenko стартапа Luka — алгоритмизированная в форме чат-бота личность конкретного человека, погибшего в ДТП в 2015 году. За основу разработчики взяли личные сообщения и фотографии Романа Мазуренко, арт-директора «Стрелки» и основателя Stampsy.

Новое понимание бессмертия

Как правило, люди представляют себе бессмертие как вечную жизнь души и физической оболочки. Однако в новом понимании бессмертие не предполагает продление жизни человека в прямом смысле. Скорее, оно подразумевает консервацию его личности для того, чтобы этим воспользовались друзья, родственники и другие заинтересованные люди. Дальнейшим развитием этой концепции может стать сканирование и цифровизация тела. Превращение личности в алгоритм — вот актуальная перспектива бессмертия.

Больше подробностей — в нашей статье: https://sysblok.ru/society/instagram-v-nasledstvo-kak-byt-s-akkauntami-umershih-v-socsetjah/

Ирина Родионова

2.4K views12:40

Системный Блокъ

География данных: какой статистикой делятся государства
#society #opendata

Во всем мире регулярно выходят рейтинги открытости статистики правительств разных стран. Международная некоммерческая организация Open Data Watch готовит один из таких рейтингов. Open Data Inventory (ODIN) Score представляет собой оценку охвата и открытости официальной статистики в 178 странах мира. Оценивается наличие статистических показателей в 21 категории социальной, экономической и экологической статистики. Мы попытались разобраться, какой информацией страны делятся охотнее всего.

Сингапур: открытая экономика

В рейтинге ODIN Score 2018/2019 первое место занял Сингапур. За год он смог подняться с 20 строчки рейтинга и потеснить европейские страны. Это удалось благодаря увеличению охвата и открытости по всем категориям. Особенно сильно возросло количество данных по земельным и энергетическим ресурсам, которыми ранее это островное государство не делилось.

Стало больше и показателей экономической статистики, что вывело Сингапур на первое место по охвату данных в экономике, банковской сфере и балансовых платежах правительства. Сингапуру выгодно делиться информацией о своей экономической сфере, которая является одной из самых передовых в мире: таким образом город-государство привлекает новых инвесторов и партнеров.

Кроме того, эта страна также занимает первое место по гендерной статистике и статистике рождаемости. Во всех представленных показателях данные Сингапура на 100% открыты.

Дания и Норвегия: социальная статистика и зарплаты

Дания занимает второе место в общем рейтинге и первое место по охвату данных в социальной статистике и информации о ресурсах и законах. Норвегия заняла по этому показателю 9 место, хотя в 2016 году делила второе место с Данией.

За последние годы в Норвегии упала открытость данных статистического ведомства, налоговой службы и других ведомств. На протяжении 200 лет Норвегия публиковала в открытом доступе данные о заработке своих граждан. Сначала это были ежегодные сборники, затем информация в сети стала доступна любым желающим на сайте налоговой службы.

Однако с 2014 года вход в систему стал возможен только через национальный идентификационный номер. Также каждый житель видит, кто искал информацию на него. Это убавило количество желающих посмотреть информацию о том, сколько получает знакомый или сосед, но по-прежнему позволяет общественности и СМИ контролировать уровень доходов местных чиновников.

Нидерланды и Польша: окружающая среда и земельные ресурсы

Охотнее всего информацией об окружающей среде делятся Нидерланды и Польша. Эти две страны делят первое место по охвату данных в этой категории в рейтинге ODIN score за 2018 год.

Например, на сайте статистического ведомства Нидерландов выложена статистика по типу земель, начиная с 1900 года. В отдельном датасете представлены все современные земельные участки Нидерландов по типу использования — сельскохозяйственные угодья, леса, водные территории и т. д.

Россия: данные о ценах на товары и услуги

Россия занимает 47 место в общем рейтинге за 2018 год. Однако по такому показателю, как Индекс потребительских цен, находится на первом месте.

Росстат регулярно публикует данные о ценах на товары и услуги на региональных и федеральном уровне. Общественность пристально следит за этими показателями, выходит много публикаций в СМИ, составляются различные рейтинги, например, рейтинг оливье или рейтинг окрошки. На основе показателя индекса цен рассчитывается уровень инфляции в стране.

Одной из главных проблем России является недостаток данных в машиночитаемых форматах для их последующей обработки активистами и журналистами. У данных сложная структура, не хватает визуализаций, которые помогали бы жителям в оперативном режиме следить за изменениями в показателях.

https://sysblok.ru/society/geografija-dannyh-kakoj-statistikoj-gosudarstva-deljatsja-ohotnee-vsego/

Павел Лебедев

2.0K views14:15

Системный Блокъ

Мифы о защите персональных данных: как не надо прятаться от Большого Брата
#society #opendata

Разбираемся, какие способы защиты личной информации не помогут избавиться от цифровых следов в интернете.

Миф 1. Если я создам фейковый аккаунт, никто не поймет, кому он принадлежит

Что будет, если оставить основной аккаунт для общения с коллегами, а с фейкового лайкать свои же фотографии? От коллег скрыться можно, а от компаний, собирающих данные, — нет: они установят связь дубликата и основной страницы, даже если имена на них не совпадают.

Для этого они проанализируют поведение пользователя: IP-адрес, с которого он заходит; посещаемые страницы; лайки в сообществах; списки друзей; геолокацию и др. Все это вместе дает довольно надежную идентификацию. Даже «пустая» страница без информации, фотографий и подписок на сообщества может многое сообщить о ее владельце, если он активно ей пользуется.

Миф 2. Если я удалю свой аккаунт, я сотру свои данные из интернета

Соцсети хранят данные об удаленном аккаунте длительное время — на случай восстановления страницы. Их можно сопоставить с данными о фейке, если он есть, или с новосозданной страницей, где нет компрометирующих мемов 2010 года.

Известен случай долгого судебного дела, когда пользователь из Твери несколько месяцев пытался заставить ВКонтакте стереть все данные о нем с сайта.

Миф 3. Если я отмечу фальшивую геолокацию, никто не узнает, где я был на самом деле

В 2019 году сотрудницы BuzzFeed провели эксперимент: целую неделю они постили в Instagram фотографии и сториз из своей поездки в Лондон. На самом деле никакой поездки не было, а все фотографии были сделаны в Америке, но большинство подписчиков девушек поверили в этот отпуск.

Метод с фальшивыми геолокациями подойдет, чтобы подшутить над друзьями. Но если цель — не пошутить, а скрыться, метод вряд ли сработает: нейросети уже умеют узнавать даже не самые очевидные места по заднему плану на фотографиях.

Миф 4. Если я выхожу в сеть через браузер Tor, никто не узнает мои личные данные и IP-адрес

Использование браузера Tor — один из наиболее надежных способов защитить персональные данные. В основе работы Tor технология луковой, или луковичной, маршрутизации, поэтому Tor расшифровывается как The Onion Routing.

Технология работает так: информация выходит из одного источника — например, компьютера, — и не сразу достигает конечной цели, а проходит несколько узлов — других компьютеров, — которые удаляют предыдущий слой шифрования и зашифровывают информацию по-новому.

Чаще всего первоначальный источник трафика не выявить. Но если пользователь не использует зашифрованный протокол — HTTPS, SSH или TLS — и источник содержит идентифицирующую информацию, точку выхода из сети можно отследить.

При использовании Tor стоит позаботиться о том, чтобы каждый раз использовать новый ник и не допускать ошибку Росса Ульбрихта. Ульбрихт — основатель Silk Road, анонимной торговой площадки, где продавались наркотики и психоактивные вещества. В 2013 году его нашла полиция, когда во время поиска IT-профессионалов в свою команду он указал личную электронную почту, названную его именем и фамилией.

Не миф: технологии анонимизации и шифрования

Чтобы надежно защитить данные, можно использовать специально разработанные технологии анонимизации и шифрования. К ним относятся:

• упомянутые выше безопасные протоколы обмена информацией по сети — HTTPS и SSH;
• виртуальные частные сети — VPN;
• асинхронное шифрование при передаче сообщений по сети — алгоритм RSA, который используется в популярной системе шифрования PGP;
• всевозможные анонимизирующие прокси-серверы.

Но и эти инструменты помогут, только если применять их в правильной комбинации и с умом.

https://sysblok.ru/society/mify-o-zashhite-personalnyh-dannyh-kak-ne-nado-prjatatsja-ot-bolshogo-brata/

Анна Купина

2.6K views13:00

Системный Блокъ

Автор или авторка: влияет ли пол автора на восприятие произведения
#society #arts

Корнелия Кулен, автор книги «Reading beyond the female: The relationship between perception of author gender and literary quality», исследует, как связана оценка литературного произведения с полом автора.

В своей книге Кулен фокусируется на оценке произведения читателями в зависимости от пола автора и реальных достоинств и недостатков текста. Она приводит данные The Riddle of Literary Quality, исследовательского проекта института истории Нидерландов и Амстердамского университета. Его цель — определить, какие факторы влияют на представление о тексте и его значимости и ценности.

Что спрашивали у читателей

В рамках проекта был проведен опрос читателей: их просили оценить роман по 7-балльной шкале и оставить краткий отзыв на одну из тех книг, которые они оценивали. В эксперименте участвовали 9791 женщина, 3897 мужчин и 96 людей, которые не раскрыли свой пол. Кулен провела регрессионный анализ результатов эксперимента. Ее интересовало, насколько точно независимые переменные — жанр, пол автора и факт перевода (переводная книга или нет) — позволяют прогнозировать зависимую, а именно рейтинг.

С помощью алгоритма множественной линейной регрессии удалось установить, что пол автора является значимым признаком: книги, написанные женщинами, получали более низкие оценки как за их литературные достоинства, так и за общее качество. Если же автором был мужчина, то рейтинг произведения увеличивался сразу на половину пункта. Также, женщины оценивают книги, написанные мужчинами выше, чем те, которые написаны женщиной, и наоборот.

Кулен задается вопросом, можно ли с помощью инструментов автоматической обработки естественного языка выявить объективную взаимосвязь пола автора и созданного им литературного произведения. Для этого был проведен ряд экспериментов.

Эксперимент 1. Бестселлеры и номинанты на премию: что волнует персонажей книг

В этом эксперименте тексты исследовали с помощью инструмента LIWC, Linguistic Inquiry and Word Count (лингвистическое исследование и подсчет слов). LIWC позволяет посчитать частоты слов из заданных списков слов (категорий) и относительную частоту этих слов для конкретного текста. Выбрали категории разных порядков: психологические, лингвистические или личные интересы.

Взяли два набора данных: корпус проекта The Riddle и корпус Nominees — номинантов на премию для нидерландских и бельгийских писателей AKO Literatuurprijs, сбалансированный по количеству мужчин и женщин (24 женщины, 25 мужчин и 1 трансгендерный мужчина).

Эксперимент 2. Машина вычисляет гендер автора

В этом эксперименте корпуса анализировали с помощью методов машинного обучения. Тексты исследуемых корпусов нужно было отнести к одному из двух классов: произведения, написанные автором-мужчиной, и тексты, написанные автором-женщиной.

За основу взяли идею обучения модели классификации с помощью метода опорных векторов на мешке слов (Bag-of-words, BOW) из 60% наиболее распространенных лемм в корпусе. Также была опробована модель на символьных триграмах — Char3grams. Обучение проводилось на корпусе the Riddle, а оценка модели проводилась сразу на двух корпусах: the Riddle и Nominees.

Эксперимент 3. Мужские и женские темы в литературе.

В этом эксперименте на основе корпуса the Riddle провели тематическое моделирование. Для этого из лемматизированного корпуса удалили служебные слова и пунктуацию и поделили его на фрагменты в 1000 токенов. Далее с помощью латентного распределения Дирихле (LDA, мы рассказываем об этом тут) были получены 50 тем и их весá в зависимости от пола автора.

О результатах экспериментов — со скриншотами, таблицами и графиками — читайте в нашей статье: https://sysblok.ru/society/avtor-ili-avtorka-vlijaet-li-pol-avtora-na-vosprijatie-proizvedenija/

Маруся Захарова, Мария Черных, Екатерина Смирнова

2.1K views16:10

Системный Блокъ

Что такое VPN и зачем его использовать
#society

VPN, или виртуальную частную сеть, сравнивают с плащом-невидимкой, туннелем или машиной с тонированными стеклами. Все эти метафоры указывают на одно: технология может что-то от кого-то скрыть.

Действительно, VPN — это закодированное безопасное соединение между пользователем и сетью, или между сетями. Система скрывает личные данные пользователя от остального Интернета и позволяет сохранить конфиденциальность действий.

VPN не заменяет интернет-подключение, а работает «поверх» него. Сначала интернет-трафик шифруется, затем направляется провайдеру, после чего пересылается на VPN-сервер. Этот сервер расшифровывает трафик и отправляет условному получателю (например, веб-сайту) уже дешифрованные данные. Это позволяет скрывать не только запросы пользователя, но и данные о его местоположении. Грубо говоря, технология скрывает IP от сайтов, а сайты от провайдера.

Когда VPN будет полезен

Когда нужно обеспечить защиту личных данных в Интернете при подключении к общедоступной сети WI-FI. Так, злоумышленники не смогут отследить посещаемые веб-адреса, перехватить реквизиты карт или другую приватную информацию.

Но сейчас эта функция постепенно себя изживает. Сегодня наши данные шифрует не только VPN, но и каждый сайт в браузере, который использует протокол https и помечен замком, каждое приложение iOS с 2016 и Android с 2018 года.

Когда нужно открыть доступ к заблокированным на определенной территории ресурсам. Это могут быть социальные сети, различные сайты или нежелательный контент. Например, через VPN вы сможете попасть из России на сайт заблокированной Роскомнадзором соцсети LinkedIn.

Виртуальную частную сеть активно используют финансовые компании, которым важно сохранить персональные данные клиентов. Банковские филиалы, например, предпочитают обмениваться зашифрованной информацией. Сейчас удаленный тип работы практикуют повсеместно, поэтому к корпоративным серверам подключаются через VPN, чтобы рабочие данные не попали к провайдеру.

Недостатки VPN

Не смотря на преимущества технологии, у нее есть и свои недостатки:

• Снижение скорости работы устройства из-за более долгого и сложного пути, который приходится преодолевать данным.

• Сложность в поиске надежного VPN-провайдера. Единого стандарта качества обслуживания у этих программ пока нет, поэтому приходится полагаться на отзывы других пользователей и метод «проб и ошибок».

• Все еще не полная конфиденциальность, так как файлы cookie могут вас распознать (но их можно отключить).

• Провайдер понимает, что от него что-то скрывают, так как видит проходящий через него VPN трафик. Выглядит это примерно так же, как когда кто-то пытается не привлекать внимания, насвистывая в неестественной позе. Так что если прятаться с умом, часть трафика, в котором нет ничего сверхсекретного (поиск рецепта в гугле), лучше оставлять без VPN.

• VPN-провайдеры знают ваш реальный IP и могут запросто его раскрыть (снова к вопросу о поиске надежного VPN-провайдера).

Насколько использование VPN законно

В каждой стране к VPN относятся по-разному. В России, например, есть закон «о запрете анонимайзеров и VPN» от 2017 года. Закон препятствует использованию технологии не полностью. Он не позволяет предоставлять услуги для доступа к запрещенным на территории России ресурсам. Если сервисы VPN игнорируют требования российского законодательства, их могут заблокировать.

Важно, что закон касается именно сервисов — пользователям по российским законам пока ничего не грозит.

https://sysblok.ru/society/tri-volshebnye-bukvy-chto-takoe-vpn-i-zachem-ego-ispolzovat/

Эвелина Григорьян

2.3K views13:15

About

Blog

Apps

Platform