Scaling Uber’s Apache Hadoop Distributed File System for Growth
Post on how #Uber team handles #Hadoop challenges.
https://eng.uber.com/scaling-hdfs/
#BigData #HDFS
🔗 Scaling Uber’s Hadoop Distributed File System for Growth
Uber's Data Infrastructure team overhauled our approach to scaling our storage infrastructure by incorporating several new features and functionalities, including ViewFs, NameNode garbage collection tuning, and an HDFS load management service.
Post on how #Uber team handles #Hadoop challenges.
https://eng.uber.com/scaling-hdfs/
#BigData #HDFS
🔗 Scaling Uber’s Hadoop Distributed File System for Growth
Uber's Data Infrastructure team overhauled our approach to scaling our storage infrastructure by incorporating several new features and functionalities, including ViewFs, NameNode garbage collection tuning, and an HDFS load management service.
Uber Engineering Blog
Scaling Uber’s Apache Hadoop Distributed File System for Growth
Uber's Data Infrastructure team overhauled our approach to scaling our storage infrastructure by incorporating several new features and functionalities, including ViewFs, NameNode garbage collection tuning, and an HDFS load management service.
Как геокодировать миллион точек на Spark по-быстрому?
#BigData,
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом такой-то», либо например «Большой театр».
Если на входе адрес или название, а на выходе координаты, то эта операция — прямое геокодирование, об этом мы, надеюсь, поговорим позже.
В качестве исходных данных у нас на входе было примерно 100 или 200 тысяч точек, которые лежали в кластере Hadoop в виде таблицы Hive. Это чтобы был понятен масштаб задачи.
В качестве инструмента обработки в конце концов был выбран Spark, хотя в процессе мы попробовали как MapReduce, так и Apache Crunch. Но это отдельная история, возможно заслуживающая своего поста.
🔗 Как геокодировать миллион точек на Spark по-быстрому?
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это про...
#BigData,
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это процедура, которая паре широта-долгота ставит в соответствие адрес или название объекта на карте, к которому принадлежит или близка заданная координатами точка. То есть, берем координаты, скажем такие: @55.7602485,37.6170409, и получаем результат либо «Россия, Центральный федеральный округ, Москва, Театральная площадь, дом такой-то», либо например «Большой театр».
Если на входе адрес или название, а на выходе координаты, то эта операция — прямое геокодирование, об этом мы, надеюсь, поговорим позже.
В качестве исходных данных у нас на входе было примерно 100 или 200 тысяч точек, которые лежали в кластере Hadoop в виде таблицы Hive. Это чтобы был понятен масштаб задачи.
В качестве инструмента обработки в конце концов был выбран Spark, хотя в процессе мы попробовали как MapReduce, так и Apache Crunch. Но это отдельная история, возможно заслуживающая своего поста.
🔗 Как геокодировать миллион точек на Spark по-быстрому?
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это про...
Хабр
Как геокодировать миллион точек на Spark по-быстрому?
В моем предыдущем проекте перед нами встала задача провести обратное геокодирование для множества пар географических координат. Обратное геокодирование — это про...
Для чего нам в СИБУРе продвинутая аналитика
Наш телеграм канал - https://tele.click/ai_machinelearning_big_data
#Машинноеобучение
Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий раз. Что бы вы ни делали, от небольших мобильных приложений до громоздких информационных систем, у ошибки всегда есть цена, и чем более критична отрасль, в которой используется ваш продукт, тем выше цена этой ошибки. Поэтому идеальной видится ситуация, когда вы работаете на опережение, а именно — пытаетесь предсказать возникновение проблемы до ее фактического наступления.
https://habr.com/ru/company/sibur_official/blog/442910/
#BigData,
#Python,
🔗 Для чего нам в СИБУРе продвинутая аналитика
Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий...
Наш телеграм канал - https://tele.click/ai_machinelearning_big_data
#Машинноеобучение
Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий раз. Что бы вы ни делали, от небольших мобильных приложений до громоздких информационных систем, у ошибки всегда есть цена, и чем более критична отрасль, в которой используется ваш продукт, тем выше цена этой ошибки. Поэтому идеальной видится ситуация, когда вы работаете на опережение, а именно — пытаетесь предсказать возникновение проблемы до ее фактического наступления.
https://habr.com/ru/company/sibur_official/blog/442910/
#BigData,
#Python,
🔗 Для чего нам в СИБУРе продвинутая аналитика
Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий...
Хабр
Для чего нам в СИБУРе продвинутая аналитика
Когда у вас возникает какая-то проблема, вы начинаете искать способы ее решения, параллельно думая, как бы снова не пройтись по этим же самым граблям в следующий раз. Что бы вы ни делали, от...
Встала задача перейти в облако? 7 советов, как не накосячить
Компании по всей планете переходят в облака — настоящий «техтонический» сдвиг. Изменения происходят не только из потребности использовать в облаках софт, но и благодаря тому, что компании переосмысливают свои корпоративные стратегии, размещение своих внутренних данных и контента, политику конфиденциальности, системы, безопасность и даже культуру. Исследовательская компания Gartner, основываясь на данных рынка, оценивает затраты на переход в облака в IT сфере в 1,3 трлн. долларов к 2020-му году. Большая часть этих расходов ведёт к достижению целей компаний по улучшению эффективности, увеличению денежного потока и общей экономии.
Наш телеграм канал - https://tele.click/ai_machinelearning_big_data
#bigdata
https://habr.com/ru/company/cloud4y/blog/443472/
Компании по всей планете переходят в облака — настоящий «техтонический» сдвиг. Изменения происходят не только из потребности использовать в облаках софт, но и благодаря тому, что компании переосмысливают свои корпоративные стратегии, размещение своих внутренних данных и контента, политику конфиденциальности, системы, безопасность и даже культуру. Исследовательская компания Gartner, основываясь на данных рынка, оценивает затраты на переход в облака в IT сфере в 1,3 трлн. долларов к 2020-му году. Большая часть этих расходов ведёт к достижению целей компаний по улучшению эффективности, увеличению денежного потока и общей экономии.
Наш телеграм канал - https://tele.click/ai_machinelearning_big_data
#bigdata
https://habr.com/ru/company/cloud4y/blog/443472/
Хабр
Встала задача перейти в облако? 7 советов, как не накосячить
Компании по всей планете переходят в облака — настоящий «техтонический» сдвиг. Изменения происходят не только из потребности использовать в облаках софт, но и благодаря тому, что компании...
Дайджест статей машинного обучения и искусственного интеллекта
Программирование,
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта. Всем приятного чтения!
1. Проекты искусственного интеллекта, с которыми можно поиграться уже сегодня. Что вы знаете про искусственный интеллект и машинное обучение? Современный тренд или потенциально мощная сила, способная убивать людей? Эти модные понятия всё чаще на слуху, но далеко не все знают, что же это на самом деле. Пришло время изучить эти технологии с помощью простого и интересного подхода — попробовать искусственный интеллект и нейросети самостоятельно на практике.
#DataMining,
#BigData
#Машинноеобучение
#Искусственныйинтеллект
https://habr.com/ru/post/458804/
🔗 Дайджест статей машинного обучения и искусственного интеллекта
Хабр, привет. Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного о...
Программирование,
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта. Всем приятного чтения!
1. Проекты искусственного интеллекта, с которыми можно поиграться уже сегодня. Что вы знаете про искусственный интеллект и машинное обучение? Современный тренд или потенциально мощная сила, способная убивать людей? Эти модные понятия всё чаще на слуху, но далеко не все знают, что же это на самом деле. Пришло время изучить эти технологии с помощью простого и интересного подхода — попробовать искусственный интеллект и нейросети самостоятельно на практике.
#DataMining,
#BigData
#Машинноеобучение
#Искусственныйинтеллект
https://habr.com/ru/post/458804/
🔗 Дайджест статей машинного обучения и искусственного интеллекта
Хабр, привет. Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного о...
Хабр
Дайджест статей машинного обучения и искусственного интеллекта
Хабр, привет. Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта....
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных
#BigData
Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).
https://habr.com/ru/post/459052/
🔗 Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных
Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которы...
#BigData
Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).
https://habr.com/ru/post/459052/
🔗 Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных
Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которы...
Хабр
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных
Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которы...
Как выглядят банки изнутри
#DataMining #BigData
Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.
В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
https://habr.com/ru/post/460687/
🔗 Как выглядят банки изнутри
Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией. В качестве источника данных...
#DataMining #BigData
Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.
В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
https://habr.com/ru/post/460687/
🔗 Как выглядят банки изнутри
Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией. В качестве источника данных...
Хабр
Как выглядят банки изнутри
Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией. В качестве источника данных...
Подборка рабочих примеров обработки данных
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.
Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.
+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.
image
Итак, давайте приступим.
Подборка датасетов с рабочими примерами обработки данных:
Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.
#Python #DataMining #BigData
#Машинноеобучение
https://habr.com/ru/post/460557/
🔗 Подборка рабочих примеров обработки данных
Привет, читатель. По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами п...
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.
Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.
+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.
image
Итак, давайте приступим.
Подборка датасетов с рабочими примерами обработки данных:
Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.
#Python #DataMining #BigData
#Машинноеобучение
https://habr.com/ru/post/460557/
🔗 Подборка рабочих примеров обработки данных
Привет, читатель. По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами п...
Хабр
Подборка рабочих примеров обработки данных
Привет, читатель. По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не...
Ограничения машинного обучения
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
Большинство людей, читающих эту статью, вероятно, знакомы с машинным обучением и соответствующими алгоритмами, используемыми для классификации или прогнозирования результатов на основе данных. Тем не менее, важно понимать, что машинное обучение не является решением всех проблем. Учитывая полезность машинного обучения, может быть трудно согласиться с тем, что иногда это не лучшее решение проблемы.
#BigData
#Машинноеобучениe
#Искусственныйинтеллект
https://habr.com/ru/post/462365/
🔗 Ограничения машинного обучения
Привет, Хабр! Представляю вашему вниманию перевод статьи “The Limitations of Machine Learning“ автора Matthew Stewart. Большинство людей, читающих эту статью, в...
Наш телеграм канал - tglink.me/ai_machinelearning_big_data
Большинство людей, читающих эту статью, вероятно, знакомы с машинным обучением и соответствующими алгоритмами, используемыми для классификации или прогнозирования результатов на основе данных. Тем не менее, важно понимать, что машинное обучение не является решением всех проблем. Учитывая полезность машинного обучения, может быть трудно согласиться с тем, что иногда это не лучшее решение проблемы.
#BigData
#Машинноеобучениe
#Искусственныйинтеллект
https://habr.com/ru/post/462365/
🔗 Ограничения машинного обучения
Привет, Хабр! Представляю вашему вниманию перевод статьи “The Limitations of Machine Learning“ автора Matthew Stewart. Большинство людей, читающих эту статью, в...
Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам
#BigData
Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навыками проведения параллельных вычислений, да и задача должна быть приведена к разделяемому на части виду, если таковой существует. Но при грамотном подходе можно весьма ускорить решение задачи однопоточным R, если у вас под руками есть хотя бы многоядерный процессор (а он есть сейчас почти у всех), с поправкой на теоретическую границу ускорения, определяемую законом Амдала. Однако, в ряде случаев даже его можно обойти.
https://habr.com/ru/post/462469/
🔗 Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам
Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навы...
#BigData
Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навыками проведения параллельных вычислений, да и задача должна быть приведена к разделяемому на части виду, если таковой существует. Но при грамотном подходе можно весьма ускорить решение задачи однопоточным R, если у вас под руками есть хотя бы многоядерный процессор (а он есть сейчас почти у всех), с поправкой на теоретическую границу ускорения, определяемую законом Амдала. Однако, в ряде случаев даже его можно обойти.
https://habr.com/ru/post/462469/
🔗 Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам
Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навы...
Хабр
Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам
Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навы...
PVS-Studio в гостях у Apache Hive
#BigData
Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста количественных показателей, но происходит и изменение его качественного позиционирования на IT-рынке в целом. Не сидя сложа руки, бравая команда PVS-Studio активно способствует закреплению позиций open source проектов, находя затаившиеся баги в огромных толщах кодовых баз и предлагая для таких проектов бесплатные лицензии. Эта статья не исключение! Сегодня речь пойдет об Apache Hive! Отчет получен — есть на что посмотреть!
https://habr.com/ru/company/pvs-studio/blog/463759/
🔗 PVS-Studio в гостях у Apache Hive
Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не толь...
#BigData
Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста количественных показателей, но происходит и изменение его качественного позиционирования на IT-рынке в целом. Не сидя сложа руки, бравая команда PVS-Studio активно способствует закреплению позиций open source проектов, находя затаившиеся баги в огромных толщах кодовых баз и предлагая для таких проектов бесплатные лицензии. Эта статья не исключение! Сегодня речь пойдет об Apache Hive! Отчет получен — есть на что посмотреть!
https://habr.com/ru/company/pvs-studio/blog/463759/
🔗 PVS-Studio в гостях у Apache Hive
Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не толь...
Хабр
PVS-Studio в гостях у Apache Hive
Последние десять лет движение open source является одним из ключевых факторов развития IT-отрасли и важной ее составной частью. Роль и место open source не только усиливается в виде роста...