В Wired статья [1] о Search Atlas [2] исследовании и инструменте сравнения поисковой выдачи Google по множеству стран. Исследователи поискали по слову "бог" для разных стран и на разных языках и задокументировали разницу в выдаче. А журналисты Wired проверили ещё несколько тем. Вкратце - Google выдаёт разные результаты исходя из культурных предположений о жителях страны. Search Atlas пока работает в режиме private beta, но возможно авторы скоро откроют его для широкой публики.
Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/
#privacy #search
Ссылки:
[1] https://www.wired.com/story/tool-shows-google-results-vary-world/
[2] https://searchatlas.org/
#privacy #search
Рынок поисковых систем настолько сложился и настолько кажется поделенным занятым одним игроком - Google и лишь очень редко чуть-чуть Bing, Яндекс и Baidu, что может может показаться что ничего нового в этой области уже не покажется.
А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.
С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.
Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].
И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.
Потеснят ли они Google? Будет интересно на это посмотреть
Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com
#privacy #search
А стартапы в области поиска есть и они постепенно набирают популярность. Так поисковик You, обещающий применение ИИ к поиску [1], привлек 20 миллионов инвестиций в этом году. За You стоит команда создававшая AI стартап MetaMind и теперь пришедшая к созданию поисковика.
С поддержкой русскоязычного контента там пока не очень, но сам подход к анализу запроса и визуализации результатов поиска весьма любопытен.
Плюс, обещания быть очень приватным поисковиком ставит его на одну сторону с DuckDuckGo [3].
И тут можно упомянуть ещё и Neeva [4], платный поиск без рекламы. Тоже с обещаниями приватности.
Потеснят ли они Google? Будет интересно на это посмотреть
Ссылки:
[1] https://www.you.com
[2] https://bit.ly/30klwbO
[3] https://duckduckgo.com
[4] https://neeva.com
#privacy #search
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.
У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].
Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html
#opensource #startups #search #data
У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].
Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html
#opensource #startups #search #data
GitHub
GitHub - meilisearch/meilisearch: A lightning-fast search engine API bringing AI-powered hybrid search to your sites and applications.
A lightning-fast search engine API bringing AI-powered hybrid search to your sites and applications. - meilisearch/meilisearch
В рубрике интересных инструментов с открытым кодом txtai [1], движок для семантического поиска по данным с использованием ИИ. ИИ, там, конечно нет, но есть много машинного обучения и, в принципе, интересный подход к индексированию данных и их поиску. На его основе много чего интересного сделано, например, tldrstory [2] пример с открытым кодом по пониманию заголовков и текстов новостей, а для разработчиков хороший пример code question [3] для получения ответов на поисковые запросы прямо в терминале.
У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.
Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.
Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai
#data #opensource #datatools #search
У того же автора интересный продукт paperai [4] для ревью научных статей. Поисковый движок настраивается через YAML файлы, на основе которых создаются отчеты.
Интересный сам движок и подход в целом, его было бы интересно проверить на интересных больших данных на других языках.
Ссылки:
[1] https://github.com/neuml/txtai
[2] https://github.com/neuml/tldrstory
[3] https://github.com/neuml/codequestion
[4] https://github.com/neuml/paperai
#data #opensource #datatools #search
GitHub
GitHub - neuml/txtai: 💡 All-in-one open-source AI framework for semantic search, LLM orchestration and language model workflows
💡 All-in-one open-source AI framework for semantic search, LLM orchestration and language model workflows - neuml/txtai
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Medium
Dataset search engines as global data discovery tools
Search engines have a long history, you could easily find text, web pages, images, video, news, and some other content using global search…
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].
Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.
Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).
Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.
Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data
#opendata #datasets #search #research
Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.
Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).
Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.
Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data
#opendata #datasets #search #research
schema.org
Dataset - Schema.org Type
Schema.org Type: Dataset - A body of structured information describing some topic(s) of interest.
Статья How China uses search engines to spread propaganda [1] и отчет Brookings Institution [2] о том как китайские власти манипулируют поисковой выдачей по теме Синцзяня и COVID-19.
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Россию там тоже упоминают в контексте того что Google демонетизировал российские гос-СМИ.
Но важнее что авторы пишут о том что поисковые системы уже начали размечать контент от госСМИ Китая и не только и то что исследователи рекомендуют поисковым системам (технологическим кампаниями их создающим) поменять правила ранжирования и деприоритизировать "низкокачественный государственный контент".
Поэтому неприятная новость в том что "демократическая цензура" поисковых систем весьма вероятна и обсуждается․ Сейчас в контексте Китая, далее может и в контексте России.
Политический нейтралитет для big tech скоро станет уже абсолютно невозможен.
Ссылки:
[1] https://www.brookings.edu/techstream/how-china-uses-search-engines-to-spread-propaganda/
[2] https://www.brookings.edu/research/winning-the-web-how-beijing-exploits-search-results-to-shape-views-of-xinjiang-and-covid-19/
#search #censorship #china #russia #usa #microsoft #google
Brookings
How China uses search engines to spread propaganda
Beijing has exploited search engine results to disseminate state-backed media that amplify the Chinese Communist Party’s propaganda. As we demonstrate in our recent report, users turning to search …