Выше среднего – Telegram

Выше среднего

@step_above_average

61 subscribers

53 photos

1 video

46 links

Выбираюсь из ямы среднего результата. Пишу об управлении, бизнесе, людях и технологиях.

About

Blog

Apps

Platform

Выше среднего

Выше среднего

Открытый регулировщик

Я люблю всякого рода рейтинги и топы. Они дают представление чего там происходит вообще в индустрии.
Не только же в твиторе слушать всяких проходимцев, нужно же смотреть и на объективные данные все-таки.

Принес вам суперинтересный топ, посмотреть чего люди делают:

https://openrouter.ai/

Кто знает, тот знает, а кто не знает, то это такое универсальное апи по которому можно разговаривать с любой LLM.
На главной странице они публикуют список приложений которые им пользуются, вместе с количеством токенов.
Первые -- это Cline и его клон. Суммарно за 30MM токенов. Куча романтического ролеплея на пару миллиардов токенов. Aider с 300М токенов. Пара чатов типа sillitavern и chubAI. Непонятный FractionAI. Есть даже AI Framework for Skyrim.

А еще можно пойти в Rankings и посмотреть какие модели нынче популярны. И на каких апах. А еще можно найти бесплатных токенов.

В общем 7 палочек регулировщика из 7

❤1

190 views20:14

Выше среднего

Claude 3.7

Я так понимаю, что эхо DeepSeek R1 все еще аукается, и компании решают по-бырому запилить thinking вместо того, чтобы зарелизить основные модели, которыми они занимаются все последнее время.

Тем не менее, с Claude это не (совсем) так. Это модель и линейная и рассуждающая. Поддерживающая все что поддерживала до этого и не поддерживающая Structured Output.

Но лично меня это волнует слабо, потому что мы ее для этого не используем. А используем мы ее в программировании. Я ее использовал в паре с R1, потому что на Polyglot бенчмарке это была SOTA (https://aider.chat/docs/leaderboards/)

Теперь топ возглавляет Claude 3.7 единолично, со стоимостью в 3 раза выше чем у 2-го места.

Я погонял пару миллионов токенов с Claude 3.7 и могу сказать, что моделька однозначно сильнее, и, что важно, быстрее.
Осторожно говорю, что это первый релиз в этом году, который действительно порадовал.

P.S. В Claude Code ожидаемо перегруз, жду

❤1

274 views23:09

Выше среднего

GPT-4.5

В доме, как пел классик, суета. Зарелизили GPT-4.5. Предсказуемо нагнали тучу графиков из которых стало понятно, что бенчмарки есть только на галлюцинации. Зато модель является SOTA по стоимости с рекордными 75$ за 1M input tokens.

Первые независимые тесты показывают, что все плохо. В рейтинге программирования Polyglot (https://aider.chat/docs/leaderboards/) модель уверенно вошла в ТОП10, пропустив вперед даже DeepSeek V3. И заняла второе место по стоимости.

Я думаю, что так выглядит стена. Для того, чтобы улучшить метрики на пару процентных пунктов приходится строить гигантские датацентры в пустыне и греть океан. Понятно, что GPT-4.5 не рассуждающая, что рассуждающая скорее всего побьет все известные бенчмарки на пару процентных пунктов, но стоимость вырастет экспоненциально.

Я пока не вижу как это может пригодиться хозяйке в быту. Ждем следующих релизов от команды DeepSeek (или другой), чтобы встряхнуть этот рынок.

357 views21:35

Выше среднего

Обогащение контекста

Если вам, как и мне, не безразличны справедливость и процветание человечества, то вы, как и я, порадуетесь за то, что создателям Реинфорсмент Леарнинга ака обучение с подкреплением, дали ~~Нобелевку по физике~~ премию Тьюринга (https://awards.acm.org/about/2024-turing). Тот самый Reinforcement Learning, который развернули в полную мощь парни из Китайского ~~Коммунистического~~ Хэдж Фонда DeepSeek и пошатали им американский фондовый рынок.

Мы живем в удивительное время, что ни говори. А в удивительное время, когда непонятно как жить дальше, иногда полезно заняться обогащением контекста. Мы ж не Иран, можем обогащать сколько влезет.
Что же это такое? Это добавление информации вместе со ссылками на источники прямо в промт ЛЛМке, чтобы она меньше придумывала и больше опиралась на эти самые источники и факты. Ну или чтобы покреативнее была, сами понимаете. Ну такие факты, которые общеизвестны, ну или которые можно загуглить.

Как в том абзаце наверху про премию Тьюринга, можно было бы вставить ссылку (https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf) на знаменитую книжку, которую написали авторы, а я, к сожалению, читал только в переводах и пересказах.

При всей кажущейся простоте и тривиальности задачи, она не проста и не тривиальна. Просто поискать в гугле совсем не просто, если на хоть каком-то объеме.

Я нашел несколько простых решений, которые подойдут пролетариату, а именно:
1️⃣ Perplexity (perplexity.ai) -- имеет несколько своих моделей и при запросе обращается к своим индексам, реально не ищет. Скорость ответа высокая. Может в ризонинг. Стоит по нынешним меркам недорого. Все про них знают кароч
2️⃣ OpenPerplex (https://openperplex.com/) -- молодой игрок. Ценник конский, но SDK удобный. Судя по всему они в реалтайме собирают запросы с поисковиков. В дискорде всего 113 человек
3️⃣ Tavily (https://tavily.com/) -- ищет по многим источникам. Даже неочевидным, таким как instagram и linkedin. Ценник конский. Но для некоторых проектов может подойти.
4️⃣ Gemini (https://ai.google.dev/gemini-api/docs/grounding?lang=python) -- может тоже искать по гуглу. Ценник конский.
5️⃣ Custom Google Search Engine (https://programmablesearchengine.google.com/about/) -- ну в общем вы можете сделать свой гугл и ходить за информацией туда. Или свой Бинг. Хотя не знаю зачем это вам.
6️⃣ GPT Researcher (https://gptr.dev/) -- то же самое что и Deep Research от Google OpenAI, но дома. Может искать много по чему, в том числе и, например, по Arxiv. За 5 минут и сколько-то там баксов сляпает вам отчет на любой вопрос.

Вам, может быть все это и не надо, а мне надо. А может и вам когда-то понадобится

Andrew Barto and Richard Sutton are the recipients of the 2024 ACM A.M. Turing Award for developing the conceptual and algorithmic…

❤2

119 views23:53

Выше среднего

Процветание человечества

Американское правительство настойчиво ищет способы экономического, правового и любого другого коллапса с любопытством 2-х летнего ребенка. Талантливый предприниматель с бензопилой режет бюджет страны настолько талантливо, что долг федерального правительства вырос еще лучше прежнего. Другие талантливые компании, которые должны были бы делать открытый AI, фокусируются на том, чтобы продать подписки подороже, постоянно прогревая публику, что мол будем делать подписки то по $2k, то по $10к. Другая талантливая американская компания, жалуется что плохие открытые китайские модели не такие хорошие как ее модели и их нужно запретить, а хорошие модели, то есть их, срочно внедрять во все возможные места. А то можно и не успеть.

Мне кажется что-то похожее испытывали мои родители, когда рушился советский союз. Новое время уже есть, а понимания как в нем жить еще нет.

А как у вас настроение?

❤1

118 viewsedited 00:07

Выше среднего

Вирусы и креативность

Как я узнал буквально вчера, вирусы состоят из ДНК/РНК и белковой оболочки вокруг них. Ну то есть ничего лишнего. Чистый функционал.
Видимо такая дрянь и не давала мне покоя последние 3 недели. Но благодаря современной фарме и многократному игнорированию симптомов, я в полном порядке, спасибо всем кто беспокоился.

За это время не произошло почти ничего достаточного интересного, что могло бы меня вывести из писательской комы. Ну кроме:
1️⃣ DeepSeek тихо дропнули обновление V3 (https://huggingface.co/deepseek-ai/DeepSeek-V3-0324). Даже в новостях у себя на сайте поленились написать. Я сам не пробовал, но твиттерские хвалят. А еще идет слух что вот-вот (ближе к маю) дропнут R2 и там будет разрыв. Ну посмотрим, но разрывы не одобряем -- от них американский рынок краснеет.
2️⃣ Google уверенно спускается в долину и хочет поиметь весь рынок. Выпустил очередную вполне интересную модельку, которая умеет генерировать и редактировать изображения. Быстро и (пока) бесплатно. (https://ai.dev)
3️⃣ Tencent включился в гонку и тоже выпустил модельку. В лучших традициях невнятных бенчмарков, все бенчмарки невнятные. Но не в этом дело. Модель на архитектуре Mamba-Transformer, что по идее должно давать скорость и уменьшение галлюцинаций на длинных ответах (https://huggingface.co/spaces/tencent/Hunyuan-T1)
4️⃣ OpenAI в отсутствие видимых инноваций в области продуктов, делает прорывы в области монетизации. Несколько тысяч очень высокооплачиваемых людей из самых лучших школ усиленно трудятся чтобы подкрутить ценники. И спасибо на том, что ценники открытые без всяких там Book A Call with Our Specialist, а прямо написано что $600 за 1М токенов на выходе будет стоить o1-pro (https://platform.openai.com/docs/models/o1-pro). И кажется мне, что креатив в области ценообразования он не просто так, а потому что стены все еще нет и мы скоро заменим всех кожаных за компьютерами
5️⃣ Вайб-кодинг как явление пришло в соцсети с новыми креативными контентами. Пока что делать неясно -- то ли открывать курсы вайбкодинга, то ли предлагать исправлять необратимую пользу, которую эти вайбкодеры нанесут или уже нанесли народному хозяйству. Будем наблюдать.

❤3

96 views09:00

Выше среднего

Гугл уже спустился в долину

А кто это тут у нас такой новый и тихий? А это gemini-2.5-pro-exp-03-25, который по бенчмаркам теперь номер один почти во всех категориях. И судя по всему это не те бенчмарки где они всех побеждали в своих собственных попугаях, а прям настоящие бенчмарки не понарошку.

Всю серьезность подтверждают ограничения на модель -- всего 50 запросов в день не больше 5 в минуту на ai.dev

Отдельную радость мне доставило то, что указано место в Aider Polyglot и вроде как она сместила текущего лидера -- Sonnet 3.7. Но посмотрим как оно будет. 50 запросов в день вполне хватит чтобы попробовать его на своем Aider.

И да, там контекст -- миллион токенов.

👍1

103 viewsedited 18:06

Выше среднего

Ситуация следующая

😁3

96 views13:03

Выше среднего

Графы и Цепи (Tech Content Warning)
Помните анекдот про то, Джона, которого никто не называл строителем, потому что он один раз что-то сделал с овцой?
Он о том, что репутация очень быстро теряется и потом вернуть её будет сложно (если вообще возможно).
В общем когда стало понятно, что LLM это новое что-то, быстро возникла плеяда новых продуктов. Тогда любое тяп-ляп и на гитхаб получало кучу звезд и инвестиции. LangChain был одним из первых таких продуктов.

На самом деле это библиотека, и, как видно из названия, авторы видели некую цепочку рассуждений / решений / и др действий AI, которая приводит к какому-то результату.

Я попробовал LangChain на версии 0.0.0 и осталось какое-то чувство, что это все лучше написать самому чем учить все эти придуманные авторами новые концепции, которые не очень то хорошо ложились на то как я видел мир.
Потом я периодически читал как в LangChain ломается то да се, в сообществе в общем-то ее хейтили и, как мне казалось, заслуженно.

100 views08:58

Выше среднего

А потом в общем мне понадобилось что-то по хозяйству сделать с AI. Я перепробовал несколько моднейших python инструментов и оказалось, что дедушка LangChain не так уж и плох. Они-то конечно двигались неуважительно, ломали совместимость и быстро выпускали новые версии, полные багов. Но то, что я вижу сейчас это походит на неплохую экосистему продуктов, которыми я и воспользовался.

В общем LangChain нужен для того, чтобы обращаться к LLM и решать с их помощью разные задачи -- там классифицировать чета или просто ответ получить. LangGraph нужен для того, чтобы это все держать в графе. Нафига? Даже авторам было сложно обьяснить и я нашел описание в FAQ внизу экрана LangGraph is an orchestration framework for complex agentic systems.

В общем если вам нужна надежность и воспроизводимость и у вас сложные "цепочки" AI операций, то мой рекомендасьон. LangChain рекомендую к использованию по умолчанию на любых проектах.

5 старых пердящих дедов из 5

129 views08:59

Выше среднего

😁1

134 views15:18

Выше среднего

OpenAI Codex

В городе новый шериф, братцы.
OpenAI пытается не только максимально нарастить свой подписочный бизнес, но и активно пытается осваивать новые направления.
Сегодня у меня в консоли OpenAI Codex (https://github.com/openai/codex). Я пропустил такой же тул от Anthropic, но тут решил попробовать.

Время проб совпало вместе с выходом новых моделей (o3 и o4-mini), о которых пока сказать ничего не могу, кроме того, что они на x% лучше на каких то бенчмарках. А на каких-то нет.
Но вернемся к этому Codex. Что же он может, а чего нет?

Он может работать прямо в терминале и пытаться выполнить поставленную задачу то тех пор пока не устанет или задача не будет выполнена.

Мой тест был простой -- починить сломаный репозиторий в котором не запускаются файлы. Я намеренно сделал пару ошибок и поставил задачу достаточно широко -- сделай чтобы работало.

Сначала он пошел не совсем туда, и стал копаться в том, что ему не нужно, но быстро понял и попробовал что-то запустить и уже получил ошибки, которые в несколько попыток пофиксил.

Это на самом деле впечатляет, потому что до этого другие агенты на других моделях не могли разобраться с этой проблемой. И еще впечатляет то, как он обходится с собственной памятью -- читает только те куски файлов, которые нужно.

Кажется, что они почти повторили WindSurf, только в консоли и на новой модели. Пользоваться в реальной жизни наверное будет сложно, поэтому я остаюсь на Aider.

Оценка: 4 новых шерифа из 5

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

Lightweight coding agent that runs in your terminal - openai/codex

🔥2

144 views11:57

Выше среднего

Claude 4

Только что из источников не заслуживающих доверия стало известно, что релизнули Claude 4 Opus & Sonnet.

Я в последнее время испытываю крайнюю тоску от ничего не приносящих релизов. Надеюсь тут подвезут что-то стоящее.
Если же нет, то это значит что тейк про то что с Claude 3.5 просто фартануло может быть и правдой.

В общем ждем

Я еще тестирую параллельно Google Jules и OpenAI Codex (тот который в UI), скоро расскажу как оно (спойлер -- коряво и пока не очень полезно).

🔥2

109 views16:38

Выше среднего

Google победил

Не спеша и уверенно Google всех переиграл в гонке AI. Это мое личное мнение и наверняка многие с ним не согласятся. У меня для этого несколько аргументов

1️⃣ Эффективный большой контекст
Если вы работаете с LLM как пользователь или как разработчик, то знаете, что если дать много данных, то моделька тупеет. Менее очевидный пример -- моделька тупеет если попросить *сгенерировать* много данных.
Так вот модели от Google работают с бОльшими окнами контекста -- 1М и 10М (для Enterprise)
Личный опыт тоже подтверждает -- если нужно обработать или сгенерировать что-то большое -- нужна Gemini.

2️⃣ Свое железо
Если у вас свои датацентры (как у Microsoft) -- вы можете давать финансово эффективный сервис
Если у вас свои модели (как у OpenAI ) -- вы можете давать качественный сервис
Если у вас свои чипы (как у Groq) -- вы можете давать очень быстрый сервис.
У Google есть все из перечисленного

3️⃣ Свои данные
Есть ли компания на земле у которой данных больше чем у Google? я не уверен, но скорее всего нет.
Но дело даже не в этом, а в том что сейчас данные собираются везде -- в поисковике google, в gmail, в google chrome, в youtube. Да даже в инструментарии разработчика тоже собираются данные. Что могут этому противопоставить другие? -- только ‘Grok is it true?’

Что всему этому могут противопоставить другие игроки? Самую активную соцсеть (Х) ? Самый большой продукт в мире (ChatGPT)? Самый большие датацентры (Azure & AWS)? Возможно если только все вместе, а пока Google медленно но уверенно отрывается от остальных игроков.

П.С. Навеяно каждодневным использованием Gemini-2.5-pro в течение нескольких месяцев.

👍3

105 viewsedited 23:29

Выше среднего

GPT(?)

Погонял тут на днях две модельки, одна https://openrouter.ai/openrouter/horizon-alpha, а вторая https://openrouter.ai/openrouter/horizon-beta. Боже как же они хороши.

Я не использовал их для кода (как использую gemini-2.5-pro на ежедневной основе), а для дизайна данных / структуры / кода. В общем там где нужна "логика" и "интуиция" 😊

Это очень хорошо

p.s. Полагаю что это GPT-5 или что-то вроде.

This was a cloaked model provided to the community to gather feedback. It has been deprecated - see [Horizon Beta](/openrouter/horizon-beta). Run Horizon Alpha with API

91 viewsedited 09:34

Выше среднего

Это все что я выяснил читая результаты презентации OpenAI.

😁4

54 views18:05

Выше среднего

Aider

Я много пользуюсь этим кодинг агентом, потому что он позволяет очень точно задавать чего собственно нужно сделать. Другие что-то добавляют от себя, но этот прост как сапог и поэтому эффективен.

Автор этого агента монетизирует его с помощью теста (https://aider.chat/docs/leaderboards/), и это единственный тест на который я обращаю внимание у новых моделей.

Сейчас там лидирует o3-pro, но ценник там не православный поэтому я пользуюсь gemini-2.5-pro-preview-06-05 (который был бесплатным пока был в тестировании, но вроде бы и сейчас тоже 😊 )

GPT-5 заявляет достаточно сильный прирост (аж до 88% с 83%) от Gemini-2.5-pro. На самом деле это очень много и определяет можно ли использовать в реальных задачах или пока еще нужно подождать.

Как раскатят GPT-5 в апи или на OpenRouter попробую потыкать и поделиться ощущениями.

👍2

68 views19:28

Выше среднего

Я сжег тысячи баксов на AI Assistants и вот что я понял.

Дисклеймеры: пост технический, если вам это не нужно, то не нужно; может быть завтра пойму совсем другое, не переживайте; технически любое число можно назвать тысячами; AI Assistants это то что я считаю таковым.

Вот ТОП тейки, некоторые могут показаться неинтуитивными.

Проект нужно адаптировать для AI Assistants, а лучше разрабатывать сразу для них.
Я не знаю как работать с большими проектами. На практике получается полная херь, если вы знаете напишите. Обычно это все заканчивается тем, что инженер расстраивается мол не работает ничерта. И это правда. И неправда. Просто нужно адаптировать проекты.

Любое ожидаемое действие должно быть доступно из консоли парой команд
Иначе ИИшка не продерется через логику, не сможет проверить, получить фидбэк и так далее. Тесты запустить — одной командой. Поднять сервер — одной командой. И так далее.

Документация описывающая “как все сейчас устроено” условно бесполезна
Конечно если вы делаете документацию для того чтобы сжато дать агенту контекст, то окей, но документация для AI это другое. Это максимально короткое и непротиворечивое описание как вы видите это должно быть, чтобы это можно было учесть при принятии какого-либо решения. Если в описаниях противоречия — получаем стабильно херовый результат. Это баги документации, которые нужно искать и фиксить.

Код это хорошая документация
Тесты, интерфейсы, компиляция. Интеграционные тесты, мок данные, ассерты. Все помогает агенту понять чего ты собственно хочешь. Это уменьшает количество степеней свободы в которых агент может натворить дичь.

Рефакторинг, девопс и покрытие тестами это регулярный, а не чрезвычайной шаг
Отдельный шаг в разработке это рефакторинг, девопс и покрытие тестами. Ты -- девопс своей разработки, инвестировать время в собственное (и агента) удобство это нормальный процесс. Хороший показатель покрытия тестами -- около 90-95% кода. Это дешево и удобно. Рефакторинг без тестов не сделаешь, а с тестами — очень легко. Отдельно замечу что все протестированные мною агенты не умеют мержить ветки от слова совсем — очень очень очень плохо. Поэтому если делаете рефактор — останавливайте агентов которые работают параллельно.

Агентность (условно) хуже не агентности
Соображение вот какое — если у вас задача из 5 шагов и вероятность ошибки на каждом шаге 15%, то вероятность успеха всех 5 шагов всего 44%. То есть нужно или уменьшать вероятность ошибки или уменьшать количество шагов. Уменьшать вероятность ошибки сложно и каждый раз это какие-то новые трудности. А вот работать по шагам вполне можно. Наверняка ваш любимый инструмент имеет возможность проверки и остановки, пользуйтесь, не ленитесь.

Разные инструменты для разного
Как бы противоречу предыдущему пункту, но я не обещал быть логичным. У меня хорошо прижились codex, jules, gemini code и aider с gemini 2.5 pro. А еще я тестирую crush, OpenCode и Forge. Кстати именно с aider я сжигал по паре сотен баксов за день в течение недели, до конца сам не понял как так вышло, будьте осторожны с размером контекста — при росте контекста цена растет.

Искусство называть вещи больше не искусство
Реально модели хорошо справляются с названиями, если дать ей набор правил. А названия это очень и очень важно — это фактически часть документации, нужно уделять этому внимание. Иногда в процессе разработки они забивают на эти правила, в этом случае возвращаемся к рефактору.

Умение кратко и точно говорить никогда не было так важно
Если в комментариях, документации будут разночтения то будет устойчиво воспроизводимая херня (УВХ). Нужно осваивать скилл описывать все непротиворечиво и небольшим количеством слов, лучше конечно на английском языке — обычно модели знают его лучше других

Нужен скилл
Чтобы пользоваться инструментом нужен навык. Навык приобретается на количестве законченных повторений. Повторяйте и итерируйте и навык придет.

Ошибки это часть процесса
Не понимаю куда уходит толерантность к ошибкам когда дело касается агентов, но ошибки есть всегда и всегда есть херня. Ее нужно иметь возможность откатывать. Выучите гит.

❤3

33 views16:07

Выше среднего

Бюджет имеет значение
Лучшие модели требуют денег. Codex стоит $200, Claude Code x5 $100, даже курсор (который по моему мнению просто не очень продуктивный продукт) и тот стоит двадцатку чтобы начать.

Это работает
Хватит уже быть скептиком -- это реально работает, но в этом случае вы сам себе тимлид, CTO и архитектор со всеми вытекающими. Главные навыки — понятно объяснять, быстро читать чужой код, понимать его слабые и сильные стороны. Еще принимать быстрые решения. Еще справляться с трудностями. И много чего еще…

❤5

36 views16:09