🧿🪬🍄🌈🎮💻🚲🥓🎃💀🏴🛻🇺🇸

What are the results of the '#AccountingBench' #benchmark, which tests an #AI model for monthly #accounting tasks?

> #Gemini 2.5 Pro, #chatGPT o3, and o4-mini were unable to close the books for a month and gave up midway. #Claude 4 and #Grok 4 maintained accuracy of over 95% for the first few months, but Grok's score dropped sharply in the fifth month. Claude 4's score also gradually dropped, eventually falling below 85%.

gigazine.net/gsc_news/en/20250

#llm

What are the results of the 'AccountingBench' benchmark, which tests an AI model for monthly accounting tasks?

AccountingBench , developed by accounting software…

GIGAZINE
Dendrobatus Azureus

My speed test for this morning was still odd in U / D Ratio
The download Ratio was good the upload ratio is too low

#ISP #GSM #LTE #speed #benchmark

Jul 25, 2025, 02:43 · · · 1 · 0
Habr

[Перевод] Обработка асинхронных операций с Flowable — Часть 4: Эволюция Async Executor

Добро пожаловать в четвёртую и заключительную часть серии о новом Flowable Async Executor. До этого момента путь был довольно насыщенным: Однако остаётся один важный вопрос: как мы пришли к текущей реализации? Что подтолкнуло нас к этим изменениям и почему? Как мы нашли узкие места и использовали эти данные для создания лучшего подхода? И, учитывая, что первая версия появилась более десяти лет назад, как Async Executor эволюционировал, сохраняя обратную совместимость? Именно этому посвящена эта часть. Мы воспользуемся возможностью оглянуться назад и вспомнить различные реализации, которые появлялись за это время. Мы выделили четыре поколения Async Executor и кратко рассмотрим каждое из них. Поскольку Flowable является форком Activiti, история начинается с первой версии Activiti (5.0.0).

habr.com/ru/articles/920370/

#BPM #BPMN #Flowable #highload #performance #benchmark

Обработка асинхронных операций с Flowable — Часть 4: Эволюция Async Executor

Добро пожаловать в четвёртую и заключительную часть…

Хабр
GameSense.co

Unreal Engine 5.6 NextVisuals Benchmark Forest is a benchmark tool that is described as a next-gen GPU benchmark built for extreme fidelity. #Benchmark gamesense.co/game/benchmark/ne

Knowledge Zone

#ITByte: Humanity's Last Exam (HLE) is a #Language model #Benchmark consisting of 2,500 questions across a broad range of subjects. It was created jointly by the Center for AI Safety and Scale AI.

HLE is designed to be a difficult test that requires AI models to demonstrate not only memorization but also understanding, reasoning, and problem-solving skills.

knowledgezone.co.in/posts/Huma

Multi Purr Puss :verified:

my #SSH throughput #performance #benchmark

Setup:
👉 10gig Mellanox ConnectX-3 on both nodes
👉 one MCX311-XCAT via USB4/TB M.2 adaptor MacGyverism
👉 DAC cables
👉 Realtek switch with 2x SFP+ 10gig ports in between
👉 from #KDEneon to #Ubuntu 24.04.2 #Linux
👉 source: Ryzen 7 7840HS, from Gen4x4 NVME
👉 sink: i5-7500, /dev/null

😏 of course i can't stat the destination - i just need a fast dump/sink

🤓 faster than 2.5 gig, but still kinda meh

🤔 What did i do wrong enough?
🤓 any better/faster ideas?

Habr

Struct IEnumerator

Как-то было свободных полчаса перед встречей. Ни туда, ни сюда. Дай, думаю, сниму трейс с приложения. Вдруг что-то интересное найдётся. А в качестве бонуса: использование var может привести к багам? Узнаем в самом конце ;)

habr.com/ru/companies/skbkontu

#c# #net #optimization #enumerators #net_core #c#net #allocation #benchmark #tracing #trace

Struct IEnumerator

Как-то было свободных полчаса перед встречей. Ни туда,…

Хабр
Habr

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR Все привыкли к тому, что ChatGPT, DeepSeek, Llama и другие коммерческие LLM способны быстро и умеренно качественно генерировать текст практически любого стиля и содержания. Однако, потенциал использования языковых моделей давно не ограничивается лишь пресловутым копирайтингом и написанием курсовых за одну ночь. Современные модели‑трансформеры всё чаще демонстрируют эмерджентные способности, выражающиеся в их способности к сложному пошаговому рассуждению. Само устройство этих «рассуждений» (англ. reasoning) забавно перекликается с гипотезой лингвистической относительности Сепира‑Уорфа. Её строгая версия предполагает, что человеческое мышление является формой «внутреннего монолога». Но если наш мозг оказался устроен несколько сложнее, чем думали Сепир и Уорф, то в случае с LLM всё буквально так — модель рассуждает, когда «говорит», т. е. генерирует текст. На текущий момент мы уперлись в потолок развития LLM привычным путём . Данные для их обучения кончились ещё год назад, а продолжать наращивать и без того огромные вычислительные мощности попросту нет смысла. Поэтому самым перспективным направлением разработок в области ИИ выступает развитие того самого reasoning — умения модели рассуждать. И хотя за последние полгода появилось множество систем, сделавших большой шаг в сторону продвинутого reasoning (например, DeepSeek R1, о1 от OpenAI), тестируются они всё так же — на математике, шахматных задачках и головоломках. А вот насколько хорошо они справляются с задачами в сфере права или, скажем, комплексного текстуального анализа никто не знает — в большинстве бенчмарков полностью игнорируется способность LLM рассуждать в плоскости гуманитарного знания.

habr.com/ru/articles/922422/

#reasoning #benchmark #налоговое_право

Суров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права

Этот пост для нашего тг-канала Pro AI написал мой коллега…

Хабр
nickbearded

@tychotithonus No official publication yet, just internal tests, same hardware, CPU only (OpenCL via POCL). But feel free to try it yourself, that’s the beauty of BashCore: transparent, reproducible and lean by design 🤗

We welcome independent benchmarks 🔥

#bashcore #hashcat #benchmark #cpucracking

Habr

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

habr.com/ru/articles/922290/

#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей…

Хабр
Habr

[Перевод] Как написать микробенчмарк

Команда Spring АйО перевела статью, в которой приведено несколько правил, которые следует учитывать при написании микробенчмарков для HotSpot JVM.

habr.com/ru/companies/spring_a

#java #kotlin #performance #microbenchmarks #benchmarking #benchmarks #benchmark #spring #spring_boot #spring_framework

Как написать микробенчмарк

Команда  Spring АйО  перевела статью, в которой приведено…

Хабр
c't Magazin

heise+ | Wie c't Grafikkarten testet: Spiele-Benchmarks, Lautstärke, Leistungsaufnahme

Rechenleistung, Speichermenge, Displaytechnik sowie die Lautheit des Kühlers sind Kenngrößen für Grafikkarten. Wir stellen unser aktuelles Testverfahren vor.

heise.de/hintergrund/Wie-c-t-G

#Benchmark #Entertainment #Spiele #Grafikchip #Grafikkarten #IT #Test #Wissenschaft #news

Habr

Function splitting и чистый код

Сложная и тяжелая статья с непропорционально простым выводом. Вспомним фон Неймана, затронем процессорный кеш, поговорим про регистры и компиляторы. Тем, кому не хочется погружаться в детали, достаточно прочитать только Введение и Выводы.

habr.com/ru/companies/skbkontu

#optimization #optimisation #assembler #c# #c#net #net #net_core #benchmark #method #low_level

Function splitting и чистый код

Про метод оптимизации Function splitting сухо написано…

Хабр
MottG

"Deep Research Bench: Evaluating AI Web Research Agents"

We introduce Deep Research Bench, consisting of 89 multi-step web research task instances of varying difficulty across 8 diverse task categories, with the answers carefully worked out by skilled humans.

arxiv.org/abs/2506.06287

#research #AItools #benchmark #deepResearch