These are public posts tagged with #benchmark. You can interact with them if you have an account anywhere in the fediverse.
What are the results of the '#AccountingBench' #benchmark, which tests an #AI model for monthly #accounting tasks?
> #Gemini 2.5 Pro, #chatGPT o3, and o4-mini were unable to close the books for a month and gave up midway. #Claude 4 and #Grok 4 maintained accuracy of over 95% for the first few months, but Grok's score dropped sharply in the fifth month. Claude 4's score also gradually dropped, eventually falling below 85%.
AccountingBench , developed by accounting software…
GIGAZINEMy speed test for this morning was still odd in U / D Ratio
The download Ratio was good the upload ratio is too low
[Перевод] Обработка асинхронных операций с Flowable — Часть 4: Эволюция Async Executor
Добро пожаловать в четвёртую и заключительную часть серии о новом Flowable Async Executor. До этого момента путь был довольно насыщенным: Однако остаётся один важный вопрос: как мы пришли к текущей реализации? Что подтолкнуло нас к этим изменениям и почему? Как мы нашли узкие места и использовали эти данные для создания лучшего подхода? И, учитывая, что первая версия появилась более десяти лет назад, как Async Executor эволюционировал, сохраняя обратную совместимость? Именно этому посвящена эта часть. Мы воспользуемся возможностью оглянуться назад и вспомнить различные реализации, которые появлялись за это время. Мы выделили четыре поколения Async Executor и кратко рассмотрим каждое из них. Поскольку Flowable является форком Activiti, история начинается с первой версии Activiti (5.0.0).
Добро пожаловать в четвёртую и заключительную часть…
ХабрUnreal Engine 5.6 NextVisuals Benchmark Forest is a benchmark tool that is described as a next-gen GPU benchmark built for extreme fidelity. #Benchmark https://gamesense.co/game/benchmark/news/discuss/take-a-look-at-the-unreal-engine-5.6-nextvisuals-benchmark-tool/
#ITByte: Humanity's Last Exam (HLE) is a #Language model #Benchmark consisting of 2,500 questions across a broad range of subjects. It was created jointly by the Center for AI Safety and Scale AI.
HLE is designed to be a difficult test that requires AI models to demonstrate not only memorization but also understanding, reasoning, and problem-solving skills.
https://knowledgezone.co.in/posts/Humanitys-Last-Exam-6870ba72de87d4d01c233235
my #SSH throughput #performance #benchmark
Setup: 10gig Mellanox ConnectX-3 on both nodes
one MCX311-XCAT via USB4/TB M.2 adaptor MacGyverism
DAC cables
Realtek switch with 2x SFP+ 10gig ports in between
from #KDEneon to #Ubuntu 24.04.2 #Linux
source: Ryzen 7 7840HS, from Gen4x4 NVME
sink: i5-7500, /dev/null
of course i can't stat the destination - i just need a fast dump/sink
faster than 2.5 gig, but still kinda meh
What did i do wrong enough?
any better/faster ideas?
Struct IEnumerator
Как-то было свободных полчаса перед встречей. Ни туда, ни сюда. Дай, думаю, сниму трейс с приложения. Вдруг что-то интересное найдётся. А в качестве бонуса: использование var может привести к багам? Узнаем в самом конце ;)
https://habr.com/ru/companies/skbkontur/articles/917068/
#c# #net #optimization #enumerators #net_core #c#net #allocation #benchmark #tracing #trace
Как-то было свободных полчаса перед встречей. Ни туда,…
ХабрuInit - Instructions on obtaining stable benchmarks results on modern Linux distro - by yugr:
Instructions on obtaining stable benchmarks results…
GitHubСуров закон, но он закон: как мы собрали RuTaR — датасет для оценки reasoning-систем в сфере налогового права
Этот пост для нашего тг-канала Pro AI написал мой коллега Александр Мигаль, специалист по компьютерной лингвистике и один из авторов RuTaR Все привыкли к тому, что ChatGPT, DeepSeek, Llama и другие коммерческие LLM способны быстро и умеренно качественно генерировать текст практически любого стиля и содержания. Однако, потенциал использования языковых моделей давно не ограничивается лишь пресловутым копирайтингом и написанием курсовых за одну ночь. Современные модели‑трансформеры всё чаще демонстрируют эмерджентные способности, выражающиеся в их способности к сложному пошаговому рассуждению. Само устройство этих «рассуждений» (англ. reasoning) забавно перекликается с гипотезой лингвистической относительности Сепира‑Уорфа. Её строгая версия предполагает, что человеческое мышление является формой «внутреннего монолога». Но если наш мозг оказался устроен несколько сложнее, чем думали Сепир и Уорф, то в случае с LLM всё буквально так — модель рассуждает, когда «говорит», т. е. генерирует текст. На текущий момент мы уперлись в потолок развития LLM привычным путём . Данные для их обучения кончились ещё год назад, а продолжать наращивать и без того огромные вычислительные мощности попросту нет смысла. Поэтому самым перспективным направлением разработок в области ИИ выступает развитие того самого reasoning — умения модели рассуждать. И хотя за последние полгода появилось множество систем, сделавших большой шаг в сторону продвинутого reasoning (например, DeepSeek R1, о1 от OpenAI), тестируются они всё так же — на математике, шахматных задачках и головоломках. А вот насколько хорошо они справляются с задачами в сфере права или, скажем, комплексного текстуального анализа никто не знает — в большинстве бенчмарков полностью игнорируется способность LLM рассуждать в плоскости гуманитарного знания.
Этот пост для нашего тг-канала Pro AI написал мой коллега…
Хабр@tychotithonus No official publication yet, just internal tests, same hardware, CPU only (OpenCL via POCL). But feel free to try it yourself, that’s the beauty of BashCore: transparent, reproducible and lean by design
We welcome independent benchmarks
Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.
https://habr.com/ru/articles/922290/
#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora
LoRA — популярный метод дообучения больших моделей…
ХабрXbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit
Ein neuer Benchmark aus China testet KI-Modelle auf ihre Fähigkeit, reale Aufgaben zu lösen. Er soll Unternehmen bei Investitionsentscheidungen in KI helfen.
Ein neuer Benchmark aus China testet KI-Modelle auf…
heise online[Перевод] Как написать микробенчмарк
Команда Spring АйО перевела статью, в которой приведено несколько правил, которые следует учитывать при написании микробенчмарков для HotSpot JVM.
https://habr.com/ru/companies/spring_aio/articles/920146/
#java #kotlin #performance #microbenchmarks #benchmarking #benchmarks #benchmark #spring #spring_boot #spring_framework
Команда Spring АйО перевела статью, в которой приведено…
Хабрheise+ | Wie c't Grafikkarten testet: Spiele-Benchmarks, Lautstärke, Leistungsaufnahme
Rechenleistung, Speichermenge, Displaytechnik sowie die Lautheit des Kühlers sind Kenngrößen für Grafikkarten. Wir stellen unser aktuelles Testverfahren vor.
#Benchmark #Entertainment #Spiele #Grafikchip #Grafikkarten #IT #Test #Wissenschaft #news
Nvidia's PC processor N1X in Geekbench
Initial entries in a benchmark database attest to Nvidia's upcoming N1X 20 CPU cores and more than 4 GHz clock frequency.
Initial entries in a benchmark database attest to Nvidia's…
heise onlinehttps://www.europesays.com/de/182375/ Nvidias PC-Prozessor N1X im Geekbench #ARM #Benchmark #Deutschland #Geekbench #Germany #IT #Nvidia #Prozessoren #Science #Science&Technology #Technik #Technology #Wissenschaft #Wissenschaft&Technik
Nvidias PC-Prozessor N1X im Geekbench
Erste Einträge in einer Benchmark-Datenbank attestieren Nvidias kommendem N1X 20 CPU-Kerne und mehr als 4 GHz Taktfrequenz.
Erste Einträge in einer Benchmark-Datenbank attestieren…
heise onlineFunction splitting и чистый код
Сложная и тяжелая статья с непропорционально простым выводом. Вспомним фон Неймана, затронем процессорный кеш, поговорим про регистры и компиляторы. Тем, кому не хочется погружаться в детали, достаточно прочитать только Введение и Выводы.
https://habr.com/ru/companies/skbkontur/articles/914868/
#optimization #optimisation #assembler #c# #c#net #net #net_core #benchmark #method #low_level
Про метод оптимизации Function splitting сухо написано…
Хабр"Deep Research Bench: Evaluating AI Web Research Agents"
We introduce Deep Research Bench, consisting of 89 multi-step web research task instances of varying difficulty across 8 diverse task categories, with the answers carefully worked out by skilled humans.