Monospace Mentor

🚨LIVE NOW!🚨 DevOps/SRE Instructor Livestream

On this lovely Thursday, let's chat about #Linux #SystemAdministration, #SelfHosting, or any other topic in the #DevOps and #SRE space you're interested in!

Owncast: live.monospacementor.com/

Monospace Mentor LiveMonospace Mentor Live
Habr

Автономный подход к SOC: применение уроков SRE к Security Operation Center

В современном мире киберугрозы становятся все более масштабными, что требует от организаций внедрения самых передовых методологий для обеспечения надежности и эффективности работы систем безопасности. Одним из таких подходов является Site Reliability Engineering (SRE), который изначально разработан для управления IT-инфраструктурой и сервисами с направлением на надежность, масштабируемость и производительность. Этот методологический фреймворк, созданный в Google, получил широкое распространение благодаря своей практичности и результативности. В контексте работы Security Operation Center (SOC) SRE открывает новые горизонты для повышения качества обнаружения и реагирования на киберугрозы. В данной статье мы рассмотрим, как принципы SRE могут быть адаптированы для SOC, какие преимущества они предоставляют и как их внедрение может помочь в достижении высокого уровня защищенности информационных систем. Особое внимание будет уделено интеграции SRE в SOAR (Security Orchestration, Automation and Response) системы, которые играют ключевую роль в автоматизации процессов реагирования на инциденты. SRE представляет собой современный подход к управлению IT-инфраструктурой и сервисами. Этот методологический фреймворк, постепенно получает широкое распространение благодаря своей практичности и результативности. В контексте работы Security Operation Center SRE открывает новые горизонты для повышения качества обнаружения и реагирования на киберугрозы. Основополагающим принципом SRE является работа с показателями Service Level Objectives (SLO) и Service Level Indicators (SLI), которые адаптируются под нужды SOC через определение целевых метрик для времени обнаружения инцидентов и времени реагирования на угрозы. Например, можно установить SLO для обнаружения 95 процентов инцидентов в течение пяти минут после их возникновения. SLI в свою очередь будут включать такие параметры, как время реакции на инцидент, продолжительность устранения угрозы и процент ложноположительных срабатываний системы.

habr.com/ru/companies/security

#sre #sreпроцессы #sre_devops #soc #soar #sreкоманды

Markus Eisele

Zombie apps look healthy but deliver zero business value.
In my new tutorial I show how to use Quarkus Business Score to measure what truly matters: completed work.
Hands-on code, SLO alignment, and alerts.

the-main-thread.com/p/quarkus-

#Java #Quarkus #Monitoring #SRE #DevOps

Screen. Mind. Both are blank.

We're hiring an SRE into our team in Adelaide, South Australia. If you're a Linux person with good k8s infra skills and you want a job that lets you work on global-scale products, check it out: job-boards.greenhouse.io/sonyi

Boosts for visibility very welcome :)

#jobs #getfedihired #sre #linux #kubernetes #adelaide

Senior Service Reliability Engineer

Australia, Adelaide

job-boards.greenhouse.io
Habr

Как ЮKassa готовится к распродажам-2025

Привет, меня зовут Анатолий, я руковожу группой нагрузочного тестирования в ЮMoney. Началась осень, и не за горами сезон распродаж: магазины уже готовятся к пиковым нагрузкам, продумывают акции и спецпредложения, обновляют ассортимент, договариваются с поставщиками. ЮKassa, наш сервис электронных платежей, тоже в ожидании сезона скидок. В этой статье я расскажу, как мы к нему готовимся, что помогает нашей системе выдержать пиковые нагрузки и как сделать так, чтобы все клиенты остались довольны.

habr.com/ru/companies/yoomoney

#нагрузочное_тестирование #autoscaling #chaos_engineering #sre #sla #kubernetes #highload #инфрастуктура #отказоустойчивость #платежная_система

Как ЮKassa готовится к распродажам-2025

Привет, меня зовут Анатолий, я руковожу группой нагрузочного…

Хабр
Habr

Трейсинг в hh.ru: как мы выросли от 1 тысячи до 1 миллиона событий в секунду без семплирования

В каждой компании есть необходимость выстроить систему observability. В hh.ru мы перестраивали архитектуру под большее количество данных несколько раз — сейчас имеем на входе 24к RPS, 1 миллион спанов в секунду, 5к инстансов сервисов. Если вы — инженер, который находится в процессе построения или перестройки собственной системы трейсинга, этот доклад — для вас. Привет, Хабр! Я — Александр Казанцев, уже более десяти лет в разработке. Когда-то был инженером на пивзаводе и могу рассказать, из чего делают пенное; но сегодня — о другом.

habr.com/ru/companies/hh/artic

#tracing #sre #Operational_intelligence #микросервисы #трейсинг #логирование #мониторинг #архитектура #архитектура_системы #devops

Трейсинг в hh.ru: как мы выросли от 1 тысячи до 1 миллиона событий в секунду без семплирования

В каждой компании есть необходимость выстроить систему…

Хабр
Alvaro Lorente

Alert fatigue is crippling productivity. Only 3 in 47 daily alerts matter. It's time to move from symptom to impact based alerting and make every alert actionable! Share your on-call horror stories. #SRE #Observability #Engineering #Leadership #OnCall

Blaise Pabón - controlpl4n3

#TIL there's a nice "starting point" for anyone unfamiliar with the work of #Deming and particularly how it relates to #Manufacturing , #SoftwareEngineering , #SystemThinking and most of all #devops ( #sre )

youtu.be/o1ak3fDVG1Y?t=559

#ComplexityWranglers may also want to hand this out to newcomers.

Habr

Сквозь эпохи: от хаоса к гармонии, или как мы запросы в Greenplum улучшали

Привет, Хабр! Я Илья Назаров, старший инженер в разработке сервисов направления эксплуатации инфраструктуры данных DataPlatform Т-Банка. В работе я часто соприкасаюсь с движками баз данных. Первым и основным движком волею судеб стал Greenplum. Расскажу о своем длинном пути взаимодействия с «Зеленой сливой», как из хаоса и невежества я дошел до истины и гармонии. В начале карьеры меня много чего удивляло. Тогда я еще не знал, что такое Greenplum,и плохо понимал, что такое MPP. Позднее коллеги на пальцах объяснили мне, что это «постгрес курильщика» и «постгрес поверх кучи постгресов». Не менее удивительны для меня процессы. Например, процесс деплоя. Именно тогда я узнал, что в большом продакшене может быть деплой через правку SSH-скриптов на серверах. В целом ситуация выглядела страшно интересно: скрипты, процессы деплоя и работы над задачами — все было в новинку. С одной стороны, большой багаж исторически сформированных до меня решений, с другой — большой уровень свободы и минимум ограничений, что как раз и способствовало постоянному росту энтропии и хаоса. Практически сразу я ощутил желание навести во всем порядок. А что из этого получилось — читайте в статье 😉

habr.com/ru/companies/tbank/ar

#dwh #sql #sre #devops #bigdata #greenplum

Сквозь эпохи: от хаоса к гармонии, или как мы запросы в Greenplum улучшали

Привет, Хабр! Я Илья Назаров, старший инженер в разработке…

Хабр
Monospace Mentor

🚨LIVE NOW!🚨 DevOps/SRE Instructor Livestream

On this lovely Friday, let's chat about #Linux #SystemAdministration, #SelfHosting, or any other topic in the #DevOps and #SRE space you're interested in!

Owncast: live.monospacementor.com/

Monospace Mentor LiveMonospace Mentor Live
Monospace Mentor

🚨LIVE NOW!🚨 DevOps/SRE Instructor Livestream

On this lovely Thursday, let's chat about #Linux #SystemAdministration, #SelfHosting, or any other topic in the #DevOps and #SRE space you're interested in!

Owncast: live.monospacementor.com/

Habr

Мониторинг и анализ производительности бэкенда с помощью ClickHouse и Grafana. Часть 3

Всем привет! Я Артём Седых, ведущий разработчик и тимлид проекта банковского сопровождения. Наш сервис — 8-летний монолит на PHP с командой из 39 человек. В цикле статей рассказываю об опыте разработки и внедрения альтернативы pinba: гибкого инструмента мониторинга, который позволяет увидеть живую систему как на ладони и понять, из‑за чего именно проседают определенные экшены. Сегодня, в третьей и заключительной части, рассмотрим мониторинг со стороны devops на дашбордах SLI/Apdex, поколдуем над статистическими методами для прогноза снижения производительности, поговорим об автоматических уведомлениях Grafana. Оценим перспективы развития, сравнительный анализ выбранного подхода и выводы по нашему опыту.

habr.com/ru/companies/etpgpb_v

#мониторинг_производительности #backend #метрики_red #оптимизация_api #sre #php #pinba #clickhousegrafana #vesnainsight #оценка_сложности_алгоритмов

Мониторинг и анализ производительности бэкенда с помощью ClickHouse и Grafana. Часть 3

Ссылка на часть 1 Ссылка на часть 2 Всем привет! Я…

Хабр
Monospace Mentor

🚨LIVE NOW!🚨 DevOps/SRE Instructor Livestream

On this lovely Wednesday, let's chat about #Linux #SystemAdministration, #SelfHosting, or any other topic in the #DevOps and #SRE space you're interested in!

Owncast: live.monospacementor.com/

Monospace Mentor LiveMonospace Mentor Live
Habr

Подстилая соломку, или Как выжить в ситуационном центре

Привет, Хабр. Меня зовут Кирилл Борисов, я SRE в Ситуационном центре. Я часто видел, как неправильное использование паттернов отказоустойчивости архитектуры или их игнорирование приводит к серьёзным последствиям. Поэтому хочу рассказать, как обеспечить надёжность в условиях, когда может упасть любой микросервис.

habr.com/ru/companies/vk/artic

#sre #надежность #devops #бэкенд

Подстилая соломку, или Как выжить в ситуационном центре

Привет, Хабр. Меня зовут Кирилл Борисов, я SRE в Ситуационном…

Хабр
Habr

SRE на Frontend`е

На хабре уже есть статьи про качество кода (линты, хинты, хорошие практики), стратегии обработки ошибок ( feature toggle , request retry ) и UX/UI их отображения . Это еще одна статья про разбор ошибок и аварий, но с точки зрения небольших фич фронта, которые вы можете внедрить самостоятельно и упростить свою работу, а также помочь отделу в целом.

habr.com/ru/articles/944070/

#sre #frontend #javascript

SRE на Frontend`е

На хабре уже есть статьи про качество кода (линты,…

Хабр
:tux: Malte :Anoxinon:

🔍 **Senior SysAdmin/Infra Engineer sucht #OpenSource Job!**

16+ Jahre hands-on IT (13 Jahre Bundeswehr NATO Top Secret) + aktuell Aleph Alpha.

**Skills:**
🐧 Deep #Linux: #Debian/#Ubuntu bare-metal + enterprise
🏢 Rechenzentren: Design, Aufbau & Betrieb
🌐 Netzwerk: LANCOM, DNS, routing
⚡ #Proxmox deep-dive, VMware + Hybrid Cloud
🔒 Military-grade Security, ISO 27001
🛠️ #Bash/#Python, #Terraform, #Ansible
📊 #Zabbix, Performance-Tuning

**Suche:**
🏠 Remote-first (Bayern, Pendeln ok)
🤓 Senior/Principal Engineer Position

Von militärischen Command-Centers bis Enterprise-Linux - ich liebe komplexe Systeme!

#debian #ubuntu
#JobSuche #DevOps #SysAdmin #OpenSource #Remote #ITJobs #Linux #CloudNative #Bayern #InfrastructureAsCode #SRE #TechJobs #Germany

Alvaro Lorente

"Don't overlook the slow burn of product performance degradation! Track business outcomes alongside traditional metrics, extend observation windows, and deploy drift detection to catch issues before they impact users #Observability #SRE #Engineering"

akmadhusudhan

Looking for SRE/Software Eng. roles in automation & cloud (Azure/AWS, transferable to GCP/OCI). Career search is tough being deaf/HoH, but I’m passionate about building scalable tech that transforms lives. Open to chat if you’re hiring! #deaf #disability #aws #azure #sre #SoftwareDevelopment