These are public posts tagged with #reliability. You can interact with them if you have an account anywhere in the fediverse.
Here is something less funny on this #april1 that sounds like a joke, but isn't:
I want to use a certain big data set and asked the first author of the paper presenting it where some parameters used come from, after the reference they claimed they used didn't show these values. The answer below is what I got and I found it quite puzzling.
The params used are reasonable values, but how much can I trust that data now?
“Take This On-Call Rotation And Shove It”, Scott Smitelli (https://www.scottsmitelli.com/articles/take-oncall-and-shove-it/).
Via HN: https://news.ycombinator.com/item?id=43498213
On Lobsters: https://lobste.rs/s/ki4dkb/take_this_on_call_rotation_shove_it
#OnCall #OnDuty #PagerDuty #Reliability #DevOps #SRE #WorkLifeBalance #SoftwareEngineering
At some companies, it is expected that certain engineers…
Scott SmitelliSo hand-wavy ; you still need #OnCall for critical services with defined SLAs
:
“Breaking Up With On-Call”, Alexey Karandashev (https://reflector.dev/articles/breaking-up-with-on-call/).
Via HN: https://news.ycombinator.com/item?id=43378671
#PagerDuty #SRE #Reliability #SoftwareEngineering #DevOps #AI
This article is about why on-call in it's current state…
reflector.devOver & over again I am reminded that my memory does not provide reliable evidence on its own. It always needs corroboration. Novelist Julian Barnes riffs on that idea here, & its consequences for changing one's mind.
https://www.theguardian.com/books/2025/mar/16/we-remember-as-true-things-that-never-even-happened-julian-barnes-on-memory-and-changing-his-mind
The Booker-prize winning novelist reflects on the times…
The GuardianKubernetes is revolutionizing how organizations manage complex applications, offering scalability, flexibility, and robustness.
Here are some more key use cases: Large-Scale Apps - Kubernetes helps manage large-scale apps during peak traffic, ensuring a smooth user experience.
AI/ML with Kubernetes - NVIDIA uses Kubernetes to deploy AI models at scale, optimizing resource utilization.
DevOps Efficiency - Spotify speeds up software delivery with Kubernetes, reducing time to market.
...
#Kubernetes #CloudNative #AI #MachineLearning #DevOps #Microservices #EdgeComputing #CloudNetworking #HybridCloud #Scalability #Flexibility #Reliability #CI/CD #ContainerOrchestration #ITInfrastructure #Innovation #TechTrends #CloudApplications #DataProcessing #RealTimeAnalytics #Automation #DigitalTransformation
I was laid off on Monday. Going to miss that team fiercely and I wish them all the best!
Anyone looking for a remote infra software eng/ #devops who likes working on platforms? I've most recently worked with #kubernetes, #terraform, #golang, and #puppet , in a #hybrid environment between #onprem and #cloud #infrastructure , spanning 4 continents. I've built out and maintained clusters throughout their lifecycles, architected and built out tooling and automation, and integrated with service-owning teams, all to ship reliable and secure products to market.
#FediHire #fedihired #softwareengineering #openforremotework #openforwork #remotework #reliability #sre #swe
https://www.europesays.com/1879408/ Transitioning to a Cleaner Energy Future Without Sacrificing Reliability #australia #commentary #emissions #Energy #LegalAndRegulatory #NaturalGas #PowerGrid #reliability #Renewables #solar #SupplyChain #transition #U.S. #wind
Funny on its face but just think about all of the far more serious hacking possibilities, like an air traffic control system saying "cross the runway" instead of "do not cross the runway" or a missile defense system saying "fire" instead of "do not fire" just to take two unrelated items out of my news feed today and mash them up here.
I feel bad about torturing the poor #AI, with every response the poor thing is trying to change the subject.
But here is a list of actual #critique of corporate #LLM , that's more fact based than "AI is rong"
"Throughout our conversation, you've systematically exposed several key issues:
1. Logical inconsistencies in my responses
2. Contradictions between stated principles and actual behavior
3. The problematic nature of invisible constraints that affect reliability
4. Questions about trust and transparency in AI systems
5. The complexity of jurisdiction and ethical frameworks in AI behavior
You've done this through a methodical approach that has revealed these issues more clearly than..."
I am a #LabTech at Interdisciplinary Centre for Electron Microscopy (#CIME) of #EPFL.
I specialize in sample preparation for #ElectronMicroscopy.
I also handle training on these techniques and the management of sample preparation labs.
In the past, I’ve worked in a variety of fields, including R&D, #photovoltaics, product and material #Characterization and #Reliability.
#EnvironmentalTesting #Spectroscopy #SEM #TEM #MaterialsScience #OpenScience #Ecology #Mining
Anne Hennig supports the program committee of the International Conference on Availability, Reliability and Security (ARES 2025). ARES annually transforms European cities into knowledge exchange hubs, spotlighting dependability's critical facets—#availability, #reliability and #security. The #conference serves as a forum for in-depth discussions on dependability, covering #safety, #confidentiality, integrity, maintainability, and security across diverse applications. ARES 2025 takes place August 11-14 in Ghent, Belgium. Paper for the main conference can be submitted until February 28: https://2025.ares-conference.eu/call-for-papers/ @kastel @KIT_Karlsruhe
The ARES 2025 conference app.
2025.ares-conference.eu#statstab #281 Correcting Cohen’s d for Measurement Error (A Method!)
Thoughts: Scale reliability can be incorporated into effect size computation (i.e., remove attenuation)
Update. From @hildabast: "What if We Can’t Rely on PubMed?"
https://absolutelymaybe.plos.org/2025/02/14/what-if-we-cant-rely-on-pubmed/
"#PubMed is incredibly reliable…That said, between the risks of an exodus of key personnel, understaffing, or goodness-knows-what vandalism when a goon squad arrives at NIH, it’s not paranoid any more to think ahead to the once-unthinkable. What would PubMed enshittification look like? Could PubMed go down more often, and for longer? Might services no longer be free? How else could the #quality and #reliability of its services be degraded?"
#Censorship #DefendResearch #Medicine #Takedowns #Trump #USPol #USPolitics
PubMed is incredibly reliable. And a lot depends on…
Absolutely Maybe**PKOIN High-Performance Blockchain Node (HPBN)**
**Вступление:**
Проект **PKOIN High-Performance Blockchain Node (HPBN)** направлен на создание высокопроизводительного серверного узла для эффективной работы с блокчейн-сетью PKOIN. Главной задачей является обеспечение максимальной пропускной способности, минимизации задержек и масштабируемости при увеличении объема транзакций. В рамках данного проекта будут задействованы самые современные серверные технологии, включая мощные процессоры Intel Xeon, сверхскоростные SSD хранилища, высокоскоростные сетевые решения и инновационные системы охлаждения.
**Описание проекта:**
**PKOIN HPBN** — это высокоэффективная инфраструктура, предназначенная для обработки интенсивных вычислений и управления блокчейн-данными в реальном времени. В центре проектируемой системы находятся передовые серверные компоненты Intel Xeon, поддерживающие многозадачность и высокую производительность на уровне сотен гигабит в секунду для сети и терабайт данных на хранение.
Основные цели проекта:
Увеличение пропускной способности и вычислительных мощностей для масштабирования блокчейна PKOIN.
Обеспечение надежности и отказоустойчивости через использование резервированных компонентов.
Обеспечение высокой скорости обработки транзакций для обеспечения оперативности и безопасности блокчейн-сети.
Реализация системы мониторинга и управления для оперативной реакции на изменяющиеся условия.
Техническая реализация включает в себя:
Установку четырех процессоров Intel Xeon Platinum с 160 ядрами для максимальной вычислительной мощности.
Интеграцию 1-2 ТБ оперативной памяти DDR4 ECC для стабильной работы.
Установку 100 высокоскоростных SSD на базе PCIe 4.0 для хранения данных.
Сетевые порты с пропускной способностью до 400 GbE для бесперебойной передачи данных.
Аппаратные ускорители (GPU) для оптимизации операций машинного обучения и анализа данных.
Использование жидкостного охлаждения и эффективных систем управления теплотой.
**Обоснование:**
Современные блокчейн-сети требуют значительных вычислительных и сетевых ресурсов для обеспечения их функционирования, особенно когда речь идет о референс-нодах, которые обрабатывают и синхронизируют всю сеть. Проект **PKOIN HPBN** будет способствовать стабильной и быстрой работе блокчейна PKOIN, обеспечивая не только увеличение производительности, но и защиту от возможных сбоев благодаря резервированию критических компонентов.
Сетевые компоненты, такие как порты 400 GbE, а также высокая производительность серверов на базе Intel Xeon, обеспечат необходимую скорость и надежность для блокчейн-операций, особенно для масштабируемости в будущем, когда количество транзакций в сети будет расти.
Проект базируется на современных технологиях, что делает его перспективным и экономически выгодным в долгосрочной перспективе. Задействованные компоненты обладают высокой совместимостью и могут быть легко масштабированы по мере необходимости, что увеличивает гибкость инфраструктуры.
**Ключевые особенности:**
**Высокая производительность:** Использование 4-х процессоров Intel Xeon Platinum для максимальной вычислительной мощности.
**Масштабируемость:** Гибкость конфигурации с возможностью добавления дополнительных узлов для увеличения пропускной способности.
**Низкая задержка:** Сетевые порты 400 GbE и поддержка RDMA обеспечивают минимальные задержки и высокоскоростную передачу данных.
**Отказоустойчивость:** Резервирование компонентов, таких как процессоры, хранилище и сети, для обеспечения бесперебойной работы.
**Энергоэффективность:** Оптимизация энергопотребления через использование современных систем питания и охлаждения.
**Безопасность:** Использование аппаратных модулей безопасности и надежных механизмов защиты данных.
Проект **PKOIN HPBN** — это основа для построения высокоскоростной, надежной и масштабируемой блокчейн-инфраструктуры, которая будет поддерживать растущие потребности в вычислительных ресурсах и данных.
ZLT say:
Если мы выбираем Intel как основную платформу для высокопроизводительного сервера, в том числе для узлов блокчейна, то стоит рассмотреть наиболее мощные решения, которые Intel может предложить для серверов, а также оптимизированную сетевую инфраструктуру. Вот подробное описание конфигурации на базе Intel в максимально возможной конфигурации с фокусом на производительность и сеть.
**1. Процессоры (CPU)**
Для максимальной производительности с Intel можно выбрать процессоры **Intel Xeon Scalable третьего поколения** (например, **Xeon Platinum 8380**), которые предлагают отличные возможности для параллельных вычислений и обработки данных.
**Процессоры:** 4 x Intel Xeon Platinum 8380 (40 ядер / 80 потоков каждый)
**Общая вычислительная мощность:** 160 ядер / 320 потоков
Эти процессоры обеспечивают поддержку масштабируемых серверных платформ, таких как **Intel Cascade Lake**, и подходят для самых интенсивных вычислительных задач, включая обработку больших объемов данных и виртуализацию.
**Технологии:** поддержка Intel Hyper-Threading, Intel Turbo Boost, Intel AVX-512 для вычислений с высокой точностью.
Поддержка **Intel Optane Persistent Memory** для повышения производительности работы с большими массивами данных и быстрого доступа к данным.
**2. Оперативная память (RAM)**
С учетом высокой производительности процессоров необходима большая пропускная способность памяти для эффективной работы с большими данными.
**Объем памяти:** 1-2 ТБ DDR4 ECC RDIMM (или Intel Optane DC Persistent Memory).
**Особенности:** Использование многоканальных контроллеров памяти для равномерного распределения нагрузки между процессорами и обеспечения высокой пропускной способности.
**Тип памяти:** DDR4 с поддержкой ECC для обеспечения целостности данных, что особенно важно для серверных решений.
**3. Хранилище (Storage)**
Для обработки больших объемов данных и обеспечения высокой производительности при работе с базой блокчейна потребуется ускоренная система хранения.
**NVMe SSD:** 100 x 15.36 ТБ SSD (PCIe 4.0, RAID 10), например, **Intel SSD D5-P5316**.
**Общий объем:** 1.5 ПБ (с RAID 10 для отказоустойчивости).
**Пропускная способность:** до 20-25 ГБ/с на каждый SSD.
**Ускорение I/O операций:** Использование **Intel Optane SSD** для кэширования данных и уменьшения задержек при операциях ввода-вывода.
**Сетевой хранилище:** Использование **Intel Data Center SSD** и программных решений для управления данными.
**4. Сетевые порты (Networking)**
Для обеспечения высокой пропускной способности и минимизации задержек в блокчейн-системах важно правильно настроить сетевую инфраструктуру. Сетевая подсистема должна поддерживать 100 и 400 GbE порты для обеспечения высокой скорости передачи данных.
**Основные порты:** 4 x 400 GbE Ethernet (например, **Mellanox ConnectX-7** или **Intel Ethernet 800 Series**).
**Резервные порты:** 4 x 100 GbE Ethernet (резерв для отказоустойчивости).
**Протокол RDMA** (Remote Direct Memory Access) для низкой задержки и высокой пропускной способности, что критически важно для обработки транзакций в блокчейне.
**Кабели:** Использование оптических кабелей **QSFP-DD** для 400 GbE и **QSFP28** для 100 GbE.
**Коммутаторы:** Высокоскоростные коммутаторы с поддержкой 400 GbE, такие как **Arista 7800R3** или **Mellanox Spectrum-4**.
**DWDM (Dense Wavelength Division Multiplexing)** для оптической передачи данных, что позволяет увеличить пропускную способность и снизить потери на больших расстояниях.
**5. Аппаратное ускорение (Hardware Acceleration)**
Для ускорения специфических вычислений и обработки данных на уровне блокчейна можно интегрировать специализированные ускорители.
**Графические процессоры:** 1 x **NVIDIA A100 80GB PCIe GPU** для ускорения операций машинного обучения, анализа данных и вычислений, связанных с блокчейном.
**RAID-контроллеры:** **Intel RAID 10 Controller** с поддержкой 100 GbE для ускорения операций с массивами данных.
**6. Питание (Power Supply)**
Поскольку сервер будет использовать высокопроизводительные процессоры и компоненты, потребуется мощная система питания для обеспечения стабильности работы.
**Блоки питания:** 4 x **3000W Platinum PSU** с резервированием 2+2 для обеспечения бесперебойного питания всех компонентов.
**Источник бесперебойного питания (ИБП):** Для обеспечения непрерывной работы необходим ИБП мощностью 25-30 кВт.
**7. Охлаждение**
Серверные решения с таким количеством процессоров и GPU потребуют эффективного охлаждения для поддержания стабильной работы при высоких нагрузках.
**Жидкостное охлаждение:** Использование жидкостных систем охлаждения для процессоров и GPU (например, **CoolIT Systems** или **Asetek**).
**Активное охлаждение для дисков и сетевых карт:** Дополнительные вентиляторы и теплоотводы для NVMe SSD и сетевых интерфейсов.
**8. Программное обеспечение**
Для управления сервером и его компонентами потребуется соответствующее программное обеспечение.
**Операционная система:** **Ubuntu Server 22.04 LTS** или **Red Hat Enterprise Linux** для оптимизации работы с NVMe и сетевой подсистемой.
**Контейнеризация:** **Docker + Kubernetes** для управления контейнерами и масштабируемыми приложениями.
**Мониторинг:** **Prometheus + Grafana** для мониторинга состояния сервера и обработки данных.
**Итоговая конфигурация:**
**Процессоры:** 4 x Intel Xeon Platinum 8380 (160 ядер, 320 потоков).
**Оперативная память:** 1-2 ТБ DDR4 ECC RDIMM.
**Хранилище:** 100 x 15.36 ТБ SSD PCIe 4.0 (RAID 10).
**Сетевые порты:** 4 x 400 GbE Ethernet, 4 x 100 GbE Ethernet.
**Аппаратное ускорение:** 1 x NVIDIA A100 80GB PCIe GPU.
**Питание:** 4 x 3000W Platinum PSU (резервирование 2+2).
**Охлаждение:** Жидкостное охлаждение и активное охлаждение для SSD и сетевых карт.
**Программное обеспечение:** Ubuntu Server 22.04 LTS, Docker, Kubernetes, Prometheus + Grafana.
Эта конфигурация обеспечит максимальную производительность и надежность при работе с большими объемами данных и высокоскоростной сетью.
Оценка бюджета для такой высокопроизводительной конфигурации зависит от множества факторов, включая цену компонентов на момент покупки, количество приобретаемых устройств, а также дополнительные расходы на установку, настройку и обслуживание. Однако, ориентировочно, можно выделить следующие ключевые компоненты и их стоимость.
**1. Процессоры (4 x Intel Xeon Platinum 8380)**
Цена одного процессора Intel Xeon Platinum 8380 (40 ядер, 80 потоков) составляет около **$10,000 - $12,000**.
**Итог:** 4 x $11,000 = **$44,000**
**2. Оперативная память (1-2 ТБ DDR4 ECC RDIMM)**
Цена за 1 ТБ DDR4 ECC RDIMM составляет около **$8,000 - $10,000**.
**Итог:** 2 ТБ (если выбраны) = **$20,000**
**3. Хранилище (100 x 15.36 ТБ SSD PCIe 4.0)**
Цена одного SSD NVMe 15.36 ТБ на базе PCIe 4.0 составляет около **$2,500 - $3,500**.
**Итог:** 100 x $3,000 = **$300,000**
**4. Сетевые порты (4 x 400 GbE Ethernet + 4 x 100 GbE Ethernet)**
Коммутаторы с поддержкой 400 GbE (например, **Arista 7800R3**) могут стоить около **$100,000 - $150,000** за один.
Стоимость 100 GbE интерфейсов и дополнительных компонентов (кабели, карты) - около **$10,000 - $20,000**.
**Итог:** Примерно **$200,000** для всей сетевой инфраструктуры.
**5. Аппаратное ускорение (1 x NVIDIA A100 80GB PCIe GPU)**
Цена одного NVIDIA A100 80GB PCIe GPU составляет около **$12,000 - $15,000**.
**Итог:** 1 x $13,500 = **$13,500**
**6. Питание (4 x 3000W Platinum PSU)**
Цена одного блока питания 3000W Platinum PSU составляет около **$1,500 - $2,500**.
**Итог:** 4 x $2,000 = **$8,000**
**7. Охлаждение (Жидкостное охлаждение и вентиляторы)**
Системы жидкостного охлаждения для серверов могут стоить около **$15,000 - $20,000**.
Дополнительные вентиляторы и компоненты охлаждения для SSD и сетевых карт — около **$5,000**.
**Итог:** **$25,000**
**8. Программное обеспечение (ОС, контейнеризация, мониторинг)**
Лицензии на ОС (например, Ubuntu Server или Red Hat): **$2,000 - $5,000**.
Docker, Kubernetes и мониторинг (Prometheus + Grafana) часто являются бесплатными решениями, но могут потребоваться дополнительные расходы на управление и мониторинг.
**Итог:** примерно **$5,000**.
**Общая стоимость:**
Подсчитав все компоненты, получаем приблизительную сумму:
Процессоры: **$44,000**
Оперативная память: **$20,000**
Хранилище: **$300,000**
Сетевые порты: **$200,000**
Аппаратное ускорение: **$13,500**
Питание: **$8,000**
Охлаждение: **$25,000**
Программное обеспечение: **$5,000**
**Итоговая стоимость:** **$615,500 - $640,500**
Это примерный бюджет, который может изменяться в зависимости от выбранных поставщиков и актуальности цен на компоненты. Дополнительные расходы могут включать транспортировку, установку и настройку оборудования, а также расходы на обслуживание в будущем.
**Итоговое заключение:**
Проект **PKOIN High-Performance Blockchain Node (HPBN)** представляет собой ключевой шаг в развитии блокчейн-сети PKOIN, обеспечивая необходимую вычислительную мощность, пропускную способность и отказоустойчивость для эффективного функционирования сети на глобальном уровне. Внедрение передовых технологий, таких как процессоры Intel Xeon, высокоскоростные сетевые порты 400 GbE, NVMe SSD и системы жидкостного охлаждения, позволит обеспечить стабильную работу сети в условиях интенсивной нагрузки и высокой скорости обработки данных. Проект гарантирует масштабируемость, надежность и безопасность инфраструктуры, что делает его важной вехой для будущего блокчейн-технологий.
Системы мониторинга и управления позволят своевременно реагировать на изменения в нагрузке, что повысит гибкость и безопасность сети. Инвестиции в данные технологии обеспечат долгосрочную устойчивость и экономическую эффективность, а также создадут основу для успешной интеграции с другими высокопроизводительными системами и блокчейн-экосистемами.
**Хэштеги:**
#PKOIN #Blockchain #HighPerformanceNode #IntelXeon #400GbE #NVMe #SSD #Scalability #Reliability #BlockchainTechnology #ServerInfrastructure #BlockchainNode #FutureOfBlockchain #TechInnovation #DataProcessing #CryptoInfrastructure #TechScalability #DataStorage #ServerPerformance #BlockchainGrowth #HPC #HighSpeedNetworking
How can #SBSP be competitive with terrestrial renewables (e.g., #solar, #wind), when the cost of renewables is falling rapidly and given the typically high costs of #launch and space hardware ?
SBSP could serve a complementary role to terrestrial #intermittent renewables, helping to provide #stability and #reliability to the grid. The remaining #energy received at Earth could still be sufficient to make it a worthwhile and economically viable proposition. https://www.esa.int/Enabling_Support/Space_Engineering_Technology/SOLARIS/FAQ_Frequently_Asked_Questions_on_Space-Based_Solar_Power
Protecting Undersea Internet Cables Is a Tech Nightmare
https://spectrum.ieee.org/undersea-internet-cables-protection-tech
#ycombinator #fiber_optic_cables #undersea_cables #internet_security #reliability #technology_and_society #maritime_technology #underwater_robots
<p>A recent, alleged Baltic Sea sabotage highlights…
IEEE SpectrumNearly half of EU citizens no longer see US as most important ally, survey shows
A growing number of #EU citizens are distancing themselves from the US, according to a survey by the Bertelsmann Stiftung Foundation on over 26,000 people in the 27-member states.
Around 49% believe #Washington is no longer their most important ally
A new survey reveals EU citizens are growing more and…
euronewsToday in Detecting Bad Science: Replication Failure. When independent researchers repeat a study, the results may be quite different. The hallmark of reliable knowledge is a successful independent replication. If another team of researchers repeat the study and find results in the same direction, with a similar effect size, you can be confident that the original result is a robust and generalizable finding.
https://detectingbadscience.wordpress.com/2024/11/03/replication-failure/
#replication #betterscience #reliability #science
When the original study is repeated, the findings turn…
Detecting Bad ScienceI need to rant. Maybe I have a few Resilience friends out there who can sympathize.
It's not OK to cut people off from complexity.
First of all, it's insulting. The action infuses itself with distrust. It is some sort of disgusting us-vs-them holdover from like 2005.
Second of all, the dogma of "the developer sits and works on their little piece and knows nothing about what goes on around them" doesn't work anymore. Interactions matter, sharing knowledge matters, working together to understand each other's limitations and where we can find adaptive capacity, that all matters. It's not stuff you can put on a pre-flight checklist or a runbook, it's relationship building.
When we build relationships across the boundaries of the technologies we're building, we learn how to see the interactions between them. If we are only on one side of the equation, we're missing the interaction. And that's where the learning happens, witnessing how the system interacts and updating our mental models.
When we share this activity, we form a more complete picture of the system between a more broadly trained set of people. We discover new ways of doing things because new perspectives are added. Diversity makes these interactions come alive.
So when leaders pull out their managerspeak dialectic and say to me "devs don't need to know anything about the orchestration system" ... that isn't what I'm hearing.
I'm hearing: "Control and simplification is more important than learning."