Calin Sandu

An attention mechanism is a key component in artificial neural networks, particularly in sequence modeling and natural language processing. It enables models to focus on specific parts of input data (such as words in a sentence) when making predictions or generating output.
In a nutshell, instead of the model treating all parts of the input sequence equally, the attention mechanism allows it to assign different..

ml-nn.eu/a1/39.html

#Programming #MachineLearning #NeuralNetworks #Python #AI

Attention Mechanism

Machine Learning & Neural Networks Blog

ml-nn.eu
Calin Sandu

Markov Decision Processes (MDPs

Markov Decision Processes (MDPs) are mathematical frameworks used to model decision-making in environments where outcomes are partly random and partly under the control of a decision maker. They are widely used in various fields, including artificial intelligence, robotics, economics, and operations research, to optimize decisions over time.

ml-nn.eu/a1/49.html

#Programming #MachineLearning #NeuralNetworks #Python #AI

Markov Decision Processes (MDPs)

Machine Learning & Neural Networks Blog

ml-nn.eu
Gert :debian: :gnu: :linux:

Nel caso non foste ancora riusciti ad implementare la vostra rete neurale per vincere al Lotto, questo potrebbe aiutare 🙂
#neuralnetworks
direct.mit.edu/books/oa-monogr

Mar 09, 2025, 17:43 · · · Mastodon for Android · 0 · 1
Leanpub

Your First Machine Learning Book: A Gentle Introduction to the Science Behind Modern AI leanpub.com/yourfirstmachinele by Peng Shao is the featured book on the Leanpub homepage! leanpub.com #Ai #MachineLearning #DataScience #DeepLearning #NeuralNetworks #books #ebooks

Ever wonder how search engines seem to read your mind, or why your social media feed feels like it knows you?

Find it on Leanpub!

InterNews112

### Современные текстовые нейросети: от теории к практике
Начало 2025 года ознаменовалось динамичным развитием технологий искусственного интеллекта, где ключевую роль играют крупные языковые модели. Китайская компания DeepSeek бросила вызов лидерам рынка, представив бесплатный чат-бот с открытым исходным кодом, что спровоцировало снижение акций NVIDIA на 10% и заставило Кремниевую долину пересмотреть свои стратегии[1]. Этот прорыв демонстрирует, как новые подходы к обучению моделей и оптимизации вычислительных ресурсов трансформируют индустрию ИИ.
## Основные понятия: нейросети и токенизация
Искусственные нейронные сети имитируют работу человеческого мозга, используя многослойные структуры взаимосвязанных "нейронов" для обработки информации. В контексте языковых моделей это проявляется в способности анализировать и генерировать текст, выявляя сложные закономерности в данных[1].
**Токенизация** представляет собой процесс разбиения текста на смысловые единицы. Например, предложение "ИИ меняет мир" распадается на три токена: ["ИИ", "меняет", "мир"]. Современные языковые модели оперируют контекстными окнами от 4 тыс. до 1 млн токенов, что определяет их способность "запоминать" предыдущие взаимодействия[1].
## Ведущие языковые модели
### OpenAI ChatGPT
Пионер в области языковых моделей, представивший GPT-4 и ChatGPT-5, поддерживающие до 128 тыс. токенов контекста. Универсальность позволяет использовать их как для создания художественных текстов, так и для анализа юридических документов[1]. Коммерческое API стоит $0.03 за 1 тыс. токенов ввода и требует строгой модерации контента.
**Автомобильный аналог**: Mercedes-Benz. **Слоган**: "Лучшее или ничего".
**Ссылка**: chat.openai.com/
### DeepSeek-V3
Китайская разработка с открытым исходным кодом, потрясшая рынок технологических компаний. Использует инновационные методы обучения, сокращая бюджет разработки до $6 млн по сравнению с многомиллиардными затратами конкурентов[1]. Бесплатный доступ через приложение R1 с контекстным окном 32 тыс. токенов делает её популярной среди исследователей.
**Автомобильный аналог**: Tesla. **Слоган**: "Ускоряя переход к устойчивой энергетике".
**Ссылка**: chat.deepseek.com/
### Anthropic Claude 3
Разработка, ориентированная на анализ длинных текстов с рекордным контекстом в 1 млн токенов. Оптимальна для работы с технической документацией, однако стоимость API достигает $0.25 за 1 тыс. выходных токенов. Отличается строгими этическими фильтрами контента[2].
**Автомобильный аналог**: Volvo. **Слоган**: "For life".
**Ссылка**: anthropic.com/claude
### Qwen2.5
Совместный проект Alibaba и китайских исследовательских институтов. Поддерживает 64 тыс. токенов и ориентирован на мультиязычность, демонстрируя лучшие результаты для азиатских языков[3]. Бесплатная версия доступна через облачный сервис Aliyun.
**Автомобильный аналог**: Toyota. **Слоган**: "Let's Go Places".
**Ссылка**: qianwen.aliyun.com/
## Сравнительный анализ моделей
**Глубина анализа**:
- ChatGPT: 9/10 (универсальность)
- DeepSeek: 8.5/10 (исследовательская направленность)
- Claude 3: 9.5/10 (работа с длинными текстами)
- Qwen2.5: 8/10 (мультиязычность)
**Экономическая эффективность**:
- DeepSeek R1: бесплатно (32k токенов)
- ChatGPT Plus: $20/мес (128k токенов)
- Claude Team: $30/мес (1M токенов)
- Qwen2.5: бесплатно через Aliyun (64k токенов)
**Ограничения**:
- Политическая цензура у китайских моделей
- Высокие требования к оборудованию для локального запуска
- Возможные задержки ответа в облачных решениях при высокой нагрузке
## Будущее индустрии
Падение акций NVIDIA на 10% после выхода DeepSeek свидетельствует о переходе фокуса с аппаратных мощностей на алгоритмическую эффективность. По прогнозам Citi, к 2026 году 70% задач обработки естественного языка будут выполняться моделями с открытым исходным кодом[3].
Развитие локальных решений создаёт новый рынок "персонализированных ИИ", где пользователи смогут обучать модели под свои нужды без зависимости от облачных платформ. Это особенно важно для малого бизнеса и независимых исследователей[4].
## Локальные нейросети: установка и настройка
Платформа **Ollama** делает запуск ИИ-моделей доступным для персональных компьютеров. Требования:
- Видеокарта с 8+ ГБ памяти (RTX 2070/4060)
- 16 ГБ оперативной памяти
- Поддержка CUDA (NVIDIA) или ROCm (AMD)
Установка через терминал:
```bash
curl -fsSL ollama.ai/install.sh | sh
ollama run llama3
```
Этот код запускает модель LLaMA 3 с контекстом 8 тыс. токенов. Пользователи отмечают удобную интеграцию с Python-библиотеками для создания кастомных решений, хотя возможны трудности с мультиязычными ответами[6].
**Автомобильный аналог**: Jeep. **Слоган**: "Go Anywhere, Do Anything".
**Ссылка**: ollama.ai/
## Заключение
Выбор языковой модели зависит от конкретных задач: DeepSeek предлагает лучшую стоимость для академических исследований, ChatGPT остаётся лидером в универсальности, Claude 3 выделяется обработкой длинных текстов, а Qwen2.5 выигрывает в мультиязычности[5]. С развитием технологий токенизация и оптимизация вычислений продолжат играть ключевую роль в удешевлении и ускорении обработки данных.
### Хэштеги:
#AI #MachineLearning #NeuralNetworks #DeepLearning #NLP #LLM #ChatGPT #ClaudeAI #DeepSeek #Qwen #Ollama #Tokenization #OpenSourceAI #TechTrends #AIResearch #AIModels #AIInnovation
### Литература:
1. Bengio Y., Goodfellow I., Courville A. *Deep Learning*. MIT Press, 2016.
2. Vaswani A. et al. *Attention is All You Need*. NeurIPS, 2017.
3. Brown T. et al. *Language Models are Few-Shot Learners*. NeurIPS, 2020.
4. OpenAI Research. *Scaling Laws for Neural Language Models*, 2020.
5. Hestness J. et al. *Deep Learning Scaling is Predictable, Empirically*. arXiv:1712.00409, 2017.
6. Radford A. et al. *Improving Language Understanding by Generative Pre-Training*. OpenAI, 2018.
7. DeepSeek AI. *Technical Report on DeepSeek-V3*, 2025.
8. Anthropic AI. *Claude Model Architecture and Capabilities*, 2024.
9. Alibaba Cloud Research. *Qwen Model Overview*, 2024.
10. NVIDIA AI Labs. *Future of AI Hardware and Optimization*, 2024.
11. Citigroup AI Analysis. *Market Trends in LLM Development*, 2025.
12. Stanford NLP Group. *Comprehensive Guide to Tokenization*, 2023.

bastyon.com/post?s=47273c436dc

Calin Sandu

Natural Language Processing (NLP) has undergone revolutionary advancements in recent years, largely driven by the adoption of neural networks. These sophisticated computational models have transformed how machines understand, interpret, and generate human language.

ml-nn.eu/a1/64.html

#Programming #MachineLearning #NeuralNetworks #Python #AI

How Neural Networks Power Natural Language Processing

Machine Learning & Neural Networks Blog

ml-nn.eu
datatofu

Consider performing risk assessments using GNNs. Early risk assessments using graphs can mitigate losses and produce results beyond the purview of traditional methods.

E.g.: using a TH-GNN enables viewing companies and their respective investors as individual tribes.

This makes discerning risky companies from normal companies more manageable.

datatofu.wordpress.com

Tags: #ai #linux #tech #datascience #opensource #python #rstats #neuralnetworks

Miguel Afonso Caetano

Tell me about it...

"Artificial intelligence (AI) systems with human-level reasoning are unlikely to be achieved through the approach and technology that have dominated the current boom in AI, according to a survey of hundreds of people working in the field.

More than three-quarters of respondents said that enlarging current AI systems ― an approach that has been hugely successful in enhancing their performance over the past few years ― is unlikely to lead to what is known as artificial general intelligence (AGI). An even higher proportion said that neural networks, the fundamental technology behind generative AI, alone probably cannot match or surpass human intelligence. And the very pursuit of these capabilities also provokes scepticism: less than one-quarter of respondents said that achieving AGI should be the core mission of the AI research community.

"I don’t know if reaching human-level intelligence is the right goal,” says Francesca Rossi, an AI researcher at IBM in Yorktown Heights, New York, who spearheaded the survey in her role as president of the Association for the Advancement of Artificial Intelligence (AAAI) in Washington DC. “AI should support human growth, learning and improvement, not replace us.”

The survey results were unveiled in Philadelphia, Pennsylvania, on Saturday at the annual meeting of the AAAI. They include responses from more than 475 AAAI members, 67% of them academics."

nature.com/articles/d41586-025

#AI #GenerativeAI #AGI #NeuralNetworks #DeepLearning #LLMs

Technische Universität München

To train #neuralnetworks more efficiently and reduce #energyconsumption, researchers developed a method that directly calculates parameters based on probabilities, rather than using an iterative approach: go.tum.de/972782

#AI #LLMs #MachineLearning

📷V.Hohenegger / LRZ

New method significantly reduces AI energy consumption

Researchers at TUM have developed a method that trains…

www.tum.de
Tariq

People seem to really like one of my earlier projects.

It was even translated into 7 other languages !

"Make Your Own Neural Network"

* no previous expertise needed
* introduces basic python and Jupyter notebooks
* explains learning from examples
* builds a simple network to classify handwritten numbers

www.amazon.com/dp/B01EER4Z4G/

all the code is on GitHub
github.com/makeyourownneuralne

#python #machinelearning #neuralnetworks

Nicola Fabiano :xmpp:

4/4
📝 What’s next?

Tomorrow, I will organize and prepare the submissions and consider the proofs to be corrected, but my mind is already moving forward. The next project? Probably a novel. A story has been knocking on the door of my imagination for some time now. Stay tuned for what’s coming next!

#AI #artificialintelligence #DataProtection #NeuralNetworks