### Филологическая экспертиза в OSINT: что это и как её применять
Филологическая (лингвистическая) экспертиза в открыто-доступной разведке — это набор методов анализа текста, которые позволяют по языковым признакам установить или подтвердить:
- авторство текста
- регион/страну/город носителя языка
- социокультурный профиль автора (возраст, пол, образование, профессия)
- факт фальсификации или редактирования текста
- использование бот-ферм, троллей, ИИ-генерации
- психологический портрет и даже некоторые биографические данные
Это один из самых мощных и одновременно недооценённых инструментов OSINT, особенно в русскоязычном сегменте.
#### Основные направления филологической экспертизы в OSINT
1. **Идиолект и авторский почерк**
- характерные словоупотребления, любимые обороты
- частотность редких слов и конструкций
- синтаксические предпочтения (например, любовь к причастным оборотам или к «который» вместо деепричастий)
Инструменты: AntConc, Sketch Engine, LancsBox, собственные скрипты на Python (stylo, nltk)
2. **Диалектология и геолингвистические маркеры**
Русский язык очень сильно различается по регионам:
- «курей» vs «кур» (Кубань vs центр России)
- «шо»/«шоу» vs «что» (Украина/юг России)
- «по-над» vs «над» (Поволжье, Сибирь)
- белорусские и прибалтийские субстратные влияния
- кавказский акцент в письменной речи («да» в конце предложения, «бери» вместо «возьми»)
3. **Социолект и возрастные маркеры**
- молодёжный сленг 2015–2018 гг. vs сленг 2023–2025 гг.
- профессиональный жаргон (военные, IT, медики, силовики)
- «ватный» vs «либеральный» новояз
4. **Обнаружение ИИ-генерированного текста** (очень актуально с 2023 года)
Признаки ChatGPT/YandexGPT/Kandinsky/Gemini в русском:
- избыточная вежливость и политкорректность
- повторяющиеся шаблоны «Важно отметить, что…», «Следует подчеркнуть…»
- неестественная частотность слов «аспект», «контекст», «парадигма»
- отсутствие диалектных и сниженных элементов даже в «неформальном» стиле
Инструменты-детекторы: GPTZero, Originality.ai, ZeroGPT, HuggingFace open-source detectors (русский пока слабо, но обучается)
5. **Обнаружение «троллинга под чужую культуру»**
Классические ошибки иностранцев, пишущих «от лица русских»:
- неправильное употребление вида глагола (особенно совершенный вид в будущем)
- «в Украине» вместо «на Украине» у старшего поколения
- «позвони мне по телефону» вместо «позвони мне»
- «я живу в Россия»
6. **Хронологическая привязка текста**
По появлению новых слов и конструкций можно датировать текст с точностью до 1–3 лет:
- «повесточка» — после февраля 2022
- «мобилизация» в новом значении — с сентября 2022
- «СВО» как аббревиатура — с 2022
#### Практические приёмы и инструменты (2025 год)
- Корпусный анализ: Национальный корпус русского языка (ruscorpora.ru), Aranea, Sketch Engine
- Стилометрия: пакет R «stylo» (очень точно определяет авторство даже на 300–500 словах)
- Поиск по точным фразам в кавычках в Telegram-каналах и ВК-группах
- Сравнение с известными текстами подозреваемого (соцсети, старые статьи)
- Анализ пунктуации и орфографии (очень индивидуален: кто-то всегда ставит тире, кто-то — дефисы)
#### Кейсы, где филологическая экспертиза решает задачу
- Установление, что «анонимный телеграм-канал» ведёт тот же человек, что и старый ЖЖ 2014 года
- Доказательство, что «украинский националист» на самом деле пишет из Подмосковья (по фразе «пойти в магазин» вместо «пойти в крамницу»)
- Выявление, что пресс-релизы «разных» организаций написаны одним копирайтером (одинаковые редкие слова)
- Доказательство фейка: текст «от лица беженца из Мариуполя» использует лексику, появившуюся только в 2023 году
Филологическая экспертиза — это когда по 100–200 словам текста ты можешь сказать, из какого города человек, сколько ему лет, какое у него образование и даже курит он или нет (по частотности частицы «блин» и матерным конструкциям).
В 2025 году это один из немногих методов OSINT, который почти не поддаётся маскировке — можно сменить IP, аватарку, ник, но идиолект выдаёт с потрохами.
Если нужно — могу разобрать конкретный текст или канал на примерах.
Можно добавить компактный пакет хэштегов и библиографический блок, который удобно прикреплять к посту или к файлу.
Хэштеги
#OSINT #Linguistics #ForensicLinguistics #Filology #ThreatIntel #Attribution #LanguageAnalysis #RusOSINT #Диалектология #Стилометрия #Геолингвистика #АнализТекста #DigitalForensics #InfoSec #CyberOSINT #Disinfo #AItextDetection
Библиография (краткая, прикладная)
**Классические и академические источники**
– Б. Крон, «Форензная лингвистика».
– Дж. Грант, «Attribution in Forensic Linguistics».
– М. Coulthard & A. Johnson, *An Introduction to Forensic Linguistics*.
– M. Koppel, J. Schler, S. Argamon. “Authorship Attribution in the Wild”.
– R. Grieve. *Quantitative Authorship Analysis*.
**Русскоязычная база**
– И. Б. Иткин, «Криминалистическая лингвистика».
– А. А. Зализняк, материалы по русской диалектологии.
– Национальный корпус русского языка (ruscorpora.ru).
– Aranea Corpora (aranea-corpora).
– Лаборатория компьютерной лингвистики ВШЭ (публикации по стилометрии).
**Практические инструменты**
– R package **stylo** (Eder et al.)
– AntConc (L. Anthony)
– Sketch Engine (Kilgarriff et al.)
– LancsBox (UCREL Lancaster)
– Open-source AI-text detectors (HuggingFace Hub)
Если потребуется, могу собрать расширенную библиографию именно под OSINT-кейсы или под русскоязычный сегмент.
retroshare://channel?name=%23%23%23%20%D0%A4%D0%B8%D0%BB%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F%20%D1%8D%D0%BA%D1%81%D0%BF%D0%B5%D1%80%D1%82%D0%B8%D0%B7%D0%B0%20%D0%B2%20OSINT%3A%20%D1%87%D1%82%D0%BE%20%D1%8D%D1%82%D0%BE%20%D0%B8%20%D0%BA%D0%B0%D0%BA%20%D0%B5%D1%91%20%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D1%8F%D1%82%D1%8C&id=693baa50075a061f1e3f5a5e068aee9a&msgid=1558a95b78253998c2e568f512cc754a77c78e3c