МАТRИ – это очень амбициозный проект, который на техническом уровне создает открытый стек технологий для децентрализованного AI. Когда это будет сделано, модели, аналогичные GPT от OpenAI будут доступны всем желающим на равноправных и недискриминационных условиях.

Однако, любая децентрализованная платформа по умолчанию является платформой с нулевым доверием. Это ставит перед нами важную технологическую задачу - обеспечение конфиденциальности данных. Нужно дать возможность пользователю хранить и давать доступ к своим данным, но при этом исключить несанкционированный доступ к ним.

ДАМАСК – это первый из системообразующих продуктов MATRИ-стека, который отвечает на этот вызов

ДАМАСК обеспечивает конфиденциальность данных и делает утечки данных бесполезными

В команде 5 человек, сейчас активно ищем опытного и уверенного Middle Data Scientist.

Технические навыки:

Глубокое знание Python и/или R, опыт использования библиотек для анализа данных (Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch).
Умение разрабатывать и тестировать модели машинного обучения (регрессия, классификация, кластеризация).
Понимание архитектур глубокого обучения (нейронные сети, RNN, CNN, LSTM, Transformer).
Опыт использования фреймворков для глубокого обучения (TensorFlow, Keras, PyTorch).
Понимание работы трансформеров и GPT-моделей, опыт их использования или интеграции в проекты.
Опыт работы с языковыми моделями, включая fine-tuning, обучение с нуля, работа с предобученными моделями (например, GPT, BERT).

Знание архитектуры и принципов работы трансформеров и GPT-моделей:

Понимание механизма self-attention, многоголовых механизмов внимания, positional encoding, работы слоев трансформеров.
Опыт работы с генеративными языковыми моделями (GPT-3, GPT-4 и др.).
Умение применять GPT для генерации текста, решения задач обработки естественного языка (NLP) — классификация текста, извлечение сущностей, машинный перевод.

Технический стек:

Опыт работы с SQL для извлечения данных.
Знание основ статистики, A/B тестирования и интерпретации результатов.
Опыт работы с большими данными (Big Data), в том числе работа с распределёнными системами (Hadoop, Spark).
Опыт работы с облачными платформами для машинного обучения (AWS, Google Cloud, Azure).

Опыт работы:

2-4 года опыта работы в области Data Science.
Опыт работы с крупными наборами данных, их очисткой, трансформацией и анализом.
Реализованные проекты, включающие внедрение машинного обучения или глубокого обучения для решения бизнес-задач.

Условия:

Гибкое начало рабочего дня, мы вам доверяем;
Разумный гибрид - 1-2 дня нужно бывать в офисе для встреч с командой (Сколково, БЦ Амальтея);
ДМС со стоматологией оформляем с после испытательного срока;
Обучение и помощь в развитии - мы вкладываемся в ваше профессиональное развитие;
У нас работают адекватные и приятные люди, не душные и не снобы.

Как мы нанимаем:

Короткое интервью с HR по телефону;
Техническое собеседование с тимлидом команды максимум на 1,5 часа;
Оффер или обратная связь по встрече.

Data Scientist (Middle)