МАТRИ – это очень амбициозный проект, который на техническом уровне создает открытый стек технологий для децентрализованного AI. Когда это будет сделано, модели, аналогичные GPT от OpenAI будут доступны всем желающим на равноправных и недискриминационных условиях.
Однако, любая децентрализованная платформа по умолчанию является платформой с нулевым доверием. Это ставит перед нами важную технологическую задачу - обеспечение конфиденциальности данных. Нужно дать возможность пользователю хранить и давать доступ к своим данным, но при этом исключить несанкционированный доступ к ним.
ДАМАСК – это первый из системообразующих продуктов MATRИ-стека, который отвечает на этот вызов
ДАМАСК обеспечивает конфиденциальность данных и делает утечки данных бесполезными
В команде 5 человек, сейчас активно ищем опытного и уверенного Middle Data Scientist.
Технические навыки:
- Глубокое знание Python и/или R, опыт использования библиотек для анализа данных (Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch).
- Умение разрабатывать и тестировать модели машинного обучения (регрессия, классификация, кластеризация).
- Понимание архитектур глубокого обучения (нейронные сети, RNN, CNN, LSTM, Transformer).
- Опыт использования фреймворков для глубокого обучения (TensorFlow, Keras, PyTorch).
- Понимание работы трансформеров и GPT-моделей, опыт их использования или интеграции в проекты.
- Опыт работы с языковыми моделями, включая fine-tuning, обучение с нуля, работа с предобученными моделями (например, GPT, BERT).
Знание архитектуры и принципов работы трансформеров и GPT-моделей:
- Понимание механизма self-attention, многоголовых механизмов внимания, positional encoding, работы слоев трансформеров.
- Опыт работы с генеративными языковыми моделями (GPT-3, GPT-4 и др.).
- Умение применять GPT для генерации текста, решения задач обработки естественного языка (NLP) — классификация текста, извлечение сущностей, машинный перевод.
Технический стек:
- Опыт работы с SQL для извлечения данных.
- Знание основ статистики, A/B тестирования и интерпретации результатов.
- Опыт работы с большими данными (Big Data), в том числе работа с распределёнными системами (Hadoop, Spark).
- Опыт работы с облачными платформами для машинного обучения (AWS, Google Cloud, Azure).
Опыт работы:
- 2-4 года опыта работы в области Data Science.
- Опыт работы с крупными наборами данных, их очисткой, трансформацией и анализом.
- Реализованные проекты, включающие внедрение машинного обучения или глубокого обучения для решения бизнес-задач.
Условия:
- Гибкое начало рабочего дня, мы вам доверяем;
- Разумный гибрид - 1-2 дня нужно бывать в офисе для встреч с командой (Сколково, БЦ Амальтея);
- ДМС со стоматологией оформляем с после испытательного срока;
- Обучение и помощь в развитии - мы вкладываемся в ваше профессиональное развитие;
- У нас работают адекватные и приятные люди, не душные и не снобы.
Как мы нанимаем:
- Короткое интервью с HR по телефону;
- Техническое собеседование с тимлидом команды максимум на 1,5 часа;
- Оффер или обратная связь по встрече.