Мы ищем Data Scientist на проект, связанный с NLP. Стек: python + sklearn, pandas, numpy, scipy, matplotlib и т.д.
Вместе с нами тебе предстоит решать задачи по:
- Разработке нейросетевых и детерминированных моделей (суммаризация текста, детекция галюцинаций, определение токсичности текста, умный поиск);
- Классификации документов, кластеризация текстов, NER;
- Дистиляции моделей.
Какие требования и навыки для нас важны:
- Высшее физико-математическое / техническое / экономическое образование;
- Готовность работать на территории РФ;
- Основы линейной алгебры, методов оптимизации, теории вероятностей и математической статистики;
- Основы машинного обучения и методов анализа данных;
- Уверенное владение стандартным стеком python-библиотек (sklearn, pandas, numpy, scipy, matplotlib, LightGBM и т.д.)
- Основы SQL, git;
- Знание классических методов обработки текстов и извлечения признаков из них (токенизация, лемматизация, bag-of-words,…);
- Знакомство с PyTorch;
- Общее понимание задач, которые решаются в NLP: Sentiment Analysis, NER, RE, QA, Summarization, Topic Modeling;
- Опыт работы с библиотеками NLTK, SpaCy, gensim, transformers.
Будет плюсом:
- Опыт оптимизации и дистиляции нейросетевых моделей;
- Опыт промт-инжениринга;
- Опыт миграции с Python на C;
- Опыт внедрения моделей в промышленную среду (docker, mlflow).