Transkun — это современная open-source модель для автоматической транскрипции фортепианной музыки (Audio-to-MIDI). Официальная страничка модели: здесь. Она считается одной из лучших (SOTA — State of the Art) в своем классе. Модель умеет распознавать не только сами ноты, но и их длительность, громкость (velocity) и использование педали. В отличие от многих старых моделей, которые анализируют музыку «покадрово» (frame-based), Transkun использует подход Neural Semi-CRF (semi-Markov Conditional Random Field). Вместо того чтобы спрашивать «звучит ли нота в эту миллисекунду?», модель рассматривает события как цельные интервалы (от начала до конца ноты). В последних версиях используется Transformer (Non-Hierarchical Transformer), который вычисляет вероятность того, что определенный отрезок времени является нотой. Декодинг: Используется алгоритм Витерби (Viterbi) для поиска наиболее вероятной последовательности непересекающихся интервалов. Модель показывает отличные результаты на датасете MAESTRO (стандарт индустрии).
