Master's Thesis

Artificial Intelligence for Video Sonification

Final Thesis 7.02 MB Appendix 7.74 MB

Author of thesis: Ing. Filip Dobrocký

Acad. year: 2022/2023

Supervisor: doc. Ing. Kamil Říha, Ph.D.

Reviewer: prof. Ing. Radim Burget, Ph.D.

Abstract:

This thesis deals with the topic of video sonification – the transformation of image into sound. It aims to use state-of-the-art techniques of computer vision based on artificial intelligence to create a system capable of algorithmic sound creation applicable in the art context. The focus is put on the fields of sound art, algorithmic composition and generative music. The thesis includes an implementation of a modular sonification system which utilizes the modern object detector YOLOv7 along with a multiple object tracking algorithm (implemented in the library Norfair), built using the programming language Python. The fundementals of the system lie in systematic assignment of sound objects to objects tracked in the video. The sound creation relies on the SuperCollider platform using the Python API Supriya, incorporating various methods of sound synthesis along with a programmatically created sound database.

Keywords:

sonification, interactive music, algorithmic composition, sound art, computer vision, artificial intelligence, object detection, multiple object tracking, YOLO, SuperCollider

Date of defence

08.06.2023

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci. Student odpověděl na otázky členů komise a oponenta: Existují projekty, které s pomocí sonifikace umožňují lepší vhled pro monitoring datového provozu v síti? Uveďte srovnání výhod a nevýhod mezi vizualizací a sonifikací. Jak byly propojeny vizuální parametry do zvuku? Jaká syntéza a její parametry byly použity? V jaké části práce byla použita umělá inteligence? Na mapování atribut?

Language of thesis

Czech

Faculty

Department

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

Doc.Ing.MgA. Ondřej Urban, Ph.D. (předseda)
doc. Ing. Kamil Říha, Ph.D. (místopředseda)
Ing. František Rund, Ph.D. (člen)
MgA. et Mgr. Ondřej Jirásek, Ph.D. (člen)
Mgr. Tomáš Staudek, Ph.D. (člen)
Ing. Štěpán Miklánek, Ph.D. (člen)
MgA. Jan Kavan, Ph.D. (člen)

Supervisor’s report
doc. Ing. Kamil Říha, Ph.D.

Student pracoval na tématu průběžně a zodpovědně. V souladu se zadáním navrhl a zprovoznil kompletní řetězec sonifikace videa. Formálně i technicky je práce na velmi vysoké úrovni, technicky je možné vyzdvihnout propracovanost navržené metodiky umělecké sonifikace pomocí moderních nástrojů z oblasti zpracování obrazu i zvuku. Celkově hodnotím práci jako výbornou 100 bodů. Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
prof. Ing. Radim Burget, Ph.D.

Diplomová práce má 68 stran textu, je členěna do 4 kapitol včetně úvodu a závěru, obsahuje souhrn literatury, seznam symbolů a zkratek, další závěr a tři přílohy. Zabývá se tzv. sonifikací audia, což je použití neřečového zvuku k poskytnutí informací člověku. Data jsou převáděna do zvukových signálů, které mohou být slyšeny a interpretovány lidmi. Jako součást práce vznikl software psaný v jazyce python, který se skládá z několika poměrně pokročilých funkcí pro porozumění obrazu a také pro syntézu zvuku.
Na práci oceňuji originalitu a propojení umění společně s technikou. Student se musel vypořádat s poměrně odlišnou doménou, než která je v rámci výuky představena. Myšlenka sonifikace není zcela nová (např. radiologie, seismologie atp. tuto technologii využívá), nicméně zaměření tohoto projektu je originální.
Nedostatkem práce je, že schází zhodnocení dosažených výsledků. Je zřejmé, že objektivní hodnocení není snadné/možné, nicméně i přesto by subjektivní zhodnocení dosaženého výsledku osobami bylo žádoucí.
Cíle projektu byly splněny a jedná se o projekt svojí podstatou unikátní. Topics for thesis defence:
  1. Existují projekty, které s pomocí sonifikace umožňují lepší vhled pro monitoring datového provozu v síti? Uveďte srovnání výhod a nevýhod mezi vizualizací a sonifikací.
Points proposed by reviewer: 90
Display more

Grade proposed by reviewer: A