Dette doktorgradsprosjektet har som mål å forvandle hvordan sportsinnhold produseres ved å utvikle et innovativt AI-system som gjør prosessen raskere, billigere og mer effektiv. Tenk deg et system som automatisk kan oppdage viktige øyeblikk i en kamp, lage høydepunktsvideoer og sømløst integrere multimedia—alt med minimal menneskelig innsats. Dette er akkurat hva dette prosjektet tar sikte på å oppnå ved å utvikle en modulær AI-ramme som kan tilpasses behovene til ulike sportsorganisasjoner, fra store medieselskaper til mindre klubber.
Kjernen i dette systemet er en samtale-AI som gjør det enkelt for brukere å få de resultatene de ønsker uten å måtte forstå komplisert teknologi. Brukere forteller bare systemet hva de trenger, og AI-en tar seg av resten—den velger de riktige verktøyene og kombinerer dem på den beste måten for å få jobben gjort. Dette kan inkludere alt fra å gjenkjenne viktige hendelser i en kamp, kutte videoklipp, justere videoformatet, til å oppsummere hva som skjedde i både tekst og video.
Ved å automatisere disse tidkrevende og kostbare oppgavene, vil dette AI-systemet ikke bare spare penger og ressurser, men også åpne opp for nye muligheter for kreativitet og innovasjon innen sportsmedier. Det vil gjøre det mulig for innholdsskapere å jobbe mer effektivt, og levere spennende og skreddersydd innhold som møter det mangfoldige publikums behov verden over.
This PhD project aims to revolutionize sports media production by developing a modular, multimodal AI framework that significantly reduces labor, cost, and time when extracting content and creating highlight summaries. As the industry increasingly demands more efficient, low cost and adaptive technologies, this plug-and-play system integrates various AI modules to automate complex tasks such as event detection, highlight generation, multimedia integration, and other tedious and labor-intensive tasks, which are particularly costly for growing sports industries, media, leagues and clubs.
Central to this innovation is a conversational AI agent that simplifies user interaction, enabling easy customization and efficient operation tailored to specific project requirements. Users of this modular system only need to specify the task they want to accomplish; the conversational agent then selects, optimizes, and integrates the necessary developed internal AI modules — such as basic models for object detection, segmentation, tracking, and audio analyses, and then combined into more complex models for semantic understanding, event extraction, video clipping, aspect ration cropping, video and text summarisation, etc. The framework also includes intelligent algorithms for module configuration that optimize performance and resource utilization based on user input.
This comprehensive approach not only sets new standards for efficiency and innovation in sports media production, but also enhances the ability of content creators to meet diverse production needs and viewer preferences with unprecedented agility and creativity.