Back to Search
Start Over
Semantička segmentacija slika snimljenih iz perspektive pješaka
- Publication Year :
- 2023
- Publisher :
- Sveučilište u Zagrebu. Fakultet elektrotehnike i računarstva., 2023.
-
Abstract
- U diplomskom radu implementiran je sustav računalnog vida kojim se pokušalo riješiti problem semantičke segmentacije iz perspektive pješaka u namjeri da se koristi i izvršava u stvarnom vremenu. Naglasak je stavljen na omjer između učinkovitosti i uspješnosti, odnosno tražio sam model koji ima dobru točnost, ali je malog broja parametara zbog brzog izvršavanja. Takav model je DDRNet-23-slim, koji postiže rezultate koji su jedni od najboljih po omjeru brzine i točnosti. Preuzet je model koji je prethodno treniran na ImageNet i Cityscapes skupovima podataka, a do-treniran je koristeći Sidewalk Imagery skupu podataka. Najviša točnost koju je model dosegao prilikom treniranje je 51% mIoU. Različite kombinacija super-parametara i transformacija nad slikama skupa za treniranje nisu pomogle zbog male veličine skupa za treniranje. Model je zatim optimiziran za pokretanje pomoću PyTorch Android biblioteke na Android operativnom sustavu. Pokretanjem modela na Android uređaju moglo se zaključiti da točnost modela nije dovoljno dobra kako bi se uspješno mogao koristiti, iako je imao zadovoljavajuću brzinu izvođenja. Rezultati su uvelike odstupali od onih na računalu. Problem najvjerojatnije proizlazi iz optimizacije modela gdje se naruše njegovi parametri, zbog kojih više ne daje iste rezultate. The thesis implements a computer vision system aimed at solving the problem of semantic segmentation from the pedestrian's perspective, with the intention of using and executing it in real-time. The emphasis was placed on the balance between efficiency and effectiveness, that is, a model with good accuracy but a small number of parameters for fast execution was sought. The choice was DDRNet-23-slim, which achieves results that are among the best in terms of speed and accuracy. A pre-trained model on the ImageNet and Cityscapes datasets was used and the Sidewalk Imagery dataset was used to fine-tune the model. The highest accuracy the model achieved during training was 51% mIoU. Different combinations of hyperparameters and transformations on the training set images did not help due to the small size of the training set. The model was then optimized to run using the PyTorch Android library on the Android operating system. Running the model on an Android device showed that the accuracy of the model was not good enough to be successfully used, although it had satisfactory execution speed. The results differed greatly from those on the computer. The problem most likely stems from the optimization of the model, where its parameters are disrupted, causing it to no longer produce the same results.
Details
- Language :
- Croatian
- Database :
- OpenAIRE
- Accession number :
- edsair.od......4131..76a953bedf6fa4b2ee217af7e81529c3