Back to Search Start Over

Multiplication tenseur–vecteur haute performance sur des machines à memoire partagée

Authors :
Pawłowski, Filip
Uçar, Bora
Yzelman, Albert-Jan
Optimisation des ressources : modèles, algorithmes et ordonnancement (ROMA)
Inria Grenoble - Rhône-Alpes
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de l'Informatique du Parallélisme (LIP)
École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Centre National de la Recherche Scientifique (CNRS)
Huawei Technologies France [Boulogne-Billancourt]
Inria - Research Centre Grenoble – Rhône-Alpes
École normale supérieure - Lyon (ENS Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Lyon (ENS Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Huawei Technologies France [Boulogne-Billancour]
Source :
[Research Report] RR-9274, Inria-Research Centre Grenoble – Rhône-Alpes. 2019, pp.1-20
Publication Year :
2019
Publisher :
HAL CCSD, 2019.

Abstract

Tensor–vector multiplication is one of the core components in tensor computations. We have recently investigated high performance, single core implementation of this bandwidth-bound operation. In this work, we investigate efficient, shared memory algorithms to carry out this operation. Upon carefully analyzing the design space, we implement a number of alternatives using OpenMP and compare them experimentally. Experimental results on up to 8 socket systems show near peak performance for the proposed algorithms.; La multiplication tenseur–vecteur est l’un des composants essentiels des calculs de tenseurs. Nous avons récemment étudié cette opération, qui consomme la bande passante, sur une plateforme séquentielle. Dans ce travail, nous étudions des algorithmes efficaces pour effectuer cette opérationsur des machines à mémoire partagée. Après avoir soigneusement analysé les différentes alternatives, nous mettons en œuvre plusieurs d’entre elles en utilisant OpenMP, et nous les comparons expérimentalement. Les résultats expérimentaux sur un à huit systèmes de sockets montrent une performance quasi maximale pour les algorithmes proposés

Details

Language :
English
Database :
OpenAIRE
Journal :
[Research Report] RR-9274, Inria-Research Centre Grenoble – Rhône-Alpes. 2019, pp.1-20
Accession number :
edsair.dedup.wf.001..e86f2a6c51a8bfbdf24dba09b7512e88