Start Over

Multiplication tenseur–vecteur haute performance sur des machines à memoire partagée

Authors :: Pawłowski, Filip
Uçar, Bora
Yzelman, Albert-Jan
Optimisation des ressources : modèles, algorithmes et ordonnancement (ROMA)
Inria Grenoble - Rhône-Alpes
Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire de l'Informatique du Parallélisme (LIP)
École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Centre National de la Recherche Scientifique (CNRS)
Huawei Technologies France [Boulogne-Billancourt]
Inria - Research Centre Grenoble – Rhône-Alpes
École normale supérieure - Lyon (ENS Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure - Lyon (ENS Lyon)-Université Claude Bernard Lyon 1 (UCBL)
Huawei Technologies France [Boulogne-Billancour]
Source :: [Research Report] RR-9274, Inria-Research Centre Grenoble – Rhône-Alpes. 2019, pp.1-20
Publication Year :: 2019
Publisher :: HAL CCSD, 2019.
Abstract: Tensor–vector multiplication is one of the core components in tensor computations. We have recently investigated high performance, single core implementation of this bandwidth-bound operation. In this work, we investigate efficient, shared memory algorithms to carry out this operation. Upon carefully analyzing the design space, we implement a number of alternatives using OpenMP and compare them experimentally. Experimental results on up to 8 socket systems show near peak performance for the proposed algorithms.; La multiplication tenseur–vecteur est l’un des composants essentiels des calculs de tenseurs. Nous avons récemment étudié cette opération, qui consomme la bande passante, sur une plateforme séquentielle. Dans ce travail, nous étudions des algorithmes efficaces pour effectuer cette opérationsur des machines à mémoire partagée. Après avoir soigneusement analysé les différentes alternatives, nous mettons en œuvre plusieurs d’entre elles en utilisant OpenMP, et nous les comparons expérimentalement. Les résultats expérimentaux sur un à huit systèmes de sockets montrent une performance quasi maximale pour les algorithmes proposés

Subjects :: Shared-memory parallel machines
Multiplication tenseur-vecteur
Tenseur
Tensors
Tensor–vector multiplication
Machines parallèles à mémoire partagée
[INFO.INFO-DC]Computer Science [cs]/Distributed, Parallel, and Cluster Computing [cs.DC]

Details

Language :: English
Database :: OpenAIRE
Journal :: [Research Report] RR-9274, Inria-Research Centre Grenoble – Rhône-Alpes. 2019, pp.1-20
Accession number :: edsair.dedup.wf.001..e86f2a6c51a8bfbdf24dba09b7512e88

Tools

Email
Cite

Printer

Authors Abstract Subjects Details

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Multiplication tenseur–vecteur haute performance sur des machines à memoire partagée

Abstract

Subjects

Details

Tools

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Multiplication tenseur–vecteur haute performance sur des machines à memoire partagée

Abstract

Subjects

Details

Tools

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources