In the field of instrumental learning, mammals are able to implement two different behavioral strategies to interact with the environment: goal directed behavior (GDB), computationally flexible but slow, suitable to learn new tasks and adapt to changing environments; and habitual behavior, hard-coded, but suitable for faster motor responses and facing recurrent tasks. The advantage of GDB resides in the use of an inner representation of the environment, a ‘model of the world’, to encode stimuli-actions-outcomes associations, and its exploitation to choose future actions, in a process called planning. GDB is supported by large-scale networks involving both cortical and subcortical regions. Nevertheless, several open questions still remain. The aim of this thesis is to contribute to the understanding of three open questions (declined in three studies) that pertain to the neural and computational mechanisms of GDB.In the first study, we investigated how complex computations, such as learning the model of the world and planning, can emerge from simple neural activity. To achieve that, we built a spiking neural network, able to encode stimulus-actions-outcomes associations as a hidden Markov model (HMM), using biologically inspired mechanisms such as spike-timing dependent plasticity (STDP), and to test this model to correctly plan actions in order to solve a visuomotor goal directed task. The performance of the model was validated on behavioral data from human participants that performed the same task.In the second study, we assessed the importance of striatum in encoding the reward prediction error (RPE) signals, a relevant update signal in most instrumental learning models. To do so, we analysed local field potentials (LFPs) recorded in rhesus macaque striatum while performing a probabilistic goal-directed learning task. Then, we computed the trial-by-trial RPE using a Q-learning model fitted on monkeys’ behavior. Our results showed a significant increase of mutual information (MI) between the beta-band (15-30Hz) oscillatory activity and the RPE after the outcome presentation. Moreover, such correlates of RPE signals form an anatomo-functional gradient in the striatum, showing stronger effects toward the rostro-ventral part and vanishing toward the caudo-dorsal part.In the third study, we investigated the neural correlates of GDB at the whole-brain cortical level in humans. To do so, we recorded the brain activity of human participants using magnetoencephalography (MEG) while they were performing a goal-directed causal learning task. We exploited cortical high-gamma activity (HGA, 60-120Hz) to map the spatio-temporal dynamics during learning. In particular, we used an ideal observer Bayesian model to estimate the trial-by-trial evolution of relevant behavioral variables, such as action-outcome probabilities and contingency values. We used MI and group-level cluster-based statics between HGA and those variables to obtain a whole brain profile of behavioral-dependent regions of interests’ activity, confirming some results from the literature., Dans le domaine de l'apprentissage instrumental, les mammifères sont capables de mettre en œuvre deux stratégies comportementales différentes pour interagir avec l'environnement: le comportement dirigé vers un but (“goal-directed behavior”, GDB), flexible sur le plan computationnel mais lent, adapté à l'apprentissage de nouvelles tâches et à l'adaptation à des environnements changeants; et le comportement habituel, encodé de façon rigide, mais adapté à des réponses motrices plus rapide, adapté aux tâches récurrentes. L'avantage du GDB réside dans l'utilisation d'une représentation interne de l'environnement, un ‘modèle du monde’, pour encoder les associations stimuli-actions-conséquences, et dans l'utilisation de ce modèle pour choisir les actions futures au cours du processus de planification. Le GDB est soutenu par des réseaux cérébraux à grande échelle impliquant des régions corticales et sous-corticales. Néanmoins, plusieurs questions ouvertes demeurent. L'objectif de cette thèse est de contribuer à la compréhension de trois questions ouvertes (déclinées en trois études) qui concernent les mécanismes neuronaux et computationnels du GDB.Dans une première étude, nous avons cherché à savoir comment des calculs complexes, tels que l'apprentissage du modèle du monde et la planification, peuvent émerger de l’activité neuronale. Pour ce faire, nous avons construit un réseau de neurones actifs, capable d'encoder des associations stimulus-actions-conséquences sous la forme d'un modèle de Markov caché (Hidden Markov Model, HMM), en utilisant des mécanismes d'inspiration biologique tels que la ‘spike-timing dependent plasticity’ (STDP), et d'utiliser ce modèle pour planifier correctement des actions afin de résoudre une tâche visuomotrice. Les performances du modèle ont été validées sur des données comportementales de participants humains ayant effectué la même tâche.Dans une deuxième étude, nous avons évalué l'importance du striatum dans l'encodage de l'erreur de prédiction de la récompense (Reward Prediction Error, RPE), un signal de mise à jour pertinent dans la plupart des modèles d'apprentissage instrumental. Pour ce faire, nous avons analysé les potentiels de champ locaux (Local Field Potentials, LFP) enregistrés dans le striatum de macaques rhésus pendant l'exécution d'une tâche d'apprentissage probabiliste dirigée vers un but. Ensuite, nous avons calculé la RPE essai par essai en utilisant un modèle de ‘Q-learning’ adapté au comportement des singes. Nos résultats ont montré une augmentation significative de l'information mutuelle (Mutual Information, MI) entre l'activité oscillatoire dans la bande bêta (15-30 Hz) et la RPE après le résultat de l’action. De plus l'information sur la RPE forme un gradient impliquant l'ensemble du striatum, plus intense dans la partie rostro-ventrale que dans la partie caudo-dorsale.Dans la troisième étude, nous avons étudié les corrélats neuronaux du GDB au niveau cortical du cerveau entier chez l'homme. Pour ce faire, nous avons enregistré l'activité corticale de participants humains à l'aide de la magnétoencéphalographie (MEG) pendant qu'ils effectuaient une tâche d'apprentissage causal dirigée vers un but. Nous nous sommes concentrés sur l'extraction et l'analyse de l'activité oscillatoire dans la bande gamma haute (High-Gamma Activity, HGA 60-120 Hz) pour mapper la dynamique spatio-temporelle pendant l'apprentissage. Ensuite, nous avons utilisé un modèle Bayésien d'observateur idéal pour estimer l'évolution essai par essai des variables comportementales pertinentes, telles que les probabilités de résultats d'action et les valeurs de contingence. Nous avons utilisé la MI et des statiques au niveau du groupe basées sur le cluster entre le HGA et ces variables pour obtenir un profil du cerveau entier de l'activité des régions d'intérêt dépendant du comportement, confirmant certains résultats de la littérature.