La plupart du temps, comme tu le cites, ce sont les textures et le son, mais il y a aussi les modèles 3d. Auparavant, la plupart des textures fonctionnait avec un seul fichier pour différentes résolutions. C'est à dire que pour une texture de mur par exemple, un utilisait un seul fichier pour gérer les modes low, medium et high. (genre 256px, 512px et 1024px dans le même fichier).
Dans les jeux les plus récents (et suivant les moteurs des jeux) il y'a parfois plusieurs fichiers de différentes résolution pour une même textures afin que ces textures soit les plus belles possible même en low. De plus auparavant la puissance des machines ne permettait pas de gérer des textures hautes résolution. généralement les développeurs se limitaient en 1024*1024px. (environ 3Mo par texture). De nos jours il n'est pas rare de croiser des textures en 4096*4096px. Qui pèse à elle toute seule 48 Mo (à comparer au 3Mo de la 1024 ça nous fait x16 en terme de poids).
On peut aussi voir le système big texture mis en place avec Wolfenstein the New order (et repris dans the old blood et le dernier doom) ou on a une texture unique pour une seule map. Une texture gigantesque qui peut à elle seule peser entre 1.5 et 4 Go. (on multiplie par le nombre de map et bim ! ça prend une place énorme).
De même Titanfall à mis en exergue la compression des fichiers sonore. Je crois que Titanfall (le premier) en version "son compressé" faisait environ 25 Go mais Respawn Entertainment à décidé de n'utiliser que des sons non compressés (sans doute du wave) afin d'optimiser les temps de chargements et rien que ça, ça à fait passer le jeu à plus de 50 Go.
Autre que les textures et les sons, les modèles 3D ont aussi beaucoup évolué, avec beaucoup plus de polygones à gérer. Ils sont devenus plus complexe et ont besoin de plus de texture qu'auparavant. à l'époque de la Xbox (la première) master chief "first gen" on avait une seule texture pour le personnage entier. Pour le master chief de Halo 5 on a quasiment autant de textures que d'éléments de son armures et même plusieurs textures "assemblé" pour simuler les différents matériaux et principe physique. (exemple, sa visière avec la réflexion / réfraction). Et bien sur le fichier 3d de base (sans texture donc) pèse plus lourd du fait du nombre de polygones en hausse.
Et le dernier point important, compresser et décompresser une texture pesant 3Mo prend bien moins de ressource qu'une texture à 48 Mo. Les développeurs intègre de moins en moins de système de compression car le hardware n'évolue pas aussi vite que les logiciels. Et décompresser les fichiers nécessaire au chargement d'une map produirait des temps de chargement trop long.
Tout ça mis bout à bout font que la taille des jeux explose. Après il y a toujours quelque studio qui arrivent à trouver une pirouette et font drastiquement baisser la taille de leur jeu, mais ça prend beaucoup de temps de développement et la plupart des studios préfèrent faire au plus simple (sauf quand il n'ont pas le choix, par exemple avec la nouvelle Nintendo Switch où la place sera forcément limité).
EDIT : autre chose que j'ai oublié de citer, la complexité des jeux en eux même. La plupart des textures, des modèles 3d et des effets visuels "définissent" la qualité visuel d'un jeu. La plupart du temps l'impact visuel n'est pas saisissant par rapport à un jeu d'ancienne gen. Parce qu'on se focalise sur la scène globale de ce qu'on voit à l'écran. Quand on passe d'une voiture "un peu anguleuse" à une voiture "un peu moins anguleuse" cela représente "visuellement" un changement mineur. On se dit "ok c'est un peu mieux, mais pas de quoi sauter de joie" sauf qu'au niveau technique, cela représente une sacré hausse.
Et l'environnement du jeu qu'il ne faut pas oublier ! "Avant" quand dans un fps on rentrait dans un restaurant, on avait une table quelque chaises, deux trois bouteilles et c'est tout. Maintenant, le même restaurant en version actuelle, nous avons beaucoup plus de tables et de chaises mais aussi tout plein de petit objets et de détails qui ne sont pas forcément visible au premier coup d'oeil, ou qui sont tellement "logique" qu'on ne les remarques même pas. Mais tout ces petits objets aussi insignifiant soient-ils ont eux aussi leur propre modèle 3d texture, voir son.