Définition des virus
Cartographie des virus informatiques

Michel Dubois
myshell.dubois@neuf.fr
http://vaccin.sourceforge.net


1  Cartographie des virus actuels

Il est difficile d'obtenir des données statistiques fiables sur les virus informatiques. En effet, les éditeurs de logiciels antivirus, pour des raisons commerciales, communiquent peu sur les alertes virales qu'ils reçoivent. Généralement, ils publient un top dix mensuel des infections informatiques les plus virulentes.

Les seules statistiques indépendantes, détaillant les attaques virales sur une période de temps statistiquement significative, sont données par la WildList [1] et par le magazine Virus Bulletin [2]. En fait, Virus Bulletin collecte les données fournies par la WildList et les compile avec celles qu'il obtient par diverses autres sources. À partir de ces données, il calcule mensuellement le taux de prévalence de chaque virus.

La prévalence est une donnée utilisée en épidémiologie1 qui permet de qualifier l'étendue d'une maladie sur une population donnée potentiellement vulnérable. La définition de la prévalence est la suivante:

Définition 1   La prévalence d'une maladie dans une population cible correspond au ratio du nombre de cas existants de cette maladie à un instant donné et du nombre d'individus potentiellement vulnérables dans ce même temps.

Prévalence=Nombre de cas existant pendant une période donnée/Nombre de personnes vulnérables pendant cette période


1.1  Recueil des données

Quand j'ai cherché à mettre en forme les diverses données statistiques sur les virus, très vite, je me suis aperçu que les informations fournies par la WildList et par le Virus Bulletin étaient inexploitables telles qu'elles sont fournies. Je travaille sur un ordinateur fonctionnant sous GNU/Linux avec une distribution Debian2. La réalisation d'une base de données sous MySQL3 interfacée avec un site Web Apache4 écrit en PHP5 m'a semblé la solution la plus facile à mettre en oeuvre et à maintenir par la suite. D'autant plus, qu'il existe une bibliothèque PHP pour la réalisation de graphes à partir de données statistiques: JpGraph6.

Après avoir téléchargé les pages Web contenant les tables de prévalence des virus sur le site de Virus Bulletin, j'ai créé une base de données MySQL et développé un site Web7 me permettant de remplir la base de données et de réaliser des graphes statistiques.

La base de données contient trois tables définies de la façon suivante:

noms
Champ Type
id int(11)
nom varchar(30)
type varchar(10)
categorie varchar(20)
dates
Champ Type
id int(11)
id_virus int(11)
mois tinyint(2)
annee mediumint(4)
prevalence int(11)
types
Champ Type
type varchar(10)


La page d'accueil du site Web contient (voir Fig. 1):
  1. un menu Maintenance de la base de données pour l'ajout, la modification ou la suppression de virus (voir Fig. 2);
  2. un menu Listes pour l'affichage des données brutes classées par année, par mois, par type ou par catégorie (voir Fig. 3);
  3. un menu Statistiques pour l'affichage des courbes et graphes statistiques calculés à partir des données de la base;



Figure 1: Page d'accueil du site Web sur les virus






Figure 2: Page de saisie pour les virus et leurs prévalences






Figure 3: Liste des virus par mois



Une fois l'infrastructure en place, la démarche suivie a été la suivante. Tout d'abord, j'ai saisi les chiffres des tables de prévalence mensuelle de Virus Bulletin dans la base de données. Ensuite, j'ai repris chaque virus pour lui attribuer une plateforme cible, à partir des bases de données de Sophos8, de TrendMicro9, de F-Secure10 et de MacAfee11, conforme à la nomenclature CARO. Enfin, j'ai défini les ratios statistiques qui me semblaient intéressant et j'ai programmé les graphes correspondants.

Actuellement, la base de données référence 1141 virus et vers ainsi que leur prévalence mensuelle pour la période allant de janvier 1995 à février 2006 inclus (soit 9280 enregistrements). Le nombre de virus référencés dans la base de données peut paraître dérisoire par rapport aux nombres de virus référencés par les éditeurs de logiciels antivirus. Il existe trois raisons pour expliquer cette différence. La première, c'est que les éditeurs de logiciels antivirus ne référencent pas uniquement les virus. En fait, dans leurs statistiques, ils prennent en compte, les virus et vers, mais aussi, les chevaux de Troie, les Adwares, les Spywares. Par exemple, sur les 114 000 logiciels malveillants référencés par Sophos fin 2005, 62% sont des chevaux de Troie. La deuxième raison, c'est que la WildList et Virus Bulletin ne prennent en compte que les vers et virus In the Wild, c'est à dire ceux qui se propagent effectivement sur l'Internet. Enfin, la dernière raison c'est que, dans la base de données de Virus Bulletin, les vers et virus sont regroupés par rang de variante mineure. Ainsi, les trois variantes du virus CodeRed sont regroupées sous l'appellation CodeRed.

1.2  Analyse des données

Nous disposons maintenant d'une base de données référençant un panel statistiquement représentatif des vers et virus In the Wild. Nous pouvons donc procéder à une analyse de la prévalence du risque viral.

1.2.1  Évolution du type de virus dans le temps




Figure 4: Evolution par type du nombre de virus signalés mensuellement



Le graphe de la figure 4 représente l'évolution du nombre de virus différents signalés par mois. De janvier 1995 à février 2006, la courbe mensuelle du nombre de virus par type est calculée et ajoutée ensuite au graphe.

La vue générale du graphe nous permet de mieux appréhender les types de virus prédominants. Ainsi, de janvier 1995 à juillet 1999, nous constatons que ce sont les virus de boot et les virus DOS qui sont les plus fréquents. À partir de janvier 1996, les premiers macrovirus Word (classification CARO: WM) font leur apparition. Par la suite ce sont les macrovirus W97M qui prennent le dessus. Enfin, à partir de janvier 2001, nous assistons à une très large prédominance des virus pour Windows (classification CARO: W32).

1.2.2  Répartition des virus par cible




Figure 5: Répartition des virus par cible



Le camembert de la figure 5 détaille la répartition des vers et virus en fonction de leur cible.

Les développeurs de virus cherchent les cibles potentielles qui ont le plus d'impact. Le camembert le montre bien, en effet, la majorité des virus vise le monde de Windows avec 24% de virus W32, 22% de virus DOS et 22% de macrovirus pour Word (classification CARO: WM et W97M) soit un total de 68%.

1.2.3  Évolution du nombre de virus différents signalés par unité de temps




Figure 6: Évolution du nombre de virus différents signalés annuellement






Figure 7: Évolution du nombre de nouveaux virus apparaissant mensuellement



Le graphe de la figure 6 décrit l'évolution du nombre de virus différents signalés par an et celui de la figure 7 l'évolution du nombre de nouveaux virus apparaissant mensuellement.

Il est intéressant de noter que le nombre de virus différents signalés annuellement diminue entre 2003 et 2005. Cette tendance est confirmée par la courbe de la figure 7: le nombre de nouveaux virus tend à la baisse à partir de début 2003. Ce phénomène est révélateur des changements constatés dans le monde de la cybercriminalité. Les derniers rapports du CLUSIF12 le confirment: actuellement les virus ne sont plus la première "arme" utilisée par les pirates. Les techniques d'attaques s'orientent plus vers le phishing13, la création de botnets14 ou la mise en place de portes dérobées à l'aide de chevaux de Troie15. Dans ce contexte, les virus ne servent plus que comme vecteur de transport.









En 1983, Fred Cohen définit formellement ce que sont les programmes autoreproducteurs et, en référence à leurs cousins biologiques, les nomme virus. Peu à peu ceux-ci se développent, de nouvelles techniques d'infection voient le jour, leur processus infectieux devient plus efficace, mieux ciblé. Finalement, au même titre que les virus biologiques, les virus informatiques mutent, évoluent, collaborent entre eux et ... détruisent les systèmes qu'ils infectent!

Mais, les virus informatiques ne sont-ils que néfastes? N'est-il pas envisageable d'utiliser ce concept, lié à l'intelligence artificielle, de reproduction de programmes autonomes à des fins utiles? Il est évident qu'aborder la notion de virus bénéfique est hautement sensible. Aucun administrateur n'acceptera la mise en oeuvre de telles techniques dans son système: sa vision de la virologie est trop négative pour qu'il puisse envisager qu'un virus puisse lui devenir indispensable.

References

[1]
The WildList Organization.  Wildlist . http://www.wildlist.org/, 2006.

[2]
Martin (H.).  Virus bulletin . http://www.virusbtn.com, 2006.

1
L'épidémiologie est l'étude de la répartition et des déterminants des évènements de santé dans les populations.
2
http://www.debian.org/
3
http://www.mysql.com/
4
http://www.apache.org/
5
http://www.php.net/
6
http://www.aditus.nu/jpgraph/
7
Consultable sur http://vaccin.sourceforge.net
8
http://www.sophos.fr/virusinfo/analyses/
9
http://www.trendmicro.com/vinfo/virusencyclo/
10
http://www.f-secure.com/v-descs/
11
http://us.mcafee.com/virusInfo/
12
Club de la Sécurité des Systèmes d'Information Français https://www.clusif.asso.fr/
13
Le phishing est une forme d'attaque cybercriminelle basée sur l'ingénierie sociale. Il consiste à collecter frauduleusement des informations sensibles comme des mots de passe ou des codes de carte bancaire en se faisant passer, le plus souvent, pour une banque. Le phishing se présente essentiellement sous forme d'emails.
14
Le terme botnet désigne un ensemble d'ordinateurs, appelés aussi zombies, compromis le plus souvent par des chevaux de Troie et placés sous le contrôle d'un seul serveur. Les botnets peuvent servir pour lancer des attaques par déni de service, comme moteur pour la diffusion de spam ou encore pour commettre des délits comme le vol de données bancaires et nominatives à grande échelle.
15
Un cheval de Troie est un logiciel d'apparence légitime, mais conçu pour subrepticement exécuter des actions nuisibles à l'utilisateur.
Page précédente SourceForge.net Logo

This document was translated from LATEX by HEVEA.