Le cyberblog du coyote

 

Extra

Editorial

Ce blog a pour objectif principal d'augmenter la culture informatique de mes élèves. Il a aussi pour ambition de refléter l'actualité technologique dans ce domaine.

jeudi 17 décembre 2009

Les mots du web en équation

Du désordre peut naître l'ordre. Ce principe, souvent constaté dans la nature, s'applique aussi aux comportements des internautes sur la Toile. C'est ce que viennent de découvrir des physiciens du Centre de physique théorique, à Marseille (résultat paru dans PNAS du 30 juin 2009), en collaboration avec des équipes italiennes. Les chercheurs se sont penchés sur certains sites internet où les utilisateurs annotent par des mots-clés, couramment appelés tags, – le contenu de pages web. Peu à peu, ces mots-clés constituent une gigantesque base de données qui permet de faire des recherches très précises sur l'ensemble des sites annotés.
En étudiant de près la structure de cette base de données, construite sans concertation des internautes entre eux, les scientifiques se sont rendu compte qu'elle était loin d'être anarchique. "Preuve en est la taille du dictionnaire de mots-clés utilisés par la communauté, note Alain Barrat. Celui-ci grandit de manière régulière, en suivant une équation bien précise."
L'étape suivante pour les chercheurs a été de retrouver mathématiquement pourquoi ils observaient une telle propriété. "Chaque individu est complexe, explique Alain Barrat. Mais l'action cumulée et non coordonnée de plusieurs millions d'entre eux va faire émerger des comportements qu'on peut modéliser par des concepts mathématiques simples." Ainsi, nos physiciens ont montré que la structure de la base de données pouvait être reconstruite à partir d'une succession de marches aléatoires, un concept courant en physique statistique qui décrit différentes trajectoires obtenues par une série de déplacements dans des directions choisies au hasard.
Pour les chercheurs, une seule explication. Selon eux, il existerait un réseau sémantique sous-jacent qui relierait entre eux les mots-clés et dans lequel les internautes "marcheraient" au hasard. "C'est une idée qui existe depuis longtemps en linguistique, explique Alain Barrat. Sans en avoir conscience, chaque internaute associerait au mot-clé principal – évident – d'une page web un autre mot-clé bien à lui." À l'annotation “fleur” pour une page de botanique par exemple, l'un va associer le mot “rose”, l'autre le mot “pétale”, etc. "Répété par l'ensemble des utilisateurs, ce mécanisme permet d'expliquer nos observations", ajoute le chercheur.
Un résultat théorique qui pourrait un jour déboucher sur des applications bien concrètes. Notamment la lutte contre le spamdexing ou référencement abusif. Certains spameurs n'hésitent pas, en effet, à infiltrer les sites en question en ajoutant une longue liste de mots-clés sans rapport avec la page mais qui renvoient discrètement vers des sites commerciaux. "C'est un comportement qui va contre les règles établies par la communauté d'internautes, commente Alain Barrat. Si on parvient à bien modéliser le fonctionnement normal de ce réseau d'utilisateurs, alors tout phénomène bizarre qui s'en écartera sera rejeté." Les pollueurs n'ont qu'à bien se tenir.

Source : Techno-Science

samedi 14 novembre 2009

Données personnelles et internet

Le Monde a proposé à ses lecteurs de faire part de leurs témoignages suite à une proposition de loi pour créer un “droit à l’oubli numérique”.

Licencié pour un CV sur Internet par Bernard
Ayant quitté la France pour Genève en 2008, mon patron , que je connaissais depuis 16 ans, m’a viré pour un CV publié sur le site Viadeo ; il y avait ma photo et mon CV, et cela a suffi pour que je sois accusé de “concurrence déloyale” et qu’il utilise l’argument de “perte irrévocable du lien de confiance” pour me licencier.

En Allemagne, pour un CV sur Linkdin, un cadre a été licencié pour les mêmes raisons. Son employeur avait estimé que si le cadre conservait son CV public, c’est qu’il pouvait éventuellement quitter l’entreprise et à ce titre, ne méritait plus la confiance de la société. Pitoyable !

Difficile de faire effacer un contenu personnel sur Internet ! par Mister Gizmo
J’ai un exemple tout simple. Beaucoup d’internautes, lors de leur première recherche sur la Toile, lancent une requête avec leur nom et prénom sur Google ou un autre navigateur. Et là, les surprises commencent. Pour ma part, plusieurs résultats au travers de différents site comme 123people.fr, copainsdavant.linternaute.com, annuaires autres que pagesblanches.fr…
Ce sont des moteurs de recherche qui croisent les données entre elles. Et une vielle photo de vous sera associée à votre dernière adresse, votre pseudonyme, votre numéro de téléphone, vos articles et commentaires publiés sur différents site, votre géo-localisation, les vidéos publiées sous votre pseudonyme, vos sites internet ou blogs. Le tout sur une seule page avec un peu de publicité. C’est une forme de fichage accessible à tous , un véritable fichier “Edvige”.
Et lorsque l’on demande au webmaster de 123people.fr d’effacer les données vous concernant, il rétorque que les données sont libres d’accès sur la Toile, comme votre adresse sur les pages jaunes, et que rien légalement ne les empêche de les utiliser à leur avantage.

Chercher un nouveau travail par Agnès
Comment chercher du boulot quand, il y a quelques années, tu as signé de ton nom des pétitions en ligne ? Quand ton nom apparaît sur des tracts syndicaux ? Quand tu as écrit au courrier des lecteurs d’une revue, témoignant d’une activité militante ? Être actif dans le milieu associatif et syndical, ce n’est pas bien vu par les futurs employeurs qui veulent des salariés qui se consacrent corps et âme au travail…
Alors bien sûr personne n’a eu l’intention de nuire, mais le résultat est là : les futurs employeurs tapent ton nom dans Google, et l’affaire est close. Et si tu veux faire modifier ton nom partout, 5 ans après, il faut se lever tôt. Comment espérer que les personnes qui maintiennent les sites trouvent le temps de s’occuper de ton petit cas personnel, alors qu’il y a tant de problème graves à régler, de drames à éviter (chez les sans-logis, les sans-papiers, les exclus de toutes sortes…) ? À l’heure actuelle pas de solution, reste où tu es et fais-toi de plus en plus discret, s’il est encore temps…

Quand je tape mon nom sur Google par Elisabeth
Celui-ci apparaît, avec mon adresse et mon numéro de téléphone, grâce à ma stupidité de m’être affiliée à l’annuaire des auto-entrepreneurs. Une personne qui ne me veut pas du tout de bien (et qui a un GPS) et dont l’agressivité m’a amenée à déménager dans une région où je ne connais personne, n’a eu qu’un clic à faire pour me retrouver.

Impossible de supprimer un site internet d’association par Bernard
J’ai crée à la fin de années 90 un site d’association de parents d’élèves d’un lycée de l’Est lyonnais comportant les noms et numéros de téléphone des délégués parents d’élèves des 30 classes. Ce site a été mis à jour pendant les années pour lesquelles j’ai eu des responsabilités dans l’association. N’ayant plus d’enfants dans cet établissement, j’ai passé la main à d’autres parents…
Contacté récemment par le nouveau bureau de l’association qui souhaitait créer un nouveau site, j’ai constaté que mon ancien site était toujours en place (avec les coordonnées des anciens délégués), que les recherches sur Google ou Yahoo de mon nom donnaient toujours le lien.
C’est alors qu’à commencé la galère pour effacer les données du site : le site avait été créé sur Libertysurf.fr, qui a été racheté par Tiscali, lui-même par Alice. J’ai dû multiplier les démarches et relances avec des correspondants mails non identifiables et non recontactables me donnant des réponses inopérantes. J’ai fini par avoir un code d’accès et un mot de passe qui m’ont enfin permis de supprimer le site.
Dommage que les opérateurs (dans ce cas Alice, mais je suis aussi utilisateur de Orange qui a les mêmes défauts), n’aient pas l’obligation de mettre en place des services relation clientèles dignes de ce nom, avec adresse, ligne téléphonique, numéros de dossiers pour être capable de prendre en charge et suivre les problèmes de leurs clients.

J’avoue sans fard une paranoïa aigue sur le sujet par OLQ
Je suis en effet à classer dans la catégorie “maniaque de la vie privée” : j’ai un profil Facebook parce que beaucoup d’amis y sont, mais sans photo, et en accès aussi restreint que possible, et je ne l’actualise pour ainsi dire pas. Je n’ai rempli que les champs indispensables, laissant de côté opinion politique, vie sociale et état de santé. De même, sur les différents sites où j’ai pu passer, je n’ai délivré que des informations que j’ai estimées sans danger.
J’ai plusieurs adresses mails selon les interlocuteurs, et je ne les mélange pas. D’ailleurs, celles qui concernent les marchands du web (Amazon, la Fnac ou un journal de référence sur le net), susceptibles de les revendre, ne renvoient pas à mon nom mais sont au contraire sur le thème “toto@yahoo.fr”. Enfin, je passe mon nom sous google ou sous 123people régulièrement, pour vérifier qu’aucune information désagréable n’apparaît. Un ami a tenté une fois de mettre une photo de moi sans mon accord, j’ai réagi et la photo en question a été retirée en moins de douze heures.
Le résultat ? Il n’y a sur le Net que des informations dont j’ai contrôlé le dépôt, en particulier mes activités universitaires et associatives : si j’étais cynique, je constaterais que se construire, consciemment, une image sur le Net est de l’ordre du possible, en ne laissant passer que les informations positives…

La pieuvre Google par Anne - Onyme
A une époque il était de coutume d’écrire sous son vrai nom sur les groupes de discussion (Usenet), l’ancêtre des forums web d’aujourd’hui. Un gentil participant à une discussion un peu trop animée a cru bon de rédiger une fausse dépèche Reuters citant mes nom, prenom et ville, et indiquant que j’avais été arrêté pour divers faits peu recommandables. Je n’ai jamais réussi à faire retirer ces articles de Google. Malgré une plainte auprès de la police, restée clairement sans suite. Le nuisible s’étant caché derrière un proxy anonyme, il n’a jamais été possible de l’identifier.
Quelques années plus tard, Google a ajouté une phrase d’alerte préalable à ce texte pour indiquer qu’il avait été posté depuis un anonymisateur. Mais rien de plus. Cela me porte préjudice. A une époque je ne comprenais pas pourquoi certaines jeunes femmes que je rencontrais disparaissaient peu après avoir appris mon nom, jusqu’à ce que l’une d’elles me donne l’explication. Idem pour les employeurs. Je ne poste bien évidemment pas sous mon vrai nom, je n’ai pas envie que Google une fois de plus rafraîchisse cette histoire en indexant votre article.

jeudi 1 octobre 2009

Did you know ? (version 4 en français)

jeudi 3 septembre 2009

WikiTrust : la couleur de la crédibilité pour Wikipedia

Une nouvelle option apparaitra sur Wikipedia cet automne, le WikiTrust. Cette fonction permettra d’afficher les textes des articles de couleur différente selon leur degré de crédibilité. Ce dernier sera évalué en fonction de l’auteur qui a écrit et de du temps qui s’est écoulé depuis la publication. Comme la plupart des canulars sont l’œuvre d’anonymes et ne restent en ligne que quelques heures, beaucoup d’erreurs devraient ainsi être évitées.
Les informations discutables commencent avec un arrière-plan orange, qui s’éclaircit si l’auteur est crédible jusqu’à devenir blanc quand le temps passe et que la page subit d’autres modifications. La crédibilité d’un auteur est elle-même calculée en fonction du temps que ses éditions passent sans avoir à être modifiées. S’il a une grande utilité contre le vandalisme et les canulars, WikiTrust ne peut cependant pas détecter des préjugés partagés par de nombreux éditeurs.
Le programme est disponible depuis novembre 2008 sous forme d’extension de MediaWiki (le logiciel libre qui fait fonctionner l’encyclopédie) et sera installé prochainement sur Wikipedia.

Source : Sur-la-Toile

jeudi 23 juillet 2009

Vanish : pour que, sur le Web, les écrits s'envolent...

Des courriers électroniques, des commentaires sur Facebook ou des remarques sur un forum qui deviennent illisibles au bout de huit heures, sans aucune intervention de leur auteur ni de quiconque, grâce aux réseaux de peer-to-peer. C'est ce que viennent d'inventer, avec Vanish, des informaticiens de l'université de Washington.
Sur Internet, la durée de vie d'un document est potentiellement infinie. Un propos un peu emporté déposé un jour sur un forum lors d'une discussion trop vive pourra poursuivre son auteur durant des années voire des décennies. L'employeur potentiel à qui l'on a adressé un CV, par exemple, et qui aura effectué une petite recherche sur le Web, pourra facilement verser la pièce au dossier de candidature...
Chez Google, Jon Perlow a un jour proposé une idée sur le blog de sa société pour éviter aux internautes d'expédier un courrier quand leur taux d'alcool dans le sang risque de les conduire à des propos regrettables. Le principe de son alcootest en ligne est un exercice de calcul mental à réussir dans un délai imparti avant d'appuyer sur le bouton Envoyer.
Roxana Geambasu, Hank Levy et Amit Lévy, sous la direction de Tadayoshi Kohno, de l'université de Washington, ont mis au point un système d'autodestruction bien plus sophistiqué, baptisé Vanish (disparaître, en anglais). Il ne concerne que les textes envoyés à l'aide d'un navigateur (à l'exception, donc, des courriers envoyés par un logiciel de messagerie comme Windows Mail, ou par messagerie instantanée, comme GTalk). L'expéditeur et le destinataire, c'est-à-dire le site Web, doivent tous les deux utiliser Vanish, ce qui limite considérablement la portée de ce logiciel.

Comme écrire sur le sable

Il ne s'agit pour l'instant que d'une version expérimentale, tout de même diffusée en open-source, et compatible avec le navigateur Firefox. Elle est surtout destinée à valider le concept et le principe technique, à la fois efficace et astucieux. A part décider de l'autodestruction, l'expéditeur n'a rien à faire, ni le destinataire du message ou le gestionnaire du forum.
Le message est tout d'abord crypté et la clef de chiffrement est divisée en une multitude de morceaux, « plusieurs douzaines » d'après le communiqué de l'université. Ces fragments sont expédiés au hasard vers des serveurs de réseaux peer-to-peer, qui servent aux échanges de fichiers. Ces ordinateurs, répartis sur la planète entière, se connectent et se déconnectent irrégulièrement du réseau, de sorte qu'au bout d'un certain temps, au moins l'une des parties de la clé de déchiffrement deviendra inaccessible. Le message sera alors définitivement indéchiffrable.
Dans le prototype actuel, le texte deviendra illisible huit heures après son envoi et une option permet de choisir un délai plus long, multiple de huit heures. Pour les auteurs, Vansih permet d'écrire comme on le ferait sur le sable d'une plage à marée basse. Sans aucune intervention humaine, l'écrit finira à coup sûr par être effacé, comme les pas des amants désunis de la chanson de Prévert...

Source : Futura-Sciences

mercredi 1 juillet 2009

Séisme sur le Web après la mort de Michael Jackson

Dans les heures qui ont suivi l'annonce du décès du roi de la pop, l'afflux de connexions a submergé Google, les sites d'actualités et le réseau Twitter.
Le 25 juin, peu après que le site TMZ a diffusé l'information de la mort du chanteur américain, et pratiquement simultanément, des millions de personnes ont tapé « Michael Jackson » sur leur moteur de recherche. Résultat : les serveurs de Google ont repéré la caractéristique d'une attaque massive par un virus ou un spyware et ont automatiquement renvoyé une page d'erreur. Quant au jeune Twitter, l'afflux de messages a fait tomber ses serveurs. Sur Wikipédia, les contributeurs étaient si nombreux à vouloir modifier la page du chanteur que la bousculade empêchait les mises à jour.
Les sites d'actualités ont souffert. Le Los Angeles Times, qui a diffusé la nouvelle après TMZ, a enregistré 2,3 millions de visiteurs en l'espace d'une heure seulement. L'entreprise Keynote Systems, qui mesure les performances des sites Web, estime que la fiabilité moyenne des principaux sites d'informations a chuté de 100% à 86%. Le site ABCNews.com, lui, serait tombé à 11% durant deux heures. Le temps moyen pour afficher ces pages d'accueil a brutalement grimpé de 4,2 à 8,9 secondes. La Toile frémit

De son côté, l'entreprise Akamai, qui gère des réseaux de serveurs dans le monde entier pour diffuser des sites Web, a enregistré un pic maximum d'activité s'élevant en moyenne à 11 % au-dessus de la normale à l'échelle du Web de la planète entière.
Autre conséquence, des pirates chercheraient à profiter de l'occcasion en expédiant des spams parlant du décès de la star. L'entreprise Websense, qui vend des systèmes de protection du courrier électronique, vient de publier une mise en garde sur l'apparition de mails offrant un lien vers une vidéo YouTube, qui envoie en fait vers un site malveillant.
Une fois de plus, le Web se comporte comme un tissu mondial qui frissonne quand survient un événement touchant un grand nombre de personnes. C'est une sorte de séisme qu'a connu la Toile mondiale. Cette réactivité peut d'ailleurs être utilisée comme l'ont prouvé Rémy Bossu et son équipe du CSEM (Centre sismologique euro-méditerranéen). L'analyse continue du nombre d'accès à leur site devient un véritable sismomètre signalant un tremblement de terre, véritable celui-là, quand les internautes ressentant une secousse se précipitent sur l'ordinateur le plus proche pour en savoir plus.

Source : Futura-Sciences

lundi 8 juin 2009

Google squared

Quelques jours après la sortie de Bing, le géant américain Google met à disposition un nouvel outil : Google Squared. Cet outil permet de classer les résultats de la requête sous forme de tableau comparatif. Par exemple, saisissez "french presidents", et validez votre recherche. Vos résultats se présenteront en lignes, et plusieurs informations sur cette recherche apparaîtront en colonne (description, date de naissance, image, etc...).


Le chef de produit de Google Squared, Alex Komoroske, et ses collaborateurs ont remarqué que certaines recherches sont complexes à réaliser sur un moteur de recherche classique, et nécessitent parfois de visiter plus d'une dizaine de sites pour répondre exactement à la recherche de l'utilisateur. Cet outil permet donc de synthétiser et mettre en comparaison plusieurs informations. Les tableaux de résultats peuvent également être enregistrés, sous réserve que l'utilisateur soit authentifié sous Google.
Même si des critères pertinents sont utilisés pour comparer les résultats de la recherche, Alex Komoroske prévient tout de même que cet outil n'est pas parfait. A une recherche s'appliquent plusieurs informations (en colonne), qui peuvent ne pas satisfaire l'utilisateur.
Pour palier ce problème, l'outil a été développé de façon à laisser entièrement la main à l'internaute: comme sur un tableur, il peut supprimer ou rajouter des colonnes représentant d'autres points de comparaison (religion, nationalité, etc...) à son gré, et également compléter sa recherche avec d'autres critères de sélection. Par exemple, après une première recherche "french presidents", l'internaute peut saisir "US presidents" et demander à ce que cette nouvelle recherche vienne en complément de la précédente.
Nous remarquons que cet outil s'appuie largement sur WolframAlpha, lancé en mai dernier (voir notre news), en restant moins performant car il ne s'appuie que sur des résultats de recherche, et pas sur un logiciel scientifique doté d'une capacité d'analyse et de calcul...
Ce service, encore en phase de test, n'est disponible pour le moment qu'en anglais. Il reste quelques corrections et améliorations à apporter: nous pourrons constater quelques bugs, noter qu'il ne fournit qu'une liste incomplète des présidents français, et qu'il n'est pas capable de les ranger par ordre chronologique si l'internaute lui demande. Il nous présente cependant une manière pratique et innovante de présenter les résultats.

Source : Techno-Science

lundi 1 juin 2009

Bing: Nouveau moteur de recherche de Microsoft

Aujourd'hui est mis en service le nouveau moteur de recherche de Microsoft : Bing. Les américains et européens peuvent accéder à cet outil dans sa version bêta dès ce lundi 1er juin. Une campagne de communication accompagnera son lancement. Selon le site Advertising Age, le budget promotionnel représenterait 80 à 100 millions de dollars.
Le jour même où Google révélait son nouvel outil Google Wave, Microsoft a présenté son 4ème moteur de recherche. Après "MSN Search", "Windows Live search" et "LIve Search" c'est au tour de "Bing".
Lors de la conférence du "D: All Things Digital" organisée par le "Wall Street Journal" le 28 mai, Microsoft en a dit plus long sur son projet "Kumo". Ce projet consistait en une amélioration du moteur Powerset que Microsoft a racheté l'année dernière pour 100 millions de dollars. L'outil de recherche "Bing" en est le fruit.
Une nouvelle interface, de nouvelles fonctionnalités, Bing se présente comme moteur "d'aide à la décision". Microsoft mise ici sur la pertinence du résultat, plutôt que sur le nombre. En plus du moteur de recherche traditionnel, il propose d'autres outils complémentaires, sur l'idée des comparateurs de prix, permettant notamment de choisir un restaurant en fonction de ses goûts, ou encore de planifier son prochain voyage en fonction du budget de l'internaute...
Le but de cet outil est d'interpréter la requête envoyée par l'utilisateur en la contextualisant. Le résultat peut alors afficher différentes thématiques: images, vidéos, cartes, etc. En recherchant par exemple le nom d'une personnalité, Bing complètera son résultat avec une biographie, des photos, ou encore des extraits de discours récents...
Cet outil sera-t-il suffisant pour laisser croire aux dirigeants de Microsoft qu'il est encore possible de rattraper la part de marché de Google ? Cet objectif semble utopique, quand on sait que la moitié des 20 000 salariés de Google sont des ingénieurs, que 70% d'entre eux travaillent sur la recherche, et que la société a 200 projets d'amélioration de son moteur en interne !
Côté Microsoft, Olivier Marcheteau, responsable de la division grand public, précise qu'une part significative des 9 milliards de dollars qui seront consacrés à la recherche et développement ira au moteur.

Voir une vidéo de présentation.

Source : Techno-Science

mardi 19 mai 2009

Les questions secrètes ne le restent pas longtemps...

Les experts en sécurité critiquent depuis longtemps le mécanisme de récupération de mot de passe basé sur une question secrète. Bien souvent, la question est relativement simple et la réponse facile à trouver. Bien plus facile que le mot de passe...
En mars, Brian Green s’est loggué sur son compte World of Warcraft pour y trouver ses personnages en sous-vêtements. Quelqu’un s’était connecté et avait revendu tout l’équipement. Pas de keylogger ou de hacking en cause ici, on a simplement deviné la réponse à sa question secrète.
Pour un jeu, même s’il coûte relativement cher, les conséquences restent minimes. Mais dans d’autres cas, cela aurait pu avoir des effets bien plus dommageables. Ainsi, la candidate à la vice-présidence des États-Unis, Sarah Palin, s’était fait voler son compte Yahoo! Par des petits malins qui avaient utilisé le nom de l’endroit où elle avait rencontré son mari pour accéder au compte.
Une étude a montré que 28 % des personnes proches d’une victime peuvent deviner la réponse de ses questions secrètes. Techniquement, c’est comme si elles avaient le mot de passe. Et les personnes plus éloignées conservaient plus d’une chance sur 6 de deviner juste. Pour des questions comme « Quelle est votre ville/équipe sportive favorite? », le pourcentage pouvait monter de 30 à 57 %.
Cette méthode n’est définitivement pas adaptée pour les changements de mots de passe, et devient carrément inquiétante lorsqu’elle est utilisée par des institutions financières ou des comptes email utilisés pour ce type de service. Reste une solution : répondre volontairement à côté de la plaque. Si pour une question concernant votre ville d’origine vous donnez le nom de votre chien, ce sera déjà plus difficile à deviner. Et si vous y mettez un mot de passe aléatoire, ce sera encore mieux.

Source : Sur-la-Toile

lundi 18 mai 2009

Wolfram|Alpha

Wolfram|Alpha est un nouveau moteur de recherche basé sur le concept de question (en anglais :answer-engine) développé par la compagnie internationale Wolfram Research. Il s'agit d'un service internet qui répond directement à la saisie de questions factuelles par le calcul de la réponse à partir d'une base de données, au lieu de procurer une liste de documents ou de pages web pouvant contenir la réponse. Il a été annoncé en mars 2009 par le physicien britannique et père de Mathematica Stephen Wolfram. Il a été lancé le le 16 mai 2009 à 3h00 du matin.
Olivier Leguay a écrit sur son blog un intéressant article sur les différences entre Wolfram|Alpha et Google.

lundi 11 mai 2009

Des journalistes dupés par une citation sur Wikipédia

Shane Fitzgerald, jeune étudiant en sociologie, a dupé de nombreux journalistes en plaçant de fausses citations dans la biographie de Maurice Jarre sur Wikipedia, peu après son décès. De grands journaux comme le Guardian, le Daily Mail, The Independant et le site de la BBC ont repris les citations sans en vérifier l’authenticité.
Il faut dire que les citations tombaient à pic : « On pourrait dire que ma vie elle-même a été une musique de film. La musique était ma vie, la musique m'a donné la vie, et la musique est ce pour quoi je vais rester dans les mémoires longtemps après que j'aie quitté cette vie. Quand je mourrai, il y aura une dernière valse jouant dans ma tête, que je pourrai seul entendre. »
Fitzgerald dit qu’il s’agissait d’une expérience liée à ses recherches sur la globalisation. Il souhaitait voir comment ses citations seraient reprises, mais ne s’attendait pas à ce qu’elles le soient par des médias importants.
Le canular est passé inaperçu pendant des semaines, jusqu’à ce que Fitzgerald explique ce qu’il avait fait aux journaux concernés. Cela montre que, même pour les journalistes, le fonctionnement de Wikipedia reste un mystère. Les habitués savent que chaque information citée dans l’encyclopédie a la valeur de sa source, et que si elle n’est pas citée, l’information devrait être vérifiée.
Bien que l'étudiant ait réédité 3 fois la biographie, les citations n'y sont restées que quelques heures.

Source : Sur-la-Toile

dimanche 29 mars 2009

Google améliore son moteur de recherche et passe au sémantique

La recherche sur Google est plus efficace depuis quelques jours... L'algorithme s'essaie au sémantique en élargissant le champ de recherche par ajout de mots clés associés et en analysant les expressions de plus de trois mots clés.
Tapez « cellules souches » dans Google et descendez la page. Une rubrique Recherches apparentées propose de poursuivre l'exploration avec d'autres mots clés : cellules souches embryonnaires, cordon ombilical, moelle osseuse, Parkinson, clonage, etc. Cette ouverture supplémentaire n'est pas un mince progrès. Elle implique que le moteur de recherche utilise des associations de mots clés.
Google a apporté une seconde amélioration concernant les requêtes à plus de trois mots clés. Jusque-là, les résultats étaient très décevants car tous les termes n'étaient systématiquement utilisés. Aujourd'hui, le moteur cherche à les prendre en compte et même à analyser le sens de l'expression. Avec cette logique, la requête « Quel est le volume de Jupiter » renvoie des liens vers des sites apportant précisément cette réponse.
Enfin presque... Selon le blog de Google, ces raffinements sont déjà disponibles pour 37 langues. Mais force est de constater que ces nouvelles fonctions préfèrent pour le moment Shakespeare à Molière. Pour illustrer la première de ces deux améliorations, les auteurs du post (Ori Allon et Ken Wilder) prennent l'exemple de « principles of physics » qui renvoie, comme recherches apparentées, physique quantique, principe de la relativité, mécanique, chimie... En revanche, une recherche sur « principes de physique » ne donne aucun mot clé supplémentaire.

Les questions en langage naturel, saint Graal du Web

De même, pour le volume de Jupiter, mieux vaut taper « what is the volume of Jupiter » pour bénéficier des améliorations apportées. Google n'expliquant rien des méthodes employées, on ne peut que supposer une possible amélioration avec le temps, au fil des requêtes des internautes.
Ce progrès s'inscrit dans une tendance forte, celle du Web sémantique, décrit notamment par Tim Berners-Lee. L'espoir est de mettre au point des moteurs de recherche capables d'extraire le sens d'une phrase. En 2008, Microsoft a dépensé cent millions de dollars pour s'offrir PowerSet, une petite entreprise qui a mis au point un outil de recherche acceptant des questions en langage naturel (en anglais) mais limité aux pages de Wikipedia.
Dans cette veine, on attend avec impatience, en principe au mois de mai, la merveille des merveilles, baptisée Wolfram Alpha, créée par Stephen Wolfram (le père du logiciel Mathematica). Selon les informations qui ont filtré, à une question posée, cet outil renverra une ou plusieurs réponses plutôt que des liens vers des pages Web.

Source : Futura-Sciences

vendredi 6 février 2009

La guerre des navigateurs

mardi 27 janvier 2009

Marc L***

Un article intéressant qui montre que les gens donnent des informations sur eux-mêmes (sur FaceBook par exemple) et comment on peut les synthétiser.

Lire l'article du Tigre

mercredi 7 janvier 2009

190 millions de sites Web

Une société britannique, Netcraft, fait les comptes régulièrement et estime à plus de 186 millions le nombre de sites Web. C'est deux fois plus qu'en 2005 mais le chiffre montre un ralentissement de la hausse.
Le Web connaît toujours une croissance à deux chiffres. En 2008, 48,7 millions de nouveaux sites sont venus s'installer sur la Toile, soit une augmentation de 17% par rapport à 2007. Le nombre actuel serait précisément de 186,7 millions de sites. C'est ce que vient d'indiquer la société britannique Netcraft, qui scrute l'activité d'Internet depuis 1995. Toujours selon ces chiffres, en 2005, la planète comptait 75,2 millions de sites, soit moins de la moitié de l'estimation pour 2008.Les deux cents millions de sites devraient être dépassés en 2009...
D'après ce décompte régulier, la multiplication du nombre de sites n'est plus ce qu'elle était. Entre 2006 et 2007 en effet, leur nombre avait crû de 46%, contre 42 % l'année précédente.

Tous les sites ne sont pas actifs...

A regarder la courbe dessinée par cette évolution, on constate qu'elle se rapproche des courbes en S chères aux futurologues. Elles correspondent à l'émergence d'un phénomène nouveau, qui commence par croître de manière exponentielle avant de suivre une progression forte mais à peu près linéaire. La phase suivante est celle, plus ou moins asymptotique, d'une stabilisation sur un palier ou une pente faible. A ce jeu, la situation actuelle serait la transition entre la progression linéaire et la stabilisation...
Sur le plan technique, on remarque que le logiciel libre Apache, gérant les flux HTTP sur les serveurs du Web, se maintient toujours à la première place, qu'il occupe depuis 1996. Mais son challenger, IIS, de Microsoft, continue sa progression.
Netcraft indique également les sites dits actifs, c'est-à-dire qui reçoivent des demandes de connexions. Les chiffres sont alors très différents. A cette aune, sur les quelque 190 millions de sites Web, seulement 75 millions sont actifs et la progression sur 2007 est d'environ 15%.

Source : Futura-Sciences

vendredi 21 novembre 2008

Détecter le plagiat avec Copyscape

Copyscape permet de vérifier si une de vos pages web a été honteusement plagiée par quelqu'un d'autre sur le web. Il suffit d'écrire l'adresse de la page web et le programme fournit une liste de pages qui "ressemblent" beaucoup à la vôtre. Si vous cliquez sur une de ces pages, vous verrez que certains mots sont surlignés, afin de faire apparaître les ressemblances.

vendredi 14 novembre 2008

Spam pharmaceutique : l'internaute mord 1 fois sur 12,4 millions

Des chercheurs américains se sont faits spammeurs pour tester l'efficacité commerciale du spam, allant jusqu'à créer de faux sites de ventes de produits pharmaceutiques. Après trois campagnes totalisant près de 500 millions de messages, ils concluent à une rentabilité limitée mais réelle de ce démarchage sauvage. Selon eux, les vendeurs sont aussi les organisateurs des réseaux de spams...
Devant un mail rédigé en anglais promettant des pilules miraculeuses et qui n'aurait pas été éliminé par un anti-spam, la quasi totalité des internautes n'y prête aucune attention particulière et l'expédie directement à la corbeille. Quelques-uns, toutefois, mordent à l'hameçon et se rendent sur le site. Parmi eux, un petit nombre dégainent leur Carte bleue pour acheter des pilules (souvent de la même couleur). Mais combien exactement ? Le spam constituant une activité illégale, les vendeurs peu scrupuleux qui le pratiquent ne publient pas de chiffres officiels...
Pour le savoir, une équipe de l'université de Berkeley et de l'université de Californie (San Diego) ont réalisé une expérience scientifique : utiliser les mêmes outils que les spammeurs, lancer des millions de messages et mettre en place des moyens pour mesurer les taux de réponse. Les chercheurs ont exploité un réseau botnet, c'est-à-dire un ensemble d'ordinateurs exploités à l'insu de leurs propriétaires pour diffuser des spams. On parle de machines zombies. Il s'agissait ici du réseau créé par le ver Storm. Les chercheurs ont lancé trois campagnes différentes, totalisant 469 millions de spams. Deux consistaient à transmettre un – faux – virus de type troyen inclus dans des messages proposant soit des cartes postales soit l'affichage de blagues de premier avril. La troisième campagne, qui a duré 26 jours, promettait différents produits pharmaceutiques, censément disponibles sur des sites commerciaux, en fait créés par les chercheurs eux-mêmes.

Les vendeurs créent leur propre réseau

Les résultats montrent qu'effectivement, le spam est une technique marketing peu efficace mais peut devenir rentable quand elle est pratiquée à très grande échelle. L'étude, qui a pris en compte l'origine géographique des succès de ces démarchages, n'a d'ailleurs pas mis en évidence de spécificités régionales. Il semble que les internautes du monde entier réagissent à peu près de la même manière.
Les fausses cartes postales fonctionnent bien. Sur 83.655.479 envois, 316 ont abouti à l'installation d'un Troyen sur un PC, soit 1 sur 265.000. Les poissons d'avril truqués atteignent un score de 1 réussite pour 178.380 spams (225 sur 40.135.487 dans l'expérience).
Le démarchage de produits pharmaceutiques a donné des résultats plutôt bons. Les chercheurs ont expédié exactement 347.590.389 spams et les faux sites commerciaux créés pour l'occasion ont enregistré 28 commandes fermes. Le taux de réussite serait donc de 12,41 ventes pour 1 million de spams. La moyenne des commandes recueillies était d'environ 100 dollars. Les quelque 350 millions de spams auraient généré exactement 2.731,88 dollars (environ 2.190 euros). Le rendement avoisinerait donc 100 dollars par jour, en fait plutôt 140 car sur les 26 jours de campagne, l'équipe ne retient que 19 journées utiles (« actives » dans la publication), pendant lesquelles les messages ont été diffusés.
L'expérience étant restée limitée, les chercheurs estiment n'avoir utilisé que 1,5% des ordinateurs du réseau botnet Storm. Selon eux, une campagne bien menée aurait plutôt rapporté aux alentours de 7.000 dollars par jour en moyenne. Mais le nombre d'ordinateurs touchés augmente au fil des jours, à mesure que le vers se transmet. La progression serait comprise entre 3.500 et 8.500 par jour... Par extrapolation, l'équipe pense qu'une campagne pour des produits pharmaceutiques sur un réseau Storm devrait générer annuellement 3,5 millions de dollars (2,8 millions d'euros).
Un spam n'est cependant pas gratuit. Il faut du matériel, des noms de domaines enregistrés, etc. Les auteurs tablent sur un prix de revient un peu inférieur à 80 dollars par million de messages. Envoyer 350 millions de spams coûterait environ 25.000 dollars. Les chercheurs en concluent que, pour que cette activité soit rentable, il faudrait que le prix de revient des mails soit vingt fois plus faible. Pourtant, la vente de produits pharmaceutiques via les spams continue. Les chercheurs ne voient qu'une explication : les vendeurs ne paient pas les organisateurs du réseau Storm car ce sont les mêmes personnes...

Source : Futura-Sciences

mercredi 12 novembre 2008

100 idées pour utiliser RSS

Ce document du blog Vtech est un essai de vulgarisation pour l'usage du RSS dans différents domaines. Il recense différentes possibilités d'utilisation de cette nouvelle forme de diffusion de l'information.

A lire : 100 idées pour utiliser RSS, par Aref JDEY, http://vtech.canalblog.com, Avril 2006

samedi 8 novembre 2008

Blogiwi

Blogiwi est une plate-forme de blog novatrice, gratuite et sans pub, vous proposant un grand nombre de fonctionnalités faciles d'accès.

dimanche 26 octobre 2008

Vitesse de téléchargement

My Broadband Speed permet de vérifier la vitesse de connexion à Internet. Il est intéressant de voir la différence entre le "Download" (téléchargement d'un serveur vers votre ordinateur) et le "Upload" (téléchargement de votre ordinateur vers un serveur).