Spam du web

26/04/2011

Tout le monde sait ce que sont les spam ou pourriels qui Ã l’instar des prospectus inondent les boÃ®tes aux lettres Ã©lectroniques. Cette nuisance qui parasite le trafic internet pousse Ã la consommation dans les cas les plus inoffensifs ou bien va jusqu’Ã la tentative d’arnaque.

Il existe un autre type de nuisance sur le web. Il s’agit de l’occupation mÃªme du web Ã travers ses pages et ses rÃ©seaux sociaux. Cette prÃ©sence Ã sans doute plus d’impact que le spam classique. En effet occuper l’espace numÃ©rique crÃ©e un buzz qui touche de nombreuses personnes… nous oseront mÃªme dire touche celles qui comptent car celle-ci peuvent changer le cours de l’histoire. Un prÃ©sident amÃ©ricain l’a d’ailleurs bien compris tandis que d’autres ne l’ont pas compris et ne sont plus au pouvoir.

Internet est aujourd’hui le mÃ©dia qu’il faut investir comme outils de propagande. A cette fin des sociÃ©tÃ©s se proposent, monnayant finance, de crÃ©er du buzz ou de lifter une e-rÃ©putation. Nous noterons toutefois que si l’objectif de manipuler l’opinion est le mÃªme que celui d’une publicitÃ© sur papier ou Ã la tÃ©lÃ©vision, la forme diffÃ¨re grandement. Les meilleurs buzz sont ceux qui ne ressemblent pas Ã de la publicitÃ©. En effet l’opinion du web est plus sensible Ã lui mÃªme qu’Ã des messages extÃ©rieurs: une forme de bouche Ã oreille numÃ©rique.

Comme rien n’est plus ressemblant Ã l’original que l’original lui-mÃªme, crÃ©er un buzz nÃ©cessite beaucoup de moyens. Il faut investir les forum, crÃ©er des sites web de propagande, simuler de nombreux fans. Pourtant nous sommes bien dans un univers crÃ©Ã© par les ordinateurs, il doit donc Ãªtre possible d’automatiser le buzz. L’idÃ©e est d’automatiser la crÃ©ation de contenu sur de multiple site. Chaque instance devra autant faire se peut Ãªtre diffÃ©rente (pas de copier/coller) de l’autre afin de simuler des rÃ©dacteurs humains diffÃ©rents. L’automatisation doit permettre non seulement de simuler le nombre mais aussi de crÃ©er l’historique car de nombreuses rÃ©fÃ©rences qui n’ont pas d’historique sont moins crÃ©dibles qu’une rÃ©fÃ©rence ayant pignon sur le web depuis des lustres. Cela est rÃ©alisable assez facilement puisque les hÃ©bergeurs de blog tels que blogger.com ou wordpress.com exposent une API pour publier des billet de maniÃ¨re programmatique. La modifications des billets sans en altÃ©rer le sens pour qu’ils ressemblent Ã ceux qu’aurait pu faire un humain, peut Ãªtre obtenue en remplaÃ§ant les mots par des synonymes piochÃ©s par exemples sur le site de l’universitÃ© de Caen. Le plus difficile est la crÃ©ations des comptes initiaux (compte email google@par exemple) qui signent l’acte de naissance de la vraie fausse identitÃ©. En effet les fournisseurs utilisent des filtres pour repousser la crÃ©ation de compte par des robots.

Le code suivant montre un POC. Quand Ã savoir si la mÃ©thode est efficace pour manipuler le rÃ©fÃ©rencement des moteurs de recherche, le lecteur ce lancera lui-mÃªme dans l’expÃ©rience.

#!/usr/bin/python
# -*- encoding: UTF-8 -*-
'''
Created on 24 avr. 2011

@author: thierry
'''

import os.path
import random
from optparse import OptionParser

from gdata import service
import gdata
import atom
import urllib
from HTMLParser import HTMLParser
import random

import logging


LEVELS = {'debug': logging.DEBUG,
Â Â Â Â Â Â Â Â Â  'info': logging.INFO,
Â Â Â Â Â Â Â Â Â  'warning': logging.WARNING,
Â Â Â Â Â Â Â Â Â  'error': logging.ERROR,
Â Â Â Â Â Â Â Â Â  'critical': logging.CRITICAL}

class TextCloner():
Â Â Â  '''
Â Â Â  This class is responsible for cloning a text e.g. rewrite the text modifying
Â Â Â  some words to simulate human copying.Â Â  Â 
Â Â Â  '''
Â Â Â  def clone(self, original):
Â Â Â Â Â Â Â  pass

class SynonymeCloner(TextCloner):
Â Â  Â 
Â Â  Â 
Â Â Â  def insert_synonyme(self, before, synonyme, after):
Â Â Â Â Â Â Â  url = 'http://dictionnaire.tv5.org/dictionnaires.asp?%s'
Â Â Â Â Â Â Â  params = urllib.urlencode({'Action':'1', 'mot': synonyme.split(' ')[-1:][0].encode("utf-8")})
Â Â Â Â Â Â Â  f = urllib.urlopen(url % params)
Â Â Â Â Â Â Â  response = f.read().decode('iso-8859-1')
Â Â Â Â Â Â Â  f.close()
Â Â Â Â Â Â Â  voyelle = ['a','e','i','o','u','y','Ã©']
Â Â Â Â Â Â Â  if synonyme[0] in voyelle 
Â Â Â Â Â Â Â Â Â Â Â  or ( synonyme[0] == 'h' and synonyme[1] in voyelle) :
Â Â Â Â Â Â Â Â Â Â Â  art = "l'" 
Â Â Â Â Â Â Â  elif response.find("masculin") > -1 :
Â Â Â Â Â Â Â Â Â Â Â  art = 'le '
Â Â Â Â Â Â Â  else:
Â Â Â Â Â Â Â Â Â Â Â  art = 'la '
Â Â Â Â Â Â Â  if before.endswith(". ") or len(before.strip()) == 0:
Â Â Â Â Â Â Â Â Â Â Â  art = art.capitalize()
Â Â Â Â Â Â Â  clone = before + art + synonyme + afterÂ Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  return clone
Â Â Â Â Â Â  Â 
Â Â Â  def clone(self, original):
Â Â Â Â Â Â Â  clone = original
Â Â Â Â Â Â Â  start = 0;
Â Â Â Â Â Â Â  while start > -1:
Â Â Â Â Â Â Â Â Â Â Â  START = "<%"
Â Â Â Â Â Â Â Â Â Â Â  start = clone.find(START)
Â Â Â Â Â Â Â Â Â Â Â  if start > -1:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  before, start_tag, after = clone.partition(START)
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  END = "%>"
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  word, end_tag, after = after.partition(END)
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  synonyme = self.get_synonyme(word)
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  logging.info("choose synonyme %s" % synonyme)
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  clone = self.insert_synonyme(before, synonyme, after)Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  return clone
Â Â  Â 
Â Â  Â 
Â Â  Â 
Â Â Â  def get_synonyme(self, word):Â Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  logging.info("looking for synonyme for %s" % word)Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  f = urllib.urlopen('http://www.crisco.unicaen.fr/des/synonymes/%s' % urllib.quote(word.encode("utf-8")))
Â Â Â Â Â Â Â  reponse = f.read().decode('utf-8')
Â Â Â Â Â Â Â  f.close()
Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  class MyParser (HTMLParser):
Â Â Â Â Â Â Â Â Â Â Â  result_found = False
Â Â Â Â Â Â Â Â Â Â Â  tag = None
Â Â Â Â Â Â Â Â Â Â Â  cdep = None
Â Â Â Â Â Â Â Â Â Â Â  cp_found = []
Â Â Â Â Â Â Â Â Â Â Â  grab_result = False

Â Â Â Â Â Â Â Â Â Â Â  def __init__(self):
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  HTMLParser.__init__(self)
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.tag = None
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.result_found = False
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.cp_found = []

Â Â Â Â Â Â Â Â Â Â Â  def handle_starttag(self, tag, attrs):
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if tag == "div":
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  for a, v inÂ  attrs:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if a == 'id' andÂ  v == 'synonymes':
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.result_found = True
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.tag = tag
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.tag_count = 1
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  return
Â Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if self.result_found and tag == "div":
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.tag_count += 1
Â Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if self.result_found and tag == "a":
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.grab_result = True
Â  
Â Â Â Â Â Â Â Â Â Â Â  def handle_endtag(self, tag):
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if self.result_found:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if tag == self.tag:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.tag_count -=1
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if self.tag_count == 0:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.result_found = False
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if tag == "a":
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.grab_result = False
Â 
Â Â Â Â Â Â Â Â Â Â Â  def handle_data(self, data):
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if self.result_found and self.grab_result:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.cp_found.append(data)

Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  p = MyParser()
Â Â Â Â Â Â Â  p.feed(reponse)
Â Â Â Â Â Â Â  p.close()
Â Â Â Â Â Â Â  return random.choice(p.cp_found + [word])

Â Â  Â 
class Blog():
Â Â Â  '''
Â Â Â  This class can post an entry to a blog
Â Â Â  '''
Â Â Â  def post(self, title, content):
Â Â Â Â Â Â Â  pass
Â Â  Â 

class Blogger(Blog):
Â Â Â  '''
Â Â Â  This blog poster implement blogger API.
Â Â Â  '''
Â Â Â  def __init__(self, login, password, blog_url):
Â Â Â Â Â Â Â  self.blogger_service = service.GDataService(login, password)
Â Â Â Â Â Â Â  self.blogger_service.source = 'publisher'
Â Â Â Â Â Â Â  self.blogger_service.service = 'blogger'
Â Â Â Â Â Â Â  self.blogger_service.account_type = 'GOOGLE'
Â Â Â Â Â Â Â  self.blogger_service.server = 'www.blogger.com'
Â Â Â Â Â Â Â  self.blogger_service.ProgrammaticLogin()
Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  query = service.Query()
Â Â Â Â Â Â Â  query.feed = '/feeds/default/blogs'
Â Â Â Â Â Â Â  feed = self.blogger_service.Get(query.ToUri())

Â Â Â Â Â Â Â  print feed.title.text
Â Â Â Â Â Â Â  for entry in feed.entry:
Â Â Â Â Â Â Â Â Â Â Â  logging.info("t" + entry.title.text)
Â Â Â Â Â Â Â Â Â Â Â  for link in entry.link:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if link.href.startswith(blog_url):
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  self.blog_id = entry.GetSelfLink().href.split("/")[-1]

Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  Â 

Â Â  Â 
Â Â Â  def post(self, title, content):
Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  entry = gdata.GDataEntry()
Â Â Â Â Â Â Â  entry.title = atom.Title('xhtml', title)
Â Â Â Â Â Â Â  entry.content = atom.Content(content_type='html', text=content)
Â Â Â Â Â Â Â  return self.blogger_service.Post(entry, '/feeds/%s/posts/default' % self.blog_id)



class AccountParser():
Â Â Â  '''
Â Â Â  This class can read the account file
Â Â Â  '''
Â Â Â  def __init__(self, filename):
Â Â Â Â Â Â Â  self.filename = filename
Â Â  Â 
Â Â Â  def account_iter(self):
Â Â Â Â Â Â Â  logging.info("parsing %s account file" % self.filename)
Â Â Â Â Â Â Â  with open(self.filename) as f:
Â Â Â Â Â Â Â Â Â Â Â  for line in f:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  splitted = line.split(",")
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  url = splitted[0]
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  login = splitted[1]
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  password = splitted[2]
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  if url.find("blogspot.com") > -1: Â 
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  logging.info("found blospot account %s" % url)Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  Â 
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  yield Blogger(login, password, url)
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  else:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  logging.warn("skip unsupported blog %s" % url)
Â Â  Â 




def run():
Â Â Â  usage = "%prog -a <account> -p <post> [-l <log level>]"
Â Â Â  str_version = "%prog 0.1"
Â Â Â  parser = OptionParser(usage=usage, version=str_version)
Â Â Â  parser.add_option("-a", "--account", action="store", type="string", dest="account", help="account file")
Â Â Â  parser.add_option("-p", "--post", action="store", type="string", dest="post", help="post file")
Â Â Â  parser.add_option("-l", "--log", action="store", type="string", dest="level_name", help="log level")
Â Â Â  parser.add_option("-t", "--title", action="store", type="string", dest="title", help="post title")Â Â  Â 
Â Â Â  options, args = parser.parse_args()

Â Â Â  level = LEVELS.get(options.level_name, logging.NOTSET)
Â Â Â  logging.basicConfig(level=level)
Â Â  Â 
Â Â Â  with open(options.post) as post_file:
Â Â Â Â Â Â Â  post = post_file.read()Â Â Â Â Â  Â 
Â Â Â Â Â Â Â  for blog in AccountParser(options.account).account_iter(): 
Â Â Â Â Â Â Â Â Â Â Â  if options.title:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  title= options.title
Â Â Â Â Â Â Â Â Â Â Â  else:
Â Â Â Â Â Â Â Â Â Â Â Â Â Â Â  title = ""Â Â Â Â Â  Â 
Â Â Â Â Â Â Â Â Â Â Â  blog.post(title, SynonymeCloner().clone(post))

if __name__ == '__main__':Â Â  Â 
Â Â Â  run()

Tags: Python Weblogs

blog.bressure.net

Application

Laisser un commentaire Annuler la réponse