Publication detail

Použití genetických algoritmů pro analýzu návštěvnosti WWW portálu

POPELKA, O. ŠŤASTNÝ, J.

Original Title

Použití genetických algoritmů pro analýzu návštěvnosti WWW portálu

English Title

WWW portal usage analysis using genetic algorithms

Type

journal article - other

Language

Czech

Original Abstract

Článek popisuje novou metodu navrženou pro pokročilou analýzu návštěv webového portálu. Jedná se o část procesu získávání informací a znalostí z dat o použití webové prezentace. Tyto informace jsou nezbytné k lepšímu poznání potřeb a požadavků návštěvníka, všeobecně tedy k poznání zákazníka. Navrhovaná metoda využívá gramatickou evoluci, což je výpočetní metoda založená na genetickém algoritmu. Tato práce používá reprezentaci s využitím procedurálního programovacího jazyka, která je vhodná pro další použití jako součást obslužné aplikace webového portálu. To je významná motivace pro vývoj alternativní metody a použití právě gramatické evoluce. Výhoda použití gramatické evoluce je v tom, že vyhovořené řešení již není na výpočetním systému nijak závislé. Vstupní data do systému jsou záznamy o jednotlivých HTTP požadavcích na webový server. V těchto záznamech není jednoznačně identifikován konkrétní návštěvník, pro identifikaci je tedy použita kombinace IP adresy a identifikace webového prohlížeče. Jako testovací zdrojová data byly použity záznamy o přístupech na webový server známého IT časopisu. Surová data představují záznamy za jeden konkrétní náhodně vybraný pracovní den.

English abstract

The article proposes a new method suitable for advanced analysis of web portal visits. This is part of retrieving information and knowledge from web usage data (web usage mining). Such information is necessary in order to gain better insight into visitor's needs and generally consumer behaviour. By leveraging this information a company can optimize the organization of its internet presentations and offer a better end-user experience. The proposed approach is using Grammatical evolution which is computational method based on genetic algorithms. Grammatical evolution is using a context-free grammar in order to generate the solution in arbitrary reusable form. This allows us to describe visitors' behaviour in different manners depending on desired further processing. In this article we use description with a procedural programming language. Web server access log files are used as source data. The extraction of behaviour patterns can currently be solved using statistical analysis -- specifically sequential analysis based methods. Our objective is to develop an alternative algorithm. The article further describes the basic algorithms of two-level grammatical evolution; this involves basic Grammatical Evolution and Differential Evolution, which forms the second phase of the computation. Grammatical evolution is used to generate the basic structure of the solution -- in form of a part of application code. Differential evolution is used to find optimal parameters for this solution -- the specific pages visited by a random visitor. The grammar used to conduct experiments is described along with explanations of the links to the actual implementation of the algorithm. Furthermore the fitness function is described and reasons which yield to its' current shape. Finally the process of analyzing and filtering the raw input data is described as it is vital part in obtaining reasonable results.

Key words in English

behaviour patterns, data mining, genetic algorithms, www portal

Authors

POPELKA, O.; ŠŤASTNÝ, J.

RIV year

2009

Released

21. 12. 2009

ISBN

1211-8516

Periodical

Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis

Year of study

2009

Number

6

State

Czech Republic

Pages from

201

Pages to

207

Pages count

7

BibTex

@article{BUT47302,
  author="Ondřej {Popelka} and Jiří {Šťastný}",
  title="Použití genetických algoritmů pro analýzu návštěvnosti WWW portálu",
  journal="Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis",
  year="2009",
  volume="2009",
  number="6",
  pages="201--207",
  issn="1211-8516"
}