Irodalmi megjegyzések

Az asszociációs szabályok kategorikus és folytonos adatokból történő bányászatának feladatát Srikant és Agrawal [4892] vezette be. Stratégiájuk az volt, hogy a kategorikus attribútumokat binarizálták, a folytonos attribútumokra pedig az egyenlő gyakoriság elvén működő diszkretizálást alkalmaztak. Javasoltak egy parciális teljességi (partial completeness) mértéket is, amivel a diszkretizálás következményeként elszenvedett információveszteség mértékét határozták meg. Később ezt a mértéket használták arra, hogy meghatározzák, hogy hány diszkrét intervallumot kell alkalmazni annak biztosítására, hogy az információveszteség mértéke egy kívánt szint alatt maradjon. Ezután a munka után számos más megfogalmazás került kidolgozásra a kvantitatív asszociációs szabályok bányászatához. A statisztikán alapuló megközelítést Aumann és Lindell [4660] fejlesztette ki a populáció azon részeinek azonosítására, melyek olyan érdekes viselkedést mutatnak, amelyet kvantitatív attribútumok írnak le. Ezt a megfogalmazást később mások is kiterjesztették, többek között Webb [4916], illetve Zhang és társai [4934]. A min-Apriori algoritmust Han és társai [4757] fejlesztették ki, hogy diszkretizálás nélkül lehessen folytonos adatokból asszociációs szabályokat feltárni. Számos más kutató is vizsgálta az asszociációs szabályok folytonos adatokon történő bányászatának problémáját, köztük Fukuda és társai [4750], Lent és társai [4811], Wang és társai [4913], illetve Miller és Yang [4828].

A 7.3. szakaszban leírt módszert, amely kiegészített tranzakciókkal kezel fogalomhierarchiát, Srikant és Agrawal [4891] fejlesztette ki. Egy másik algoritmust Han és Fu [4761] javasolt, amelyben a gyakori elemhalmazokat szintenként generálják. Konkrétabban, az ő algoritmusuk először az összes gyakori 1-elemhalmazt generálja a fogalomhierarchia tetején. Ezen gyakori 1-elemhalmazok halmazát L(1,1) jelöli. Az algoritmus azzal folytatja, hogy az L(1,1) -beli gyakori 1-elemhalmazok felhasználásával előállítja az összes gyakori 2-elemhalmazt az 1. szinten, amelyet L(1,2) -vel jelölünk. Ezt az eljárást addig ismétli, amíg ki nem nyer minden olyan gyakori elemhalmazt, amelyek a hierarchia legmagasabb szintjéről tartalmaznak elemeket. Ezután az algoritmus azzal folytatja, hogy kinyeri a hierarchia következő szintjén a gyakori elemhalmazokat, az L(1,1) -beli gyakori elemhalmazok alapján L(2,1) előállításával kezdve. Az eljárást addig ismétli, amíg le nem áll a hierarchia egy olyan alsó szintjén, melyet a felhasználó határozott meg.

A szekvenciális mintázatok a 7.4. szakaszban leírt megfogalmazását, és az ugyancsak ott leírt algoritmust Agrawal és Srikant dolgozták ki a [4656, 4893] munkákban. Hasonlóan vezették be Mannila és társai [4819] a gyakori epizód fogalmát, amely hasznos lehet, ha nagyon hosszú eseményfolyamokból kell szekvenciális mintázatokat bányászni. A szekvenciális mintázatok bányászatának egy másik, reguláris kifejezéseken alapuló megfogalmazását javasolták Garofalakis és társai [4752]. Joshi és társai a szekvenciális mintázatok különböző megfogalmazásai közötti eltéréseket próbálták összeegyeztetni [4790]. Ennek eredménye a szekvenciális mintázatok egy általános megfogalmazása lett, amelyben a 7.4.4. szakaszban leírt különböző számítási módszerek kaptak helyet. Szekvenciális mintázatok bányászatára alternatív algoritmusokat javasoltak Pei és társai [4851], Ayres és társai [4683], Cheng és társai [4712], valamint Seno és társai [4881] is.

A gyakori részgráfok bányászatának problémájával először Inokuchi és társai foglalkoztak [4782]. Ők egy csúcsnöveléses stratégiát alkalmaztak arra, hogy gyakori feszített részgráfokat generáljanak gráfszerkezetű adatokból. Az élnöveléses stratégiát Kuramochi és Karypis fejlesztették ki [4806]-ben, melyben egy Apriori-szerű, FSG elnevezésű algoritmust is bemutattak, amely olyan problémákkal is foglalkozik, mint a jelöltek multiplicitása, a kanonikus címkézés és a csúcsinvariáns sémák. Egy másik, gSpan nevű, gyakori részgráfokat bányászó algoritmust fejlesztett ki Yan és Han [4926]. Ebben a szerzők egy minimális DFS kódot alkalmaztak a különböző részgráfok kódolására. A gyakori részgráf bányászat feladatának más változatairól publikált Zaki [4929], Parthasarathy és Coatney [4847], illetve Kuramochi és Karypis [4805].

A ritka mintázatok bányászatának problémáját már sok szerző vizsgálta. Savasere és társai [4871] fogalomhierarchia felhasználásával vizsgálták a negatív asszociációs szabályok bányászatát. Tan és társai [4899] javasolták először indirekt asszociációk bányászatát, szekvenciális és nem szekvenciális adatokra egyaránt. Hatékony algoritmusokat javasoltak negatív mintázatok bányászatára Boulicaut és társai [4695], Teng és társai [4903], Wu és társai [4920], illetve Antonie és Zaane [4680].