apriori 알고리즘 예제

효율적인 연결 규칙을 얻으려면 이전 예제를 살펴보겠습니다. 우리는 OPB가 빈번한 항목 집합이었다는 것을 것을을 발견했습니다. 따라서이 문제에 대 한 1 단계는 이미 완료 되었습니다. 그래서, 2 단계를 보자. OPB를 사용하는 모든 가능한 규칙은 다음과 같습니다: 빈번한 항목 집합 생성과 관련된 apriori 알고리즘의 예를 보았습니다. 데이터 마이닝에는 apriori 알고리즘이 많이 사용됩니다. 이러한 용도 중 하나는 연결 규칙을 효율적으로 찾는 것입니다. 출력 파일 형식은 다음과 같이 정의됩니다. 각 줄이 빈번한 항목 집합을 나타내는 텍스트 파일입니다. 각 줄에서 항목 집합의 항목이 먼저 나열됩니다. 각 항목은 정수로 표시되고 그 뒤에 단일 공간이 표시됩니다. 그 후 모든 항목의 키워드인 “#SUP:”가 나타나고 그 다음에 는 항목 집합의 지원을 나타내는 정수가 표시되고 여러 트랜잭션으로 표시됩니다. 예를 들어 이 예제의 출력 파일은 다음과 같습니다.

첫 번째 줄은 항목 1로 구성된 빈번한 항목 집합을 나타내며 이 항목 집합에 3개의 트랜잭션이 지원되고 있음을 나타냅니다. 많은 바구니에 나타나는 아이템 세트는 “자주”라고 합니다. 형식적이기 위해 지원 임계값이라고 하는 숫자 s가 있다고 가정합니다. 항목 집합인 경우 지원은 하위 집합인 바구니 수입니다. 우리는 그 지원이 더 sor 경우 나는 자주 말한다. 예: 간단한 예제를 살펴보겠습니다. 데이터 마이닝에서 apriori 알고리즘을 설명하는 간단한 예제를 취한 다음 항목에 대한 트랜잭션을 고려하십시오. 현실에서, 당신은 이러한 조합의 수백 수천이있다. Apriori의 첫 번째 단계는 각 멤버 항목의 지원이라고 하는 발생 횟수를 별도로 계산하는 것입니다. 데이터베이스를 처음으로 스캔하여 Apriori는 광범위한 첫 번째 검색과 해시 트리 구조를 사용하여 후보 항목 세트를 효율적으로 계산합니다.

길이 k – 1 {displaystyle k-1}의 항목 집합에서 길이 k {displaystyle k}의 후보 항목 세트를 생성합니다. 그런 다음 드문 하위 패턴이있는 후보자를 정리합니다. 아래쪽 클로저 lemma에 따르면 후보 세트에는 모든 빈번한 k {displaystyle k} -length 항목 집합이 포함됩니다. 그런 다음 트랜잭션 데이터베이스를 검사하여 후보 중 빈번한 항목 집합을 확인합니다. 이 비디오는 파이썬에서 apriori 알고리즘의 중요성을 이해하는 데 도움이됩니다. Apriori 알고리즘의 핵심 개념은 지원 측정값의 단조로움 방지입니다. 그것은 우리가 알고리즘을 이해하기 시작하기 전에, 내 이전 게시물에 설명 된 몇 가지 정의를 통해 이동가정. 다음 데이터 집합을 고려하면 자주 항목 집합을 찾아 연결 규칙을 생성합니다.

우리는 규칙 생성을위한 Apriori 알고리즘의 이론에 더 깊이 가지 않을 것입니다.