Sjednocení regulárních jazyků

Kapitoly: Uzavřenost regulárních jazyků, Sjednocení, Průnik, Rozdíl, Doplněk, Zřetězení, Uzávěr

Mějme dva regulární jazyky L₁, L₂. Dokážeme, že jejich sjednocení L = L₁ ∪ L₂ je také regulární jazyk.

Postup pomocí deterministického automatu

Idea postupu

Máme dva regulární jazyky L₁ a L₂ a chceme dokázat, že jejich sjednocení L₁ ∪ L₂ je opět regulární jazyk. Protože L₁ a L₂ jsou regulární jazyky, tak existují konečné automaty A₁ a A₂, které přijímají jazyky L₁ a L₂, tedy platí L(A₁) = L₁ a L(A₂) = L₂. My dále sestavíme konečný automat A, který bude přijímat jazyk L₁ ∪ L₂, čímž dokážeme, že jazyk L₁ ∪ L₂ je regulární.

Jak to provedeme? Máme po ruce konečné automaty A₁ a A₂, které přijímají jednotlivé jazyky. Můžeme říci, že slovo w patří do jazyka L₁ ∪ L₂ právě tehdy, pokud ho přijme alespoň jeden z automatů A₁ nebo A₂.

Automat A by mohl fungovat tak, že pro vstup w bude simulovat výpočet automatu A₁ pro vstup w. Pokud A₁ slovo w přijme, tak slovo w přijme i A. Pokud A₁ slovo w zamítne, tak A ještě zkusí simulovat výpočet A₂ pro vstup w. Pokud A₂ přijme slovo w, tak i A přijme slovo w. V opačném případě zamítne.

Zbývá nám formalizovat co to znamená, že automat A „simuluje“ výpočet jiného automatu.

Formalizace

Máme dva regulární jazyky L₁ a L₂, které jsou přijímány konečnými automaty

\begin{eqnarray} A_1 &=& \left<Q_1, \Sigma_1, \delta_1, q_1, F_1\right>\\ A_2 &=& \left<Q_2, \Sigma_2, \delta_2, q_2, F_2\right>. \end{eqnarray}

Sestavíme konečný automat $A=\left<Q, \Sigma, \delta, q, F\right>$, který bude přijímat jazyk L = L₁∪ L₂. Využijeme ideu simulování dvou automatů A₁, A₂. Představme si tak, že máme na vstupu slovo w = w₁w₂… w_n a nyní bude současně simulovat průběh automatů A₁ a A₂ pro slovo w. Počáteční konfirace automatu A₁ je <q₁, w₁w₂… w_n>, počáteční konfigurace A₂ je <q₂, w₁w₂… w_n>. V každém automatu nyní provedeme krok výpočtu, čímž se dostaneme do konfigurací <δ₁(q₁, w₁), w₂… w_n> a <δ₂(q₂, w₁), w₂… w_n>.

Vidíme, že tyto konfigurace se liší jen v první složce, druhou — nepřečtenou část slova — mají vždy stejnou. Během simulace tak nemusíme udržovat dvě konfigurace dvou automatů, ale stačí nám jedna konfigurace tvaru <<q_i, q_j>, w_l… w_n>, kde q_i ∈ Q₁ a q_j ∈ Q₂. Jinými slovy náš sestavovaný automat A bude mít počáteční konfiguraci <<q₁, q₂>, w>. První část dvojice <q₁, q₂> představuje stav, ve kterém se aktuálně nachází automat A₁ a druhá složka představuje aktuální stav automatu A₂.

Můžeme tak napsat, že sestavovaný automat A bude mít množinu stavů rovnou Q = Q₁ × Q₂. Bude to kartézský součin stavů z předchozích dvou automatů. Následující idea je taková, že automat A bude mít počáteční stav <q₁, q₂> a pokud automat A₁ přejde pro symbol w₁ do stavu q_i a automat A₂ přejde pro symbol w₁ do stavu q_j, tak automat A přejde pro symbol w₁ do stavu <q_i, q_j>.

Přechodovu funkci δ zapíšeme takto (zde už předpokládáme, že jsme aktuálně ve stavech q_i a q_j):

$$ \delta\left(\left<q_i, q_j\right>,w\right) = \left<\delta_1(q_i,w), \delta_2(q_j,w)\right> $$

Zbývá vyřešit už jen drobnosti. Pro abecedu platí $\Sigma = \Sigma_1 \cup \Sigma_2$. Počáteční stav je roven q = <q₁, q₂>. A koncové stavy jsou všechny dvojice <q_i, q_j> takové, že buď q_i ∈ F₁ nebo q_j ∈ F₂.

Ilustrace postupu

Mějme dva automaty. První je automat A₁, který přijímá všechna slova (včetně prázdného slova), kde se střídají nuly a jedničky, tj. slova tvaru 01, 0101, 010101, …

Další automat A₂ přijímá slova, která obsahují alespoň jednu nulu:

Sjednocení těchto jazyků jsou slova, která buď obsahují nulu nebo jsou tvaru 01, 0101, … Nyní sestavíme konečný automat $A=\left<Q, \Sigma, \delta, q, F\right>$, který bude přijímat právě tento sjednocený jazyk. Jako první si ukážeme, jak budou vypadat stavy tohoto nového automatu A. Bude to kartézský součin stavů prvního a druhého automatu:

$$ Q = Q_1 \times Q_2 = \left\{\left<q_0, p_0\right>, \left<q_0, p_1\right>, \left<q_1, p_0\right>, \left<q_1, p_1\right>, \left<q_2, p_0\right>, \left<q_2, p_1\right>\right\} $$

Takto vypadá šest stavů automatu A, který přijímá sjednocený jazyk L(A₁) ∪ L(A₂). V diagramu by vypadaly takto:

Nijak se nelekněte, že tam máme stavy, které se skládají z dvojic stavů — slouží to jen k lepší orientaci toho, co se vlatně v automatu děje. Stavy by se klidně mohly jmenovat klasicky q₀, …, q₅. Koncové stavy jsou ty stavy, které obsahují buď stav q₀ nebo p₁, což jsou koncové stavy původních automatů. Počáteční stav je <p₀, q₀>.

Nyní musíme najít všechny přechody. Napíšeme si takovout tabulku:

$$ \begin{array}{c|c|c} &0&1\\\hline \left<q_0, p_0\right>\\ \left<q_0, p_1\right>\\ \left<q_1, p_0\right>\\ \left<q_1, p_1\right>\\ \left<q_2, p_0\right>\\ \left<q_2, p_1\right>\\ \end{array} $$

A postupně budeme tabulku doplňovat. Jako první zjistíme, kam povede přechod ze stavu <q₀, p₀> při vstupu 0. Zjistíme, kam vede přechod ze stavu q₀ při vstupu 0 v automatu A₁: ten vede do stavu q₁. V automatu A₂ vede přechod z p₀ při nule do stavu p₁. Takže v do tabulky zapíšeme <q₁, p₁>:

$$ \begin{array}{c|c|c} &0&1\\\hline \left<q_0, p_0\right>&\left<q_1, p_1\right>\\ \left<q_0, p_1\right>\\ \left<q_1, p_0\right>\\ \left<q_1, p_1\right>\\ \left<q_2, p_0\right>\\ \left<q_2, p_1\right>\\ \end{array} $$

Při vstupu 1 dostaneme: pro automat A₁ máme δ₁(q₀, 1) = q₂ a pro automat A₂ máme δ₂(p₀, 1) = p₀. Získáme tak stav <q₂, p₀>.

$$ \begin{array}{c|c|c} &0&1\\\hline \left<q_0, p_0\right>&\left<q_1, p_1\right>&\left<q_2, p_0\right>\\ \left<q_0, p_1\right>\\ \left<q_1, p_0\right>\\ \left<q_1, p_1\right>\\ \left<q_2, p_0\right>\\ \left<q_2, p_1\right>\\ \end{array} $$

Dopíšeme zbytek tabulky:

$$ \begin{array}{c|c|c} &0&1\\\hline \left<q_0, p_0\right>&\left<q_1, p_1\right>&\left<q_2, p_0\right>\\ \left<q_0, p_1\right>&\left<q_1, p_1\right>&\left<q_2, p_1\right>\\ \left<q_1, p_0\right>&\left<q_2, p_1\right>&\left<q_0, p_0\right>\\ \left<q_1, p_1\right>&\left<q_2, p_1\right>&\left<q_0, p_1\right>\\ \left<q_2, p_0\right>&\left<q_2,p_1\right>&\left<q_2, p_0\right>\\ \left<q_2, p_1\right>&\left<q_2,p_1\right>&\left<q_2,p_1\right>\\ \end{array} $$

A podle této tabulky už jen dokreslíme zbytek diagramu.

Můžeme si vyzkoušet, že automat funguje jak má. Zkusíme přijmout slovo 0100. Automat postupně projde stavy

$$ \left<q_0, p_0\right>, \left<q_1, p_1\right>, \left<q_0, p_1\right>, \left<q_1, p_1\right>, \left<q_2, p_1\right> $$

Protože stav <q₂, p₁> je koncový stav, tak automat A přijímá slovo 0100. Jak by to dopadlo, kdybychom zkusili slovo 0100 přijmout automaty A₁ a A₂? Automat A₁ by postupně prošel těmito stavy:

$$ q_0, q_1, q_0, q_1, q_2 $$

Automat skončil ve stavu q₂, který není koncový, takže toto slovo by automat A₁ nepřijal. Co automat A₂?

$$ p_0, p_1, p_1, p_1, p_1 $$

Stav p₁ je koncový, takže automat A₂ by slovo 0100 přijal. Všiměnte si, že automaty A₁ a A₂ skončili ve stavech q₂ a p₁, což je v souladu s tím, že automat A skončil ve stavu <q₂, p₁>.

Postup pomocí nedeterministického automatu

Příklad

Že je množina regulárních jazyků uzavřená na sjednocení si můžeme dokázat i sestrojením nedeterministického automatu, který bude mnohem jednodušší.

Máme tak dva regulární jazyky L₁, L₂ a chceme dokázat, že jejich sjednocení L = L₁ ∪ L₂ je také regulární jazyk. Protože L₁, L₂ jsou regulární jazyky, musí existovat automaty A₁, A₂, které tyto jazyky přijímají. Tj. platí, že L(A₁) = L₁ a L(A₂) = L₂. Pomocí těchto automatů sestrojíme automat A, který bude přijímat jazyk L, tj. L(A) = L.

Předpokládejme, že konečné automaty A₁ a A₂ vypadají takto:

Automat, který by přijímal sjednocení obou jazyků bychom sestrojili tak, že bychom vytvořili nový počáteční stav a z tohoto stavu bychom vedli dva epsilon přechody do původních počátečních stavů. To je celé. Automat by vypadal takto:

Formalizace

Máme dva automaty $A_1=\left<Q_1, \Sigma, \delta_1, q_1, F_1\right>$ a $A_2=\left<Q_2, \Sigma, \delta_2, q_2, F_2\right>$. Sestrojíme automat $A=\left<Q, \Sigma, \delta, q_0, F\right>$, který bude přijímat sjednocení jazyků, které jsou přijímany předchozími automaty, tj. L(A) = L(A₁)∪ L(A₂). Přitom platí:

Q = Q₁ ∪ Q₂ ∪ {q₀}
F = F₁ ∪ F₂

A přechodovu δ funkci definujeme takto:

$$ \delta(q,a)= \begin{cases} \delta_1(q,a)&\mbox{pokud}&q\in Q_1\\ \delta_2(q,a)&\mbox{pokud}&q\in Q_2\\ \left\{q_1, q_2\right\}&\mbox{pokud}&q=q_0 \wedge a=\varepsilon\\ \emptyset&\mbox{pokud}&q=q_0\wedge a\ne\varepsilon \end{cases} $$

Zdroje

« Předchozí: Uzavřenost regulárních jazyků

Další: Průnik »