グラフの彩色数求値 O(2nn)O(2^n n)O(2n)O(2^n) を定数倍高速化したもの

この記事の第 1 部は、競プロ Advent Calender 2 日目として公開されています。

  • 第 1 部 2021-12-02 投稿
  • 第 2 部 2023-12-14 投稿

第 1 部:問題

Library Checker – Chromatic Number

Library Checker
Library Checker

問題文中の NN は、ここでは代わりに nn と表します。頂点全体の集合を VV とします。 V=n\vert V \vert = n です。 タイトルのように、この問題を解く計算量 O(2nn)O(2^n n)O(2n)O(2^n) のアルゴリズムを実装し、その定数倍高速化をしました。

グラフの彩色数を用いた解法がある問題の例: (1-1:cp-unspoiler)

また、同じアルゴリズムを用いて和集合に関するある問題を高速に解けます。例: (2-1)

第 1 部:そもそも、そのアルゴリズムは何

頂点集合の部分集合 ss について、 kk 色で塗ることができるかどうかの真偽値を dpk[s]\mathrm{dp}_k[s] とします。実際は添え字は非負整数を用いて、ビット列で集合を表現します。 dp1\mathrm{dp}_1 を求めておきます。

bitwise OR convolution を用いる O(2nn2)O(2^n n^2)

テーブル XX をゼータ変換して得られるテーブルを X^\hat{X} と表します。

頂点集合 sskk-彩色でき、頂点集合 ttll-彩色できるとき、 sts \cup t(k+l)(k+l)-彩色可能です。よって、 22 つのテーブル dpk\mathrm{dp}_kdpl\mathrm{dp}_l から、 bitwise OR convolution を用いて dpk+l\mathrm{dp}_{k+l} を求められます。 ここで、 dpk[V]\mathrm{dp}_k[V] ( VV は頂点全体の集合、 1kn1 \leq k \leq n ) に注目すると、 kk-彩色が判定でき、よって彩色数が求まります。この時点では計算量は O(2nn2)O(2^n n^2) 、ダブリングと二分探索を用いると O(2nnlogn)O(2^n n \log n) となります。

11 色塗るごとに計算量が指数的に減少 O(2nn)O(2^n n)

彩色後のグラフについて、任意の kk 頂点を選ぶとそれらは kk 色以下で塗られていることが明らかです。ここで、頂点 nk,nk+1,,n1n-k,n-k+1, \ldots ,n-1 を始めの kk 色で塗ることにします。色に色 00 、色 11 、……と番号を振るなら、頂点 nkn-k の色を色 xx として xk1x \leq k-1 が成り立ちます。すると、色 0,1,,k0,1, \ldots ,k を塗る頂点の集合を決めた後は kk 個の頂点を無視できることになります。したがって、テーブル dpk\mathrm{dp}_k のサイズは色を塗るごとに半分にしてもよく、つまり kk の増加とともに指数的に小さくなります。これで計算量 O(2nn)O(2^n n) が達成できます。

ちなみに、この方法では次の紹介する方法に比べて具体的な彩色の構築が容易です。

適当な値で割った余りを用いる O(2nn)O(2^n n)

以上で説明したアルゴリズムでは、 bitwise OR convolution の結果を真偽値に変換するため、 bitwise OR convolution の累乗を高速に求める方法(計算量 O(2nn)O(2^n n) ) を適用できません。しかし、真偽値に変換せずに適当な値 PP で割ったあまりを用いることで、出力が正しい保証と引き換えに高速な累乗を可能にします。

bitwise OR convolution は以下の手順で行われます。

  1. 高速ゼータ変換
  2. 各点積
  3. 高速メビウス変換

まず、 dp1^\hat{\mathrm{dp}_1} の各点を kk 乗します。興味があるのは dpk[V]\mathrm{dp}_k[V] のみなので、高速メビウス変換の代わりに O(2n)O(2^n) で値を求められます。 dpk[V]0\mathrm{dp}_k[V] \neq 0 ならグラフは kk 彩色可能です。 k=1,2,,nk=1,2, \ldots ,n と順に求めると (各点の kk 乗は順に求まるので) O(2nn)O(2^n n) 時間になります。このアルゴリズムが(Library Checker の提出で)よく用いられています。

出力が正しい保証がないと言いましたが、高々 nn 個の値のどれかが PP の倍数かつ正になって初めて失敗しうるので、出力が正しくない可能性はかなり低いです。

調べた限りでは、この方法で定数倍が小さいものが Library Checker によく提出されています。

以上をまとめて O(2n)O(2^n)

以上の 22 つの考えを合わせて計算量を O(2n)O(2^n) にできます。つまり、 dpk^\hat{\mathrm{dp}_k} は、 PP で割った余りを計算しながら、色を塗るごとにサイズを半分にします。

dp1\mathrm{dp}_1 を高速ゼータ変換したテーブルは、場合分けを用いて計算量 O(2n)O(2^n) で直接計算できます( Nyaan さんの提出 を参考にしました )。定数倍高速化の項で改めて解説します。

P109+9P \leftarrow 10^9+9
T[i]1T[i] \leftarrow 1 (i=0,1,2n1)(i=0,1,\ldots 2^n-1)
Adp1^A \leftarrow \hat{\mathrm{dp}_1}
T[i]T[i](1)popcount(i)mod2 (i=0,1,2n1)T[i] \leftarrow T[i] \cdot (-1)^{\text{popcount}(i) \bmod 2}\ (i=0,1,\ldots 2^n-1)
for k1,2,,n\text{for }k \leftarrow 1,2, \ldots ,n
z2nk\hspace{20px}z \leftarrow 2^{n-k}
T[i](T[i]A[i])modP (i=0,1,2z1)\hspace{20px}T[i] \leftarrow (T[i]A[i]) \bmod P\ (i=0,1,\ldots 2z-1)
T[i](T[i]+T[i+z])modP (i=0,1,z1)\hspace{20px}T[i] \leftarrow (T[i]+T[i+z]) \bmod P\ (i=0,1,\ldots z-1)
if (i=0z1T[i])modP=0\hspace{20px}\text{if }(\sum_{i=0}^{z-1}T[i]) \bmod P =0
return k\hspace{40px}\text{return }k

いったい何を数え上げているんだ…?

適当な値で割った余りを用いる O(2nn)O(2^n n) では、

  • 各頂点を複数の色で塗ってよいとしたときの塗り方の個数

を数え上げることになります。

以上をまとめて O(2n)O(2^n) では、

  • 各頂点を複数の色で塗ってよいが、頂点 n1in-1-i は番号が ii 以下の色しか塗ってはいけないときの塗り方の個数

を数え上げることになります。

第 1 部:これを定数倍高速化します

概要

出力が 11 の場合は自明なので、別で判定し、テーブルの最大サイズを 2n2^n から 2n12^{n-1} に減らします。つまり、各テーブルは初めから頂点 n1n-1 を塗る前提で構築します。

詳細

まず変数を定義します。

  • 非負整数 EiE_ijj ビット目が立つのは、頂点 ii に頂点 jj が隣接しているときである。
  • nn 以下の正整数 kk{0,1,2,,n1k}\{0,1,2,\ldots ,n-1-k\} の部分集合 dd について、 dp2k[d]\mathrm{dp2}_k[d]00 でないのは、 dd で表される頂点集合に頂点 nk,nk+1,n1n-k,n-k+1, \ldots n-1 を足した頂点集合は、 kk 色で塗れるとき。ある kk についてこのテーブルをまとめて dp2k\mathrm{dp2}_k と呼ぶ。
    • 実際は 11 つの非負整数を bitset として dd に用いるため、この意味で非負整数と頂点集合を同一視する場合がある。
    • PP で割った余りを用いて高速化するときはこの値が間違っている可能性がある。
  • dp2k^\hat{\mathrm{dp2}_k}dp2k\mathrm{dp2}_k をゼータ変換したもの。
    • 上と同様、この値が間違っている可能性がある。

dp1^\hat{\mathrm{dp}_1} の計算

dp1^[d]\hat{\mathrm{dp}_1}[d] の値は、

  • dd の部分集合であって 11 色で塗れるものの個数

と解釈できます。頂点 hh を塗るかどうかで場合分けすると、 2hd<2h+12^h \leq d \lt 2^{h+1} のとき

  • 頂点 hh を塗らない場合の個数は dp1^[d{h}]\hat{\mathrm{dp}_1}[d \cap \overline{\{h\}}]
  • 頂点 hh を塗る場合、 hh に隣接する頂点は塗れないので、求める個数は dp1^[d{h}Eh]\hat{\mathrm{dp}_1}[d \cap \overline{\{h\}} \cap \overline{E_h}]

として、より小さい dd についての結果から計算でき、 dp1^[0]=1\hat{\mathrm{dp}_1}[0]=1 と合わせると動的計画法でテーブル全体を計算できます。

dp21^\hat{\mathrm{dp2}_1} の計算

同様に場合分けし、動的計画法を導きます。

  • dp21^[0]=1\hat{\mathrm{dp2}_1}[0]=1
  • 頂点 hh を塗らない場合の個数は dp1^[d{h}]\hat{\mathrm{dp}_1}[d \cap \overline{\{h\}}]
  • 頂点 hh を塗る場合、
    • 頂点 hh が頂点 n1n-1 に隣接する場合、求める個数は 00
    • 隣接しない場合、 hh に隣接する頂点は塗れないので、求める個数は dp1^[d{h}Eh]\hat{\mathrm{dp}_1}[d \cap \overline{\{h\}} \cap \overline{E_h}]

オーバーフローの吟味

(2023/01/20 更新)

実は、 3232 ビット整数で計算すると、ゼータ変換したテーブルどうしで各要素を掛け合わせたときに最大で 2n2n ビット程度の値が現れ、オーバーフローします。ここで、 C++ の符号なし 3232 ビット整数型は加減乗算を mod232\bmod2^{32} で合同な値を用いて計算することを用いて正しく計算します。

(以降、 2023/01/20 追記) この部分は当時の勘違いにもとづいて書かれており、結果的には誤りではなかったものの誤解を招いた可能性がありました。申し訳ございません。

n=20n=20 の場合、 bitwize OR convolution の計算結果に表れる値の上界に関して 3203.5×109<2323^{20}\leq 3.5\times 10^9\lt 2^{32} が成り立つので、正しい結果が得られることが示せますが、例えば n=26n=26 などとすると間違う可能性を否定できません。 6464 ビット整数型、より一般に 2n2n ビット以上の表現で計算すれば安全になります。

全体をもう一度

除数 PP を用いない計算量 O(2nn)O(2^n n) のアルゴリズムは次のようになります。

Adp1^A \leftarrow \hat{\mathrm{dp}_1}
Tdp21^T \leftarrow \hat{\mathrm{dp2}_1}
if Ei= (i=0,1,n1)\text{if }E_i=\emptyset\ (i=0,1,\ldots n-1)
return 1\hspace{20px}\text{return }1
for k2,3,,n\text{for }k \leftarrow 2,3, \ldots ,n
z2nk\hspace{20px}z \leftarrow 2^{n-k}
T[i]T[i]A[i] (i=0,1,2z1)\hspace{20px}T[i] \leftarrow T[i]A[i]\ (i=0,1,\ldots 2z-1)
T[i]T[i]+T[i+z] (i=0,1,z1)\hspace{20px}T[i] \leftarrow -T[i]+T[i+z]\ (i=0,1,\ldots z-1)
Tfirst half of T\hspace{20px}T \leftarrow \text{first half of }T
TMo¨bius transformed T\hspace{20px}T \leftarrow \text{Möbius transformed }T
if (i=0z1T[i])modP=0\hspace{20px}\text{if }(\sum_{i=0}^{z-1}T[i]) \bmod P =0
return k\hspace{40px}\text{return }k
Tzeta transformed T\hspace{20px}T \leftarrow \text{zeta transformed }T

除数 PP を用いる計算量 O(2n)O(2^n) のほうは次のようになります。

P109+9P \leftarrow 10^9+9
Adp1^A \leftarrow \hat{\mathrm{dp}_1}
Tdp21^T \leftarrow \hat{\mathrm{dp2}_1}
T[i]T[i](1)popcount(i)mod2 (i=0,1,2n1)T[i] \leftarrow T[i] \cdot (-1)^{\text{popcount}(i) \bmod 2}\ (i=0,1,\ldots 2^n-1)
if Ei= (i=0,1,n1)\text{if }E_i=\emptyset\ (i=0,1,\ldots n-1)
return 1\hspace{20px}\text{return }1
for k2,3,,n\text{for }k \leftarrow 2,3, \ldots ,n
z2nk\hspace{20px}z \leftarrow 2^{n-k}
T[i](T[i]A[i])modP (i=0,1,2z1)\hspace{20px}T[i] \leftarrow (T[i]A[i]) \bmod P\ (i=0,1,\ldots 2z-1)
T[i]T[i]+T[i+z] (i=0,1,z1)\hspace{20px}T[i] \leftarrow T[i]+T[i+z]\ (i=0,1,\ldots z-1)
if (i=0z1T[i])modP=0\hspace{20px}\text{if }(\sum_{i=0}^{z-1}T[i]) \bmod P =0
return k\hspace{40px}\text{return }k

第 1 部:完成したものがこちら

(2024-01-15 コンパイルエラー修正)

第 2 部:決定性 O(2n)O(2^n) 時間へ

アルゴリズム

以上をまとめて O(2n)O(2^n) 」のアルゴリズムにおいて、 modP{}\bmod P を取らずに多倍長整数で計算することを考えます。実はこれが O(2n)O(2^n) 時間の deterministic アルゴリズムになります。(!?)

高速ゼータ変換をした後の配列に含まれる値は 2n2^n 以下です。よって、 bitwise OR convolution で kk 乗した配列を高速ゼータ変換した列に含まれる値は (2n)k(2^n)^k 以下です。これを kk ワードで管理します。

kk 色目を塗る処理にかかる計算量は O(k2nk)O(k2^{n-k}) 時間と表せるので、全体の計算量は

k=1nk2nk2nk=1k2k=2ns=12s+1=2n22\sum_{k=1}^{n}k2^{n-k}\leq 2^n \sum_{k=1}^{\infty}k2^{-k} =2^n\sum_{s=1}^{\infty}2^{-s+1}=2^n 2^2

と評価して O(2n)O(2^n) です。

実装

実装しました。 (2024-01-15 修正)

第 1 部での制作と比較すると、オーバーフローや除数による不正確さといった問題点が取り除かれたうえで、処理速度を維持することができました。

この実装では、正しく動作する範囲として 1n311\leq n\leq 31 を想定しています。

実装のポイント

メモリの戦略

第 1 部では一貫して、番号の大きい頂点から取り除くことで、アクセスする配列の範囲を狭めることを優先しました。今回は多倍長整数を扱うので 11 要素あたりのメモリが一定ではありません。

このため、頂点を取り除くときは番号の小さい頂点から順に取り除くことにして、配列を間引くように空間を減らすようにします。これにより、 kk 頂点取り除いた後は 11 要素あたり 2k2^k ワードを使えるようになり、必要な k+1k+1 ワードを確保できます。

多倍長整数の演算

ゼータ変換の長さを半分にするステップでは、

  • 11 ワードの非負整数値 a,ba,b と、 kk ワードの非負整数値 x,yx,y が与えられたとき、
  • k+1k+1 ワードの非負整数値 axbyax-by を計算する

という計算が繰り返されます。 axaxbyby でそれぞれ繰り上がりを計算してから単に引き算することにより、引き算の繰り上がりの処理が簡潔になるようにしました。

また、彩色可能か判定するためにテーブルの値を足し引きするときは、符号・桁ごとに足し合わせてから繰り上がりを処理し、正の成分と負の成分それぞれの総和が一致するかどうか判定するように実装しました。

おわりに

第 1 部では地道な高速化で差を付けることにしていましたが、第 2 部では競プロでよく用いられる方法と比べて確かに高速な解法プログラムを作ることができました。ソースコード長もそんなに大きくありません。 Library Checker の問題設定において、競プロ用ライブラリとしてはかなり良いところに落ち着いているのではないでしょうか。

タイトルとURLをコピーしました