20 Sept (Thur) Day8 Machine learning 201 基因算法3

JOE — Fri, 2012-09-21 00:31

譯自 http://burakkanber.com/blog/machine-learning-genetic-algorithms-in-javas...

今日要看的是基因算法的進階部分，如果你進沒有看過部一和第二部分，我強烈建議你先看過它們。這篇會跳過前兩部的基礎。

題目
你可帶走實驗室中一千個單位重量的元素，元素的價值都不一樣，目標是帶走最貴的元素，同時重量不超過一千單位。價錢的最大化，但同時在重量的限制之下。

這是一個 knapsack http://en.wikipedia.org/wiki/Knapsack_problem 題目，以上的是一個一元題目，意思是唯一的限制是重量，我們可以加入其他的限制，例如體積，但我們還是從簡單的開始。注意的是題目的元素每一款都只有一件，每一件都有一個重量。這題目有其他的變種例如有三件黄金，但我們的條件是每款一件。

為何這個題目如此果難？元素總共有118種，使用暴力列舉的話總共有 2^118 個不同的可能組合。

貪心算法
一個快速的基準是謂的貪心算法。貪心算法拿的是最貴重的元素直至達到重量限制。有時候這個算法都不錯，但當然不是最好的。例如黄金值 $1000，重600單位。但有另一元素 cadmium 值$950 但重量為300單位。還有其他元素是有一定的價值但重量不大。貪心算法會選黄金，珍貴的重量會被佔一大部分。

這個簡單的貪心算法會帶走 $3649 的元素，重998單位

你可能會說，我們可以用找出平均一重量單位價值最高元素的方法，這算法會帶走 $4901 的元素，重969單位。

所以我們有兩個基準，簡單的應該可以打倒 $3649，花點工夫 $4901 都不是問題。

為何貪心算法的效果這樣的好？因為這算法找出的「最高價值重量比」和我們要找的非常相近，但這算法遇上價值和重量相差大的情況便不管用。

基因算法可能會有數世代比貪心算法差，但會基因算法會一個比一個世代好，特別是複雜程度增加的時候。

所以我們在看的是一個相對簡單的題目，但仍比上一個 Hello world 題目複雜，現在開始吧。

關鍵的差別
一些明顯和上一個題目的不同的地方：

我們使用過重複的字符，但這次不使用重複的元素
Hello world 是13個字符長度，但這次帶走的元素的數字是未知
我們不知道最高的價值，即最佳點。可能是貪心算法的 4901，可能是 10000，或 23304

基因的表示法
Hello world 中我們使用字符串代表基因，變化是隨機改變一個字符，交配是切開組合兩組基因，這次便有點不同。

這次表示基因的方法有點難道，我們不知道元素的多少，不可以使用固定長度的字符串。

或者我們可以使用 bitmask 的方式，一個位元代表一個元素，共118個位元，1代表帶走，0代表留下：
10000011000001000100000010000010010010000
如果題目容許帶走多個相同的元素，表示的方式可以改為
4001000020003000100000100000001

Helium, Lithium, Lead, Tin
而上面這一種方式會令交配變得困難，因為要確保交配之後的結果不會有重複的元素出現兩次。

人口超載問題
這題目我們會算出基因的三個參數：重量，價值和分數。其中分數和價值很相似，但分數會計入重量超過限額時候的值。

你可能會問為何我們不直接放棄超載的基因。這或者是很自然的反應，因為超載的基因一定不會是最佳解。但一些只是筲為超載的基因很可能很有用，我們只需要稍為修改一下，這個基因的重量便可能維持在限制之內。

超載的基因帶有很多的可能性，留住它們，加入倒扣分數的條件件，而非都殺掉令它們可以交配，但排在最前的機會便會減低。下面的代碼為超載的基因減50點分數，你可以試試這個數字。

從進化的角度看，這會推動基因減去多餘的重量，它們只需要小的修改，而不應殺掉一個可能很強的基因。

待續

Related

Recent Comments

Languages

導覽

ABOUT ME

Recent content