這篇文我放了很久。遲遲沒有進展,也整理不出重點來。我決定先發出來,看會不會一發佈就想通關鍵。
初識產銷履歷資料集 #
超市萵苣 #
年前我去超市買菜。萵苣不論大小一包 22 元,我挑了一顆大的。自助結帳時,機器提示:「請將未結帳的物品移離檯面。」我拿起又放下萵苣和兩瓶一公升皂豆漿,機器:「總重量 24xx 克,超過預期的 2250 克。請呼叫服務人員。」我只好去人工結帳。
想是萵苣設定一包 250 克重,超重的萵苣也只能當一顆賣。因為我之前買 24 元的萵苣苗卻種得稀稀落落,我認真研究了一下買到的這顆萵苣。產銷履歷顯示 2025/12/14 定植到 2026/01/24 採收,只隔了 41 天。時間跟我大半重疊,所以我猜我家種不好並非氣溫太低所致,而是因為陽光不足。
產銷履歷 #
產銷履歷推動近二十年,身為消費者,這是我第一次實際掃描產品上的 QR 查詢生產記錄。一查發現蠻好玩的,產銷履歷不僅有農糧產品,也涵蓋水產、加工品……,支援的品項可以當作台灣物產博物館。(進口貨物產博物館可參考輸出入貨品分類表)
產品的每個「生產批次」會記錄產品名稱、生產者、驗證機構、原料、包裝日期等資訊。這些資訊都是每天記錄,包裝時系統就只是打包所有資訊並申請一個追溯號碼而已。
資料分析 #
我請 AI 幫我爬產銷履歷資料庫到我的電腦,想來發掘公開的祕密。有沒有什麼產品的檢驗被一間公司攏斷?有沒有什麼產銷班一次休耕十年?之類的……既然我剛用 AI 爬完資料,視窗還沒關,自然是先叫 AI 去發掘,而不是我自己下 SQL。
- 請 AI 「Find me 5 fun facts from the data」。它給了許多純統計的資訊,如:「最多生產批次的產品是芭樂」「花東製米是最多生產批次的單一生產者」等…
- 我修正指示,請它考慮時空間特性。它依指示給了五項如:「雲林的產銷履歷數佔全臺 30%,多於第二到四名加總」「屏東產蛋、花蓮產米…」等…
- 因為 AI 給的五項中,其中一項有點重複,所以我請它再找一項取代。由於只找一項,我就盯著 AI 跑完。結果 AI 二話不說,寫腳本分析出「用最多原料的單一生產批次是什麼?是鳳梨汁!」就當作第五個 Fun Fact 給我。
目睹「query + data = fun fact」這套流程後,我愣住了。心想:「這算哪門子的 fun fact?這樣查下去,不管資料長怎樣,一定會有結果呀,這樣哪裡 fun 了?好歹查十項不同數值,選結果最意料之外的當 fun fact 吧?」
想著想著卻又有點心虛,「查十項不同數值,選結果最意料之外的。」這樣查查查,查下去,也一定會有結果呀。這樣有提升 fun 的層次嗎?原來我使喚 AI 做事時,並不知道我自己要的 fun 具體是什麼。真是文明病。
科學方法學思 #
怎樣算 fun? #
類似的問題,除了 fun 之外,也可以問
- 怎樣算引人入勝?
- 怎樣算創新?
- 怎樣算漂亮?
- 怎樣能成為經典?
以上詞彙各有其義,可若要我舉例解釋,好像又差不多……大概就是
- 資訊正確,邏輯自洽,經得起檢驗
- 資訊具有應用價值,如協助未來決策
- 資訊應用範圍廣、條件少、幫助大
- 應用價值與既有資訊迥異
社會科學 #
從「與既有資訊迥異」來看,「查十項不同數值,選結果最意料之外的。」確實引進了世界上既有的資訊,對於趣味程度有些幫助。雖然我的意料和 AI 的意料可能不盡相同,但至少我可以得到對 AI 而言有趣的結果。
這種純觀察統計(而非設計實驗量測)的做法好像比較常見於社會科學。也是我小時候鄙視文組的原由:設計問卷、收數據、跑分析、寫論文。即使問卷亂發、分析方式不對,整套組合執行下來也一定會有數據。例如:「臺灣籍單次性交易價金集中於新臺幣 3500 元」。由誰去做都能得到一個數字,這有什麼難?
而隨著我年紀增長,感受到生命有限,漸漸願意感謝這些人。不管他們設計的測量流程是好是壞,他們都生出了一些資源來跑這套測量流程,並據實報告量測結果和測量流程。這些製造量測結果(提供算力)的人,可能比設計完美流程(寫出好程式)的人還要偉大。
量化 fun 的層次 #
話又說回來,感謝尊重是一回事,我還是想當做出經典的人,而不是製造測量結果的人。
那究竟 fun 的程度該怎麼定義呢?有辦法比較嗎?
我目前覺得:
在最低的層次上,fun 度跟資訊熵是差不多的概念,資訊量越大越 fun 度越高。 在資訊熵層次之上,則是對資訊熵或量測方法的分析,我不確定這種分析比較是不是也能(純)量化。
翻譯成數學語:
fun 度是完備的嗎?