一直來聽不少資料庫相關的演講,不知道是這個領域本來就多演講,還是新加坡限定。
有印象的大致有:
Neo4j, Yugabyte, Druid 介紹自己的產品。
- RisingWave 介紹 TiDB 的 data change message 實作。
- Datastax(Cassandra 營運商)介紹 vector search。
- NUS 做了一個叫 SQLancer 的 SQL fuzzer 來抓各 DB 的 bug。
Neo4j 是整天的活動,辦在商業大樓,我只參加了前天晚上非上班時間的部份。
講者不是常待新加坡的人,活動才來。啤酒無限暢飲,但我看沒啥人碰。
Yugabyte 和 Druid 都是隨機工程師在社群介紹,場地在 rakuten 跟 google 社群空間。
RisingWave 在自家辦公室有披薩,講者口調普通,穿個涼鞋,整個加班模式。
Datastax 是午休時間在 wework,外匯超好吃。不過我要通車其實時間不太夠。
SQLancer 也是社群借 google 空間。即使是實作派,學者講話還是學者調調,很有趣。
Cassandra 是一種向量資料庫實作,資料表上每欄的型別可以是固定維度的向量。
然後可以對每欄的曼哈頓距離或 cosine 距離建索引,實現 vector search。
常用在 LLM Query 的前處理:
使用者把文本丟進資料庫,Query 進來時撈出相關文本,一並餵給 LLM 參考。
這樣做是因為目前 LLM 的使用成本較高,不適合(實時)吃下所有文本做為訓練資料。
vector search 技術相對成熟透明。所以出來蹭一波 LLM 生意。
聽眾提問:
- 向量資料庫有沒有通用的 Query Language 和不同的實作?
沒有,各門派從資料結構定義就不同。 - 向量能不能 varlength?alter table 能不能增加維度?
不行,只能把多的維度設零。可以 add 欄位再 drop 舊的,但不能動態改。 - 我怎麼幫文本分頁編碼?這是一個很重要的問題。
對這是一個很重要的問題,但這不是我們的任務…(這種來鬧場的好像無可避免…) - 公司怎麼起來的?
從大公司分出技術部分開一間新公司。然後找客戶和資金。比方說新加坡政府。
SQLancer 旨在找邏輯 bug。核心恆等式 count(*) = count(cond) + count(!cond)。
若出現不相等,那必然有問題。
接著大概就是抓常見的(舊版)DB engine 出來 demo。結果其實蠻容易找到。
算是想法簡單,實作破爛,但是結果不差的一個題目。(講者 demo java code,真滴破)
聽眾提問:
- 一直找到同個 bug 怎麼辦?(我問的,如同上次)
我們都是報 issue 等人修,修完再跑。有些 DB 修很快,有些永遠不知道幾時會修。
有好的 DB 已經把我們整合進他們的測試了。致於誰雷,想知道可以私下找我。 - 這種(需要幫助很多公司才能彰顯價值的)研究誰會贊助?
呃…我在公立學校…資金來源都是政府。 - 有沒有辦法找 performance bug?
SQL explain 很依賴計數,若 count(a) < count(a and b),就容易做出壞決定。
但本質上我們很難定義 performance bug。
我事後懷疑,最後一個提問的可能是樁腳,或是講者朋友。
發問者華人女生在社群不多見,惶論開口問問題,但學校裡面相對就多。
加上這個問題不像聽到最後才產生的,卻很晚才舉手。
再者社群好像不流行「你的槌子能不能敲化石」這種問題。
比較常見的問題是「你的槌子跟我手上這支地質鎚哪裡不同?」。
像我就會問說「fuzz 邏輯時有沒有什麼 heuristic 可以用?」。
我下次遇到闖入社群的學者應該要討教一些更理論的問題才對,比方說:
「你的核心恆等式完備嗎?有哪些 bug 是核心恆等式抓不到的?」
但也說不定人家就是不會賣理論才選擇去做實作的…
我發現新加坡本身就是一間土豪型創投公司。人稱 Lee’s Company。
美國創投教你處理身份稅務問題。新加坡幫你就地解決身份稅務問題。
(有錢能這樣用的政府不多了,要不被說圖利特定團體,要不早已拿去圖利特定團體)
研究一下星國投資喜好,說不定幾十年後有用得上之處。
–
※ 發信站: 批踢踢兔(ptt2.cc), 來自: xxx.xxx.xxx.xxx (臺灣)
Re: 沒有,曾經有一年 30 𦁈的學習補助,連一本英文書都買不起。現在連 30 𦁈都沒有。