向山大概听明白了。
或者说唯一让向山懵逼了一瞬间的也就是英格丽德举出的那个例子。
他没想到会在这种场合听到这种……奇怪的例子。
但是除此之外好像并没有什么更有价值的东西。
只能说任何专业人士在超出自己专业领域之后就不比一般人更加智慧吧。
虽然在英格丽德眼中这些外星人的书写方式有趣极了但归根结底这就是一种压缩算法。
而这无法解释向山现在在琢磨的问题。
“所有外星机械的设计图纸、装配工艺、材料制造的参数再加上它们自身运行的ai加在一块是如何压缩到两三百mb这个水平的”。
外星人使用了两种压缩算法。
一种大致可以称作“字典算法”即“将高频出现的排列组合用做成对应字典然后用字典内编号代码来替代该组合”。这种手段人类也在使用。当然如果“字典”做得很大那么数据本体就可以压缩得很小。但有些时候又会形成“字典比数据本体还要大”的情况。
外星人大概是选择了一个恰好的数值保证“本体+字典”的大小最小。
另外就是英格丽德所说的这种二维的符号矩阵。
但不管怎么样信息的无损压缩一定是有极限的。
而这种二维矩阵的算法不管外星人将读取规则设计得怎样花里胡哨它都存在一个“上限”的。
就如英嘉所说如果多增加一个“下一个终止/方向符号无效”的符号固然可以增加读取路线的数量但是却会导致符号之中混入大量除了表示“下一个终止/方向符号无效”之外没有其他任何意义的符号“字典”的集合之中也要增加项目。
“读取路线”的增加会导致“掺杂过多只与读取规则有关的符号”以及“字典”的膨胀。
同字典算法一样到最后同样也会出现“读取规则”大小大于数据本体大小的问题。
这里面同样存在一个平衡点。
按照向山估计关于读取规则的符号可能也就那么几个不会太多。
而二维的符号矩阵也存在另一个问题。就好像“填字游戏”一样一个空间坐标上的符号要受到来自四个方向内容的制约。这反而使得信息的表达不像一维的文字那样自由。
“就用你举的例子来说吧……”向山是如此说的:“虽然那个古代诗人在八百四十字里面压缩了七千九百五十八首诗但是我敢肯定这七千九百、将尽八千首的诗单独拆出来的话没有一首可以流传千古吧说不定还存在那个什么……格律啊韵脚不那么工整的情况。”
英格丽德有些好奇:“你看上去好像是刚刚才知道这玩意的……”
“如果那个文字游戏里面拆出来的诗足够优秀的话肯定会上课本。那我肯定会有印象。”向山在这一点上倒是非常确信:“仔细一想古代多半没有标点符号断句也得后人来猜……”
英格丽德捂脸:“我猜你想说‘句读’。”
向山无视了英格丽德的提示:“你看从这一点来看这种文字游戏对信息的压缩损失很大效率也就那样。它甚至不是‘压缩任意八千首诗’以压缩算法的标注来看……嘶……”
向山好像意识到了什么……
——不是“压缩了任意八千首”……不一定是压缩……
——什么……