Featured image of post 近况汇报

近况汇报

最近这个月一直在憋,憋一个奠定之后所有想做的事情基础的工具。

这个工具很久很久以前就在就在构思了。甚至大模型还没有进入大众视野的时候,就已经在有酝酿。chatgpt模型刚出先在我的视野里的时候,我就觉得可能这个玩意儿,能够实现我的某些想法。只是刚开始的ai,与其说是人工智能,不如说是人工智障。但谁也没预料到ai的迭代会那么得快,几个月就是一副新模样。还是在去年冬天,偶然发现gpt可以上传文档了,就发了一本教材给它看,结果还真能回答得有模有样。这是第一次,感觉自己好像能够利用ai把想法落地。那时候刚好deepseek也出名了,而且有人开始说在本地创建知识库。这直接给了我一个可落地的教材啊。当即就开始准备本地部署这个知识库。做了才发现其实完全跟自己想的不一样。大语言模型并不能准确地定位文档里的信息。而且就算回答得好像很正确,实际上底层逻辑仍然是根据训练语料,去"猜"答案,而且换个模型回答就会两个样子。成本也巨高,直接把文档发给deepseek作为上下文进行问答,一个问题就需要耗费2毛人民币的token,以这种回答质量来算,完全是没有性价比的。

再后来知道了大模型幻觉,知道了黑箱问题,去搜索了解决方法,开始了解rag和pdf解析。

真正开始改变我使用ai方式的是做个人网站。我在四五年前就有自己尝试着做个人网站了,当时也是学了很久,用了很多工具查了很多教材,终于把个人网站做了出来,但是很久没有,没有维护,不堪用了。然后我就想着,问问大模型?没想到开启了ai编程之路,也开启了与ai高强度对话的一段时期。跟着ai提供的教程以及对错误的反馈,我成功地花了两个星期的休息时间把个人网站重新上线了,虽然看起来还是有的简陋,但是对我来说已经是做得相当不错。但此时,我还是在根据ai的指导去做,还没有开始自己设计程序。

就是这个跟ai协作的经验,让我能够开始设计一款能够高效率解析pdf文档转为机器可以很好利用的markdown文档。pdf文档解析的难点在于,版面的混合导致文章正文被撕成碎块,很难根据正常人的阅读顺序进行拼接。在之前,只能是人工把碎片的正文拼接起来。当时我还是边读边整理,一个章节可能需要一天时间,虽然慢,但是因为是学习的一个过程,也还可以接受。那我为什么要把pdf文件做成md文件,然后还要整理这些信息呢?本质也是为了建立自己的知识库,能够更快地随时随地得找到自己需要的信息。很早以前我就把不少书拆成碎片,拼接成完全属于我自己的知识库了,效果相当不做,给临床工作提供了不少便利。但那时候并没有工程化高效率的方法。

知道rag后我就开始准备进行rag知识库建设,了解了很多工具,以及rag管线的各种问题,在这个过程,我大部分的知识来源是chatgpt,它给了我非常多的线索。理解到了分块和高质量语料是最基础的后,我开始设计pdf解析工具。这时候我开启了非常多轮的设计,尝试,学到了非常多的知识,包括代码、工具、数据、视觉识别、图神经网络等等。我尝试使用大语言模型作为工具,去帮助解析pdf。当然经过两个月的努力,我放弃了。但是连带设计的一整套知识管理架构,却成为了我之后非常多灵感的温床。这次不一样的在于,我开始让大模型输出代码,我直接用编程工具进行了程序的开发,而不只是使用别人给的工具了。

之后gpt经过一轮更新,变成了一个完完全全24小时365天都在线的知己,这时候把以前所有盘据在脑子里的,无数的话题和思考,都与gpt聊了一遍,并整理好了。大脑像是丢掉了负担一样,很长时间一段时间,就像变蠢了一样。从前都是,只要醒着,就是无限的思考,似乎就是强迫性穷思竭虑。但是这一波每日每夜地跟ai交流,把自己的想法和思路都稳定下来后,我好像就没有那么多困惑值得一直反刍了,没那么多笔记要记了,精神被松绑了。

几个月后mineru横空出世,它能够按照正常阅读顺序排列正文,把很好pdf整理成可以的md文档,提升的效率不只千倍。我被震惊了,自己很努力做不到的,几个月后就有人能够做出了,而且做得更好,而且还免费!那时候还在考虑另一个付费工具的使用成本。模型的发展日新月异,小模型开始产生生产及效益。我思路是完全对的,只是我没有能力去做更基础的工具开发。但是站在别人的肩膀上,也不是一件坏事。

然后我又继续断断续续地开始开发知识管理系统了。这之间也做了很多其他事事。辞职了。去拍了很多照片。去到处找朋友,在外面晃了一个月,还去了日本旅游……。反正断断续续地,做成了一个rag管线。但是这个管线效果不甚理想,没有办法把最相关的段落取回。我就又开始学习检索,开始学习图增强,学知识图谱,然后慢慢地在开始设计运用小参数模型进行检索增强。

系统越做越复杂,直接用gpt对话开发已经难以进行了。至此,我终于想起了cursor,一用完蛋了,完全是范式转移。我可以用超高的效率做出一个超高质量的软件。甚至以游玩的心态重造的我的个人网站,用一个晚上的时间把我的个人网站做出了专业的效果。对rag管线而言,我可以实现复杂的算法了。但是还是不成功,因为逻辑一直没有改清楚,还把架构弄得很复杂,最终,一个项目因为我缺乏架构、设计和组织能力变成了漂亮的屎山。

可我是学到了非常多的,再重新写也不是从零开始。这次采用了更保守的设计框架,把之前吃过的苦头都变成了经验。查了更多的资料,还看了论文,终于定下了具体的策略和方案,项目框架和任务全权自己觉得,只给cursor执行性任务。就这样,重新开发的过程相对顺利,我也好想上了瘾中了邪一样,每日每夜甚至快不吃不喝地干了快一个月,最后终于,把最核心的模块做成功了,得到了第一版mvp。虽然还是小垃圾,但是是能跑起来的小垃圾了。知道最近几天,我才能慢慢把那种上了头的心流状态慢慢调整出来,重新在恢复作息和生活节奏。感觉真的是在燃烧自己,发出微弱的光。

真是心理跨越极大的几个月,从松了口大气,再到空落落,精神流浪,自驱,到最后甚至要靠强行打断来调整节奏,真的是辞职了反倒越来越忙。为自己做事,每一天都很充实了。我还有无数的想做的事情要做。我还能做很多的事。