有男不玩ml吧 关注:107,692贴子:7,550,294

献给信息流失时代下的消费者们

取消只看楼主收藏回复

帮助更好的留档


IP属地:江苏1楼2025-10-31 20:15回复
    二楼自占


    IP属地:江苏2楼2025-10-31 20:15
    收起回复
      2026-04-20 02:15:44
      广告
      不感兴趣
      开通SVIP免广告
      吧里的文创运动搞得如火如荼,本人不具有太多的文学天赋。故写点以前保存互联网散沙信息的心得,帮助人们保存信息。对我而言,互联网看似精密的信息存储设计和海量数据实际上是一盘散沙。

      以纸质媒介为例,现如今你哪怕要出版一个标点符号都要经历找出版社,审核,销售的种种环节。但只要书印出来了,多卖几本,有图书馆搜录,注意保存环境,多年甚至几十年后都是可以阅读的。


      IP属地:江苏3楼2025-10-31 20:18
      回复
        互联网信息则完全不同,没有出版社或销售让信息得到了快速传播,让我们建站发海风文选并非难事。然而后期维护服务器的成本却是相当高的(阿里云最便宜的 2 核 CPU 0.5GiB 内存 20GiB 外存月租已经要 35 块了)。而且由于服务器不像纸媒那样去中心化,还要承受潜在的网络攻击风险威胁。就算你只发在贴吧上做到去中心化处理,可百度在 17 年也是有清理早期帖子的勾当的;如果你技术够高也可以借助 github 和 cloudflare 托管网页,但这样也不方便传播,而且也没有解决根本问题。从 2013-2023 中所有网页已经有 38%无法访问了(https://www.zhihu.com/question/656594393/answer/3507877913),这还是剔除审查机制干扰下的结果。以上种种因素叠加也让数字信息发的快消失的也快。

        纸质媒体虽然用到的时候检索不便,但至少它能够被检索,多跑跑图书馆总会有的,然而电子数据没了就是没了。


        IP属地:江苏4楼2025-10-31 20:22
        回复
          电子数据当然也可以做到分布式存储,但这样做对大众的知识水平要求太高了(例如 BT、PT 和纸质媒体 email 服务,纸质媒体会给订阅用户发 email 来发新闻,这样即便传统媒体倒闭了信息仍在邮箱里)


          IP属地:江苏5楼2025-10-31 20:24
          回复
            【2】制度性失忆
            .
            在阿西莫夫就在《基地》三部曲中描绘过这种场景。

            银河帝国没落,科研人员断层,只剩维护没有创造。于是科技成了宗教,技师变身祭司。

            人记得事物如何工作,以及为什么能工作。有时候他们会将其写下来,将信息存储于某处。

            有男不玩的 ML 仙人知道混厕如何衰败(结构性矛盾),为什么会衰败(无法描述的现实社会矛盾),将他们写下来(帖子)。

            制度性失忆可以理解为:人离开了,文档丢失、腐烂或者仅仅被遗忘了,然后信息丢失了。


            IP属地:江苏6楼2025-10-31 20:27
            回复
              【3】现在在我们这个很年轻的论坛里这个现象还不明显,但在工程领域甚至一些老游戏是很突出的。比较典型的是碧蓝航线和舰 C,之间的恩怨就像一大堆奇怪堆叠的管线,他们知道当时发生了什么,但不知道如何杂乱成这样的。具体来说,你知道它该如何产生、维护,也知道它是怎么运作的,但你就是无法理解它这样为什么能够跑起来。 甚至在我们之中已经显现,很多人知道有反黑,知道为什么反黑,如何反黑(花钱下黑二创,AI 洗版)。但具体的细节早已丢失(老人大多离开,没有文献记录)。庆幸的是,我们以后大概率不需要这些知识了。


              IP属地:江苏7楼2025-10-31 20:30
              回复
                制度性失忆是人类社会难以解决的问题,即便是本人的方法也只能缓解,不能根治。这也是后人复哀后人的重要原因。后人可能知道要反对 LGBTQ+,也知道如何反击 LGBTQ+。但不知道这样做对他们社区有什么用! 倘若没有留下足够的文档或人员,相同的惨案会继续在未来上演。(事实上,几乎难以有人员留下来,所以留下不加任何黑话的文字记录很重要)
                .
                传承各项技术与它们 重要性的高低 的知识则更加困难。如果仙人们能保存较多完善的细节方面的资料,大概会有帮助。这样在老人退出社区后,人们才不会彻底遗忘。
                .
                因此本文目的很简单了,记录下所有我常用的留档手段,方便人们使用。要时刻牢记只有在你硬盘中的东西才是你的,哪怕只是一个标点符号。所有存储方法大多数在电脑上完成,手机只建议使用截图或录屏。


                IP属地:江苏8楼2025-10-31 20:33
                回复
                  2026-04-20 02:09:44
                  广告
                  不感兴趣
                  开通SVIP免广告
                  【5】这里不提及使用 Internet Archive Wayback,因为不是所有人都有魔法。我们主要阐述个人保存信息的方式。
                  .
                  针对短信息和视频
                  .
                  对于向微博、推特等短信息平台,我本人更推荐上文提及的截图或录屏,即便是微博中较长文章的卢诗翰(https://weibo.com/n/%E5%8D%A2%E8%AF%97%E7%BF%B0)或 sven_shi(https://weibo.com/u/2382064902) 顶天也只是万字的规模,一般情况下长截图足以应对,更短的可以直接 Ctrl + CV,这方法同理也适用于 b 站专栏或者较短的帖子。无论如何,在不追求观赏性的前提下,直接截图是最好的。倘若存储空间不够也可以文字部分 Ctrl + CV,图片单独保存。
                  .
                  需要强调的是,微博图片会全部放在下方,这种情况无法保存,如果需要的话建议手动保存(大多数情况下不算太多)。鉴于微博评论区有字数限制;小红书则更像平凡日常琐事的纪念平台且时效性极强(比如旅游攻略)。倘若作者有其他平台的账号,建议留档其他平台而非这两个平台。

                  如果信息中具备动图,建议单独保存。
                  .
                  电脑长截图、动图的工具我建议使用pixpin(https://pixpin.cn/docs/start/what-is-pixpin.html),工具的使用自行搜索。


                  IP属地:江苏9楼2025-10-31 20:36
                  回复
                    大多数人长视频留档大多数在 B 站或抖音,不建议使用手机缓存,不仅提取麻烦而且需要将视频音频相结合。本人建议使用脚本或扩展帮助下载。例如 Greasy Fork 脚本尾号为 413228 的脚本不仅可以帮你下载视频和弹幕,而且还顺手看出阿 B 的压缩有多狠。抖音可以使用 522326。油管视频就不过多介绍了,外面的下载手段更加多样。


                    IP属地:江苏10楼2025-10-31 20:38
                    收起回复
                      【7】针对长信息
                      .
                      如果你想留存这个 https://tieba.baidu.com/p/10086067827 或者这个 https://www.bilibili.com/opus/799300354716991490 慢慢截图绝对是个大工程。视频方面可以缓存,这里主要说下文字图片信息的留存,这种规模的就需要借助工具了。
                      .
                      对于贴吧
                      贴吧建议使用 https://github.com/zouun/multiTiebaArchiverhttps://github.com/Sorceresssis/TiebaReader。缺点是不能自动跟新,但用于留档已经足够。
                      .
                      具体的使用方法在 Github 很明确,我会给无法访问的人留一个压缩包保留软件,但不会更新。
                      .
                      Archiver 导入 BDUSS 可能会出错,这时可以打开在外面生成的 tieba_auth.json 文件中的 "BDUSS": "" 中导入。
                      .
                      PS:吧友的氪条贴快4GB了




                      IP属地:江苏11楼2025-10-31 20:41
                      收起回复
                        【8】知乎
                        知乎建议使用 Greasy Fork 脚本尾号 478608 的脚本留存。可以一键保存为 MD 格式。如果你不知道如何打开 md 文档,那用记事本也行,里面的标识符影响并不大。顺带一提,这样做图片留下的是网址,可以使用 typora(一种专门的 md 写作工具)中“对网络图片应用上诉规则”的“保存图片到……”来自动保存图片。如果不追求美观也推荐直接保存为压缩包,这样图片也可以直接下载下来。


                        IP属地:江苏13楼2025-10-31 20:51
                        回复
                          【9】其他平台较长的专栏
                          使用长截图工具留存。这种规模就不要在意美观了,留下信息才是王道。况且现在也是短视频的时代了,长文章除了贴吧知乎没几个地方有了,虽然对我来说知识的吸收效率是长文字 > 长视频 > 短文字 > 短视频。本人使用 firefox 浏览器推荐一个扩展 https://addons.mozilla.org/zh-CN/firefox/addon/screenshot2html/可以更快截图,chrome 和 edge 也有类似的扩展,这里不做过多介绍。使用浏览器中的另存为网页也是个不错的选择,但需要及时查看文件保存是否正确。
                          .
                          考虑到存储大小,留档操作如果可以的话尽可能留下文字信息而非图片,要留下原文和原作者的链接。
                          .
                          从上文已经看出,这只是最简单的留档操作,截图、复制都是很简单的,即便是长文也只是多耗点时间而已,然而这只是存电子数据最简单的开始,我们继续下一步吧。到这里,我们所需的信息到此已经留存下来。


                          IP属地:江苏14楼2025-10-31 20:57
                          回复
                            【10】命名与存储结构
                            .
                            留下信息可不是为了留下而留下,迟早你是需要检索的。这时起个容易总结的文件名至关重要,一般起文章标题就行,如果是知乎那种问问题解答的方式可以交给 AI 总结标题,同理帖子、视频中比较水的标题也需要更换。

                            名字起好后,若没有跟新需求且不需要每天查看,可以直接压缩,此时压缩可以不带密码。

                            存储中建议以应用分,每个应用文件夹下在新建文件夹单独放留下的信息(记得改名,很重要,如 "./tieba/木圣钩子文学", "./bilibili/精灵族大姐姐的故事")。同一个应用下也可以按内容分,比如把有男不玩 ML 吧、尘白禁区抗压吧、尘白禁区内鬼吧、鸣潮包容吧等内容放一块。

                            如果你觉得这个文件夹后期太大了,那么可以直接压缩,使用名为应用加时间段的方式留存(如 tieba_20250930_20251023), 此时的压缩包在后文有更详细的处理方式。


                            IP属地:江苏15楼2025-10-31 21:01
                            回复
                              2026-04-20 02:03:44
                              广告
                              不感兴趣
                              开通SVIP免广告
                              【11】存储介质与方法
                              .
                              重要数据有一个 3-2-1 原则
                              .
                              即备份到 3 份,至少 2 个不同介质,至少有 1 个是在异地。
                              .
                              我们普通人虽然难以做到这点,但这里面有个隐含条件得明白——不要萝卜白菜都放在一个框子里。


                              IP属地:江苏18楼2025-10-31 21:06
                              回复