blog

DNA如何成为数据存储的下一个前沿

人类正在以难以想象的速度生成数据,以至于存储技术无法跟上每五年,我们生产的数据量增加了10倍,包括照片和视频并非所有数据都需要存储,但数据存储的制造商并没有让硬盘和闪存芯片足够快,以保持我们想要保留的东西因为我们不打算停止拍照和录制电影,我们需要开发新的方法来保存它们几千年来,大自然已经发展出一种令人难以置信的信息存储介质 - DNA它发展为存储遗传信息,构建蛋白质的蓝图,但DNA可用于更多目的,而不仅仅是DNA比现代存储介质更密集:数十万的数据DVD可能适合火柴盒大小的DNA DNA包装也比今天的硬盘更耐用 - 持续数千年 - 这可能持续数年或数十年而硬盘驱动器格式和连接关于标准已经过时,DNA永远不会,至少只要有生命将数字数据存储在DNA中的想法已有几十年的历史,但哈佛大学和欧洲生物信息学研究所最近的研究表明,现代DNA操作方法的进步可以使它成为现实今天既可行也有实际许多研究小组,包括苏黎世联邦理工学院,伊利诺伊大学厄巴纳 - 香槟分校和哥伦比亚大学正在研究这个问题我们在华盛顿大学和微软的团队都拥有数据量的世界纪录成功存储并从DNA中检索 - 200兆字节准备位成为原子传统介质(如硬盘驱动器,拇指驱动器或DVD)通过更改材料的磁性,电气或光学属性来存储数字数据以存储0和1以存储数据DNA,概念是一样的,但过程不同DNA分子是较长的较小分子序列,称为核苷酸 - 腺嘌呤,胞嘧啶,胸腺嘧啶和鸟嘌呤,通常命名为A,C,T和G而不是创建0和1的序列,如在电子媒体中,DNA存储使用核苷酸的序列有几种方法可以做到这一点,但一般想法是将数字数据模式分配给DNA核苷酸例如,00可以等效于A,01到C,10到T和11到G要存储图片,例如,我们从其编码开始作为数字文件,如一个JPEG那个文件本质上是一个长0和1的字符串假设文件的前8位是01111000;我们将它们分成两对 - 01 11 10 00 - 对应于CGTA这是我们加入核苷酸形成DNA链的顺序数字计算机文件可能非常大 - 对于大型数据库来说甚至是太字节数但是单个DNA链必须要短得多 - 每个只保留大约20个字节那是因为DNA链越长,化学构建就越困难所以我们需要将数据分成更小的块,然后在每个块中添加一个指示符当读取DNA存储的信息时,该指标将确保所有数据块保持正确的顺序现在我们有一个如何存储数据的计划接下来我们必须实际执行它存储数据确定什么顺序后字母应该进去,DNA序列是用化学反应逐个字母制造的。这些反应是由装有A,C,G和T瓶的设备驱动的,并将它们混合在液体溶液中与其他化学物质一起控制指定物理DNA链的顺序的反应这个过程为我们带来了DNA存储的另一个好处:备份拷贝化学反应不是一次制造一条链,而是一次性产生许多相同的链在系列中制作下一链的许多副本一旦DNA链产生,我们需要保护它们免受湿气和光线的损害所以我们将它们干燥并将它们放入容器中以保持冷却并阻挡水和光但是只有当我们以后可以检索它们时,存储的数据才有用。回读数据为了从存储中读回数据,我们使用的测序机与用于分析细胞中基因组DNA的测序机完全相同。这样可以识别分子,生成字母序列每个分子,然后我们按顺序解码成0和1的二进制序列 这个过程可以在读取时破坏DNA - 但这就是那些备份副本发挥作用的地方:每个序列都有许多副本如果备份副本耗尽,很容易制作重复副本来重新填充存储 - 就像大自然一直复制DNA目前,大多数DNA检索系统都需要读取存储在特定容器中的所有信息,即使我们只需要少量的信息,这就像读取整个硬盘驱动器的信息一样只是为了查找一封电子邮件我们开发了基于经过深入研究的生物化学方法的技术 - 让我们只识别和读取用户从DNA存储中检索的特定信息片段剩余的挑战目前,DNA存储是实验性的在它成为普通之前,它需要完全自动化,并且必须改进构建DNA和读取它的过程它们都容易出错并且相对较慢例如,今天小号DNA合成让我们写每秒几百个字节;现代硬盘驱动器每秒可以写入数亿个字节平均iPhone照片需要几个小时才能存储在DNA中,虽然只需不到一秒钟就可以节省电话或转移到计算机这些都是重大挑战,但我们乐观,因为所有相关技术都在快速提高此外,DNA数据存储不需要生物学所需的完美准确性,因此研究人员可能会发现更便宜,更快捷的方式将信息存储在自然界最古老的数据存储系统中Luis Ceze,Associate华盛顿大学计算机科学与工程系教授,微软研究院计算机体系研究员Karin Strauss;会员华盛顿大学计算机科学与工程副教授本文最初发表于The Conversation阅读原文The Conversation's logo照片:

查看所有