软件开发公司的关系数据库用于保存项目开发和实施中的信息或数据,从而保存数据之间的关系。 这个属性使它成为数据科学家的有用工具。 然而,关系数据库研究社区与数据科学家之间存在差距。 这导致数据科学中数据库的使用效率低下。 北京软件正试图弥合关系数据库与数据科学之间的差距。
大多数数据科学家使用R、Python和C/C等分析工具进行研究。 这些工具很难与当前的数据库系统集成,导致数据分析缓慢而麻烦。 北京软件开发公司:“数据科学家选择开发? ? 重塑数据库系统的一系列数据管理替代方案,它们可以执行类似于传统数据库管理系统的任务,但几十年前在数据库领域解决了许多问题。 “
“数据库研究界在开发一种可用于有效分析和查询处理的强大数据库引擎方面取得了重大进展。” 软件开发公司试图将数据库科学中的这些创新与数据科学家最常用的分析工具结合起来。 北京软件外包公司:“我们研究了如何促进分析工具和关系数据库管理系统的高效和易于集成。 “
大型数据集
在计算机科学中使用标准数据库系统的另一个问题是处理的数据的大小。 大多数数据库系统没有针对大型数据集和使用远程服务器进行大规模数据分析进行优化。 优化数据库系统,可以考虑三种方法。
软件公司:“我们主要研究三种数据库-客户端集成方法:客户机-服务器连接、数据库内部处理和将数据库嵌入到客户机应用程序中。” 对于每种方法,他检查了现有数据库系统中的实现,并评估了它们在数据科学中常见的大型数据集和工作负载中的效率。
鸭子数据库
最终的结果是一个名为DuckDB的新数据管理系统,该系统致力于与R和Python(以及其他分析工具)进行高效和简单的集成。 管理系统被设计成一个成熟的数据库系统,不仅用于研究目的。 “在Duck DB期间,我们将学习数据库-客户端集成的所有经验教训,并创建一个易于使用和高效的嵌入式数据库。” 北京软件外包公司将继续成为CWI的博士后研究员,在那里他将继续开发DuckDB。