结合IFC标准的建设项目中文文本分类研究

作者：姜韶华吴佳琳

来源：《价值工程》2014年第27期

摘要：为促进项目参与方的合作和交流从而使项目更优质高效的完成，研究了结合IFC标准进行建设项目文档分类的方法。在对建设项目管理的特点进行深入分析的基础上，文章提出了将项目生命期中产生的大量的半结构化或非结构化的中文文本按照国际通用的IFC标准进行分类的方法，从而改进了文本的管理与利用效果。通过空间向量模型来表示中文文本，并采用夹角余弦的方法与国际通用的IFC标准中的实体进行相似度计算，最终实现中文文本的标准化分类，并通过案例分析验证了该方法的可行性。最后对本文提出的算法进行了评价，并提出了下一步的研究方向。

Abstract： In order to improve the usage of the construction documents， facilitate the

communication and cooperation among the participants to enhance project management， this paper presents a method of classifying the semi-structured and unstructured Chinese documents， which are produced during the project lifecycle， combined with the commonly used IFC standard based on the analysis of the characteristics of construction project management. This paper conducts a similarity computing between the entities of IFC standard and the Chinese documents by means of Space Vector Model and Cosine similarity algorithm in order to realize the standardized classification of the Chinese documents. Case study proves the effectiveness of the proposed method.

关键词：中文文本；IFC 标准化分类；信息管理

Key words： Chinese document；IFC standardized classification；information management 中图分类号：TU3 文献标识码：A 文章编号：1006-4311（2014）27-0009-03

0 引言

我国建设项目的生命期中，会产生大量的用中文表示的半结构化或非结构化的文本信息，将这些信息进行有效的分类，可以提高信息的利用率，方便快捷地查询相关信息，有助于信息的及时更新并有利于项目各参与方的协作，同时这些系统化分类的信息可以对未来的项目管理有借鉴和参考作用。

建筑信息模型的引入，为建设领域带来了一次新的革命[1]。本文研究了将中文文本根据IFC标准进行分类，从而使这些非结构化的文本能够集成到建筑信息模型中，提高项目管理效率，进而提高项目绩效。

1 背景综述

本章由三部分组成。第一部分讲述了建设项目管理的特点；第二部分对建筑信息模型及IFC标准进行了介绍；第三部分对空间向量模型及TF-IDF（Term Frequency- Inverse Document Frequency）权重算法进行了介绍。

1.1 建设项目管理的特点 Carlos H. Caldas（2002）[2]指出建设项目管理有如下几个特点： ①项目是独一无二的，是一个动态的设计、建设以及维护的过程，许多不同的因素很大程度上影响着建设项目的实施。追踪并调整建设信息的实时变化是项目管理的一大挑战。

②不同的项目组参与项目的整个生命期。这些组织可能是在不同时间、不同空间参与到项目中去的，信息的沟通交流尤为重要。

③不同的组织应用IT技术的先进程度不同，同时各个专业化的组织中使用的技术以及软件都不相同，信息在不同组织间的流通有障碍。

考虑到上述的建设项目施工环境特点，如何加强建设项目的信息管理和利用，如何使不同的项目参与者在共同的平台上（建筑信息模型）进行信息的无障碍交流沟通非常重要。本文的研究重点是，将这些不同项目参与方产生的中文文本用统一的标准IFC进行分类。

1.2 建筑信息模型和IFC简介建筑信息模型是一个设施的物理和功能特征的数字化体现

[1]。它是一个关于一个设施的信息共享和知识资源，已经在建筑行业的许多应用上获得不断提高的认可度，如结构分析、设计检测、调试、生命周期评估等等。

由于BIM整合了建设项目生命期中的所有利益相关者及其所有信息，需要一套行业通用的标准来促进信息的交流与访问。为此，国际协同工作联盟IAI（International Alliance for Interoperability）制定了IFC（Information Foundation Classed）标准，IFC是目前国际建筑业事实上的工程数据交换标准，并已经被接受为国际标准（ISO标准）。IFC标准能够描述建筑产品的各个方面的信息，是目前描述建筑信息最全面和详细的规范。IFC标准是通过一个分层和模块化的框架包含和处理各种信息，自下而上分为四个层次，同时遵守一个原则：每个层次只能引用同层次和下层的信息资源，而不能引用其上层资源，保证了信息描述的稳定性。

1.3 向量空间模型向量空间模型（Vector Space Model）是一组文本文档D1，D2，…，Dn用向量的形式表示而形成的空间模型。通过计算查询向量与文档向量的相似度来对文本进行分类。文档向量Di=（ti1，ti2，…，tim），其中ti1，ti2，…，tim是能代表该文档内容的特征术语，即为文档Di的特征项，每个特征术语的值代表该特征术语表达该文档内容的能力。向量空间模型通常采用TF-IDF算法计算权重。具体计算过程在研究方法一章中详述。 2 研究方法

本文的研究方法是：首先收集待处理的建设领域的中文文本，引入向量空间模型对文本进行预处理，采用TF-IDF算法对处理后的文档术语加权形成空间向量模型，最后与IFC实体及其说明形成的向量进行相似度计算，最终将中文文本标准化分类。

2.1 数据收集和预处理建设项目生命期中，会产生大量的信息，这些信息以图表、文本等形式存在。在进行分类之前，需要将这些文件进行预处理。文件预处理的目的是识别文档中的词语和它们在整个文本集的文档中出现的频率。预处理活动包括：分词处理，标记、移除停用词，频率计算。预处理的结果是为文本集中的每个文档产生一个文档向量d=（t1，t2，…，tm），文档向量中的每个特征项代表了该文档的特征术语，这些特征术语是预处理过后保留下来的文档中的词语。特征项的值就是该特征术语的权重（重要程度）[3]。

2.2 特征值提取和权值计算采用TF-IDF方法对经过预处理后形成的文档向量进行词频统计和权重计算。一个术语在一篇文档中出现的次数越多，对文档的内容表达得越好。同时，某个术语在整个文档集的文档中出现的次数越多，该词对某个文档内容的代表能力越弱。因此，计算术语权重的TF-IDF公式（1）如下：

W■=■（1）

其中，逆文档频率IDF的计算公式（2）如下：

IDFk=log（N/Fk+0.01）（2）

其中，TFik为第k个特征项在文档i中出现的频率；IDFk为第k个特征项的逆文档频率；N为需要分类的文档集的文档数量；Fk为包含第k个特征项的文档的数量。

2.3 相似度计算本文采用夹角余弦来进行相似度的计算。假设X为某文档向量，Y为IFC某实体及其说明形成的向量，则向量X和向量Y之间的夹角余弦公式（3）：

cosα=■（3）

将计算后的结果设定一个阀值，将超过该值的文档分到该类别中去，并做相似度的排序。这样就完成了中文文本的标准化分类。

3 案例分析

本文选取4篇文档和2个IFC实体作为案例进行

分析。

四篇文档分别为：1、楼梯设计一般步骤；2、非承重外墙板的安装构造；3、楼梯设计规定；4、防火墙构造规范。

选取了两个IFC实体：Ifcwall，Ifcstair。

首先将需要分类的四篇文档使用ICTCLAS（Institute of Computing Technology， Chinese Lexical Analysis System）软件进行分词。该软件是由中国科学院计算技术研究所在多年研究工作积累的基础上，研制而成的汉语词法分析系统，是非常好的汉语词法分析器[4]。此处以文本1为例说明具体的处理过程。首先，使用ICTCLAS2014进行文本分词处理如图1所示。第二步，用汉语词频计算软件计算每篇文档的术语出现次数。

第三步，使用TF-IDF算法计算权重。阀值可以根据需要确定，此处设定特征值的阀值为0.04。将权值小于该阀值的特征项去除，表1显示了文本1的特征值及权重，其中特征项“基础”和“建筑”由于小于阀值，被去除。

第四步，处理IFC实体向量。IFC框架中，对每个IFC实体都进行了描述和详细的说明。IFC框架中有非常多的实体，本文选取了结构领域中的Ifcwall和Ifcstair两个实体为例进行计算。IFC实体向量可以使用英文分词工具Standard Analyzer提取网页中有效描述IFC实体的术语，并根据专家的经验提取出一系列特征项。本案例选取的Ifcwall和Ifcstair两个实体经过翻译、处理之后形成的向量是：

墙实体（Ifcwall）：（墙，承重，结构，材料，砌体，混凝土，固定，厚度，门窗洞口，强度）。

楼梯实体（Ifcstair）：（楼梯，梯段，平台，踏步，踢面，踏面，层间，坡度，栏杆，通道）。

根据术语在IFC类型说明中出现的次数和表达意思的重要程度、区分度以及专家经验对IFC实体向量中的术语赋予权重，归一计算后如下：

墙实体：（0.40，0.10，0.10，0.08，0.05，0.05，0.02 ，0.02，0.08，0.1）

楼梯实体：

（0.35，0.13，0.13，0.10，0.10，0.10，0.03，0.02，0.02，0.02）

经过以上的计算处理，四篇文档的特征项的IDF值和特征项的权重如表2所示。第五步，将以文档向量与两个IFC实体向量分别计算相似度，计算过程及结果如下： Cos （D1，E1）=0

Cos （D2，E1）=0.261/0.457=0.570

Cos （D3，E1）=0.006/0.457=0.014

Cos （D4，E1）=0.218/0.456=0.477

Cos （D1，E2）=0.382/0.434=0.879

Cos （D2，E2）=0

Cos （D3，E2）=0.361/0.434=0.830

Cos （D4，E2）=0

设定一个相似度阀值，将小于该阀值的文档视为不与该实体相关。本文通过对以往许多案例的分析总结并结合专家经验，设定夹角余弦值不小于0.4时，认为两个向量是相似的，可以归为一类。

综上，根据上述计算结果可以得出，文本1和文本3相似于楼梯实体（ifcstair），文本2和文本4相似于墙实体（ifcwall）。四篇文档的分类均取得了正确的结果。

4 结论及评价

本文提出了一种基于IFC的文本分类算法。通过该方法可以把建设项目的文档与IFC体系进行结合，从而可以为工程项目管理提供更好的支持。

在研究的过程中，发现以下几点问题需要进一步

研究：

首先，特征术语的表现方式不同。例如，IFC框架里ifcactor实体中“人员”一词，对应的中文文本中出现的可能是具体的人名或职位。这就会造成两个向量的相似度降低，导致分类不准确。因此有必要引入本体的概念，导入领域本体，将相关的概念进行归类扩展[5]，可以大大提高查询的准确度。

第二，IFC标准和我国建设领域的规范仍有差异[6]，需要对IFC标准根据我国行业实际情况进行适应性的调整和扩展。

第三，中文文本按照IFC标准分类时，不可避免的要经过语言转换，在转换的过程中会发生信息损失、偏差以及渗入翻译者的主观想法等，这会直接干扰分类的准确度。因此IFC标准在我国建设领域的普及使用还需要许多专业人员对这一情况进行深入的研究。

参考文献：

[1]National Building Information Modeling Standard （NBIMS） [EB/OL].（August 27，2010）http：//www.wbdg.org/pdfs/.

[2]Carlos H. Caldas， S.， Lucio Soibelman， Jiawei Han. Automated Classi cation of Construction Project Documents [J]. JOURNAL OF COMPUTING IN CIVIL ENGINEERING， 2002， 16（4）：234-243.

[3]Mohammed Al Qady， Amr Kandil. Automatic Classification of Project Documents Based on Text Content [J]. Journal of Computing in Civil Engineering， doi：10.1061/（ASCE）CP.1943-5487.0000338.

[4]ICTCLAS 官方网站 [EB/OL].（July， 2012） http：//ictclas.org/.

[5]张健.BIM环境下基于建设领域本体的语义检索研究[D].

辽宁省大连市：大连理工大学，2013.

[6]马智亮，娄喆.IFC标准在我国建筑工程成本预算中应用的基本问题探讨[C].工程三维模型与虚拟现实表现——第二届工程建设计算机应用创新论坛论文集，2009：25-34.

结合IFC标准的建设项目中文文本分类研究

相关文章