生物信息學數據分析的作用主要包括:
①用于生物信息學數據分析的建立與查詢:包括基因和基因組數據庫(如Genbank、EMBL核酸序列數據庫、GDB等)、蛋白質數據庫(如PIR、PSD、SWISS-PROT、PROSITE、PDB等)以及功能數據庫(如KEGG、TRRD、TRNSFAC等)。
②用于序列比對:即蛋白質序列之間或核酸序列之間的比對。包括序列的兩兩比對和多序列比對。
?、酆怂崤c蛋白質結構和功能的預測分析。
④基因組序列信息分析。
?、莨δ芑蚪M相關信息分析:包括大規模基因表達譜分析、基因組水平蛋白質功能綜合預測。
具體而言,生物信息學數據分析發現中應用的數據挖掘技術包括:
①構選基因數據庫或數據倉庫:由于廣泛多樣的DNA數據高度分數,為了便于對DNA數據庫進行系統分析,需要利用數據挖掘中的數據清理和數據集成的方法來構造集成式數據倉庫和開發分布式數據庫。
?、谛蛄心J椒治觯篋NA序列間的相似搜索和比較是基因分析中重要的問題之一。由于基因數據是非數字的,所以數據挖掘中針對非數字的序列模式分析方法在基因序列比對中能起到非常重要的作用。
?、坳P聯分析:大部分疾病不是由一個基因引起的,而是由多個基因組合起來共同起作用的結果。因此采用數據挖掘中的關聯分析方法有助于發現基因組間的,進而揭示人類疾病背后的基因原因。
?、芸梢暬夯虻膹碗s結構和序列模式常常需要由各種可視化工具以圖、樹、鏈等形式來表現??梢暬ぞ哂兄谏镄畔⒌哪J嚼斫夂椭R發現。