Надо Знать

добавить знаний



SMILES



План:


Введение

Генерация номера SMILES:
Сначала кодируются разорванные кольца, затем описывается ответвления от основной структуры.

SMILES ( англ. Simplified Molecular Input Line Entry Specification ) - Спецификация упрощенного представления молекул в строке ввода - система правил (спецификация) однозначного описания состава и структуры молекулы химического вещества с использованием строки символов ASCII срочном типу.

Строка символов, составленный по правилам SMILES, может быть преобразован многими молекулярными редакторами в двумерную или трехмерную структурную формулу молекулы.

Первоначальный вариант спецификации SMILES был разработан Артуром (Arthur Weininger) и Дэвидом (David Weininger) Вайнингер конце 1980-х [1]. В дальнейшем стандарт был модифицирован и расширен; наиболее активное участие в этой работе приняла компания Daylight Chemical Information Systems, Inc.

В 2007 году принят открытый стандарт OpenSMILES разработан Blue Obelisk.


1. Примеры

SMILES запись Структурная формула Название
C CH 4 Метан
CC CH 3-CH 3 Этан
CCC CH 3-CH 2-CH 3 Пропан
Clc(c(Cl)c(Cl)c1C(=O)O)c(Cl)c1Cl C 7 HCl 5 O 2 Пентахлорбензойна кислота

1.1. Принципы построения SMILES

2. Атомы

Атомы обозначаются символами химических элементов в квадратных скобках, например, золото обозначается как [Au]. Для элементов-составляющих органических молекул (B, C, N, O, P, S, F, Cl, Br, I) скобки могут быть опущены. В этом случае атомы водорода можно не указывать в явном виде, если их количество соответствует наименьшей нормальной валентности соответственно явно заданных связей. Атомы в составе ароматических циклов обычно записываются строчными буквами вместо прописных. При необходимости указать формальный заряд частицы атома водорода и символ заряда записываются в явном виде [2]. Изотопы записываются в квадратных скобках с указанием атомного веса перед символом атома, например, изотоп 13 C будет записан как [13C].

Например, запись SMILES для воды будет выглядеть как O, для этанола - CCO. Анион гидроксила записывается [OH-], а ион железа (II) как [Fe +2].


3. Связи

Связь Символ опция
Простой связь - так
Двойная связь = ни
Тройной связь # ни
Четырехкратный связь * $ ни
Ароматические связи : так

* Только OpenSMILES

4. Разветвление

Боковые цепи молекулы помещают в круглые скобки. Например, пропионовая кислота записывается как CCC (= O) O. Каноническая форма записи трифторметану выглядит как C (F) (F) F, однако такая запись неудобен для чтения вследствие своей перегруженности скобками, поэтому ту же молекулу можно записать в неканонической форме как FC (F) F.


Структурная формула SMILES-String Название
Essigsure - Acetic acid.svg CC(=O)O Уксусная кислота
Tert-Butylalkohol.png CC(C)(C)O трет-Бутанол
Nitroglycerin-2D-skeletal.png C(C(CO[N+](=O)[O-])O[N+](=O)[O-])O[N+](=O)[O-] Тринитрат глицерина

5. Циклические структуры

Атомы, находящиеся на концах разорванного при построении скелета набора связей, обозначаются одним и тем же номером. Например, циклогексан записывается как C1CCCCC1, а бензол - как c1ccccc1 [3].

Структурная формула SMILES-String Название
Strukturformel Benzol c1ccccc1 Бензол
Strukturformel Trinitrotoluol Cc1c([N+]([O-])=O)cc([N+]([O-])=O)cc1[N+]([O-])=O Тринитротолуол
Strukturformel Naphthalin C1=CC=C2C=CC=CC2=C1 Нафталин

Примечания

  1. David Weininger, SMILES, a chemical language and information system. J. Chem. Inf. Comput. Sci.1988, 28, ст 31. - dx.doi.org/10.1021/ci00057a005
  2. SMILES спецификация Раздел 3.1 - www.opensmiles.org/spec/open-smiles-3-input.html # 3.1
  3. SMILES спецификация Раздел 3.4 - www.opensmiles.org/spec/open-smiles-3-input.html # 3.4


Реторта Это незавершенная статья химии.
Вы можете помочь проекту, исправив и дополнив ее.

код для вставки
Данный текст может содержать ошибки.

скачать

© Надо Знать
написать нам